Modely AI pro převod obrázků na text: CLIP, BLIP, WD 1.4 (aka WD14), SigLIP 2 a ChatGPT s Vision

V rubrikách AI/ML, Art, Open Source Štítky , , ,
Save and Share:

Automatické tagování, popisování nebo popisování obrázků je klíčový úkol v mnoha aplikacích, zejména při přípravě datových sad pro strojové učení. Právě zde přicházejí na scénu modely pro převod obrázků na text. Mezi přední modely pro převod obrázků na text patří CLIP, BLIP, WD 1.4 (také známý jako WD14 nebo Waifu Diffusion 1.4 Tagger), SigLIP 2 a ChatGPT s Vision.

CLIP: Revoluční skok

Model Contrastive Language–Image Pretraining (CLIP) od OpenAI si získal široké uznání pro svůj revoluční přístup k pochopení a generování popisů obrázků. CLIP využívá obrovské množství internetového textu a obrazových dat, aby se naučil širokou škálu vizuálních konceptů, a tím vytvářel popisné věty pro obrázky.

Nicméně, podle uživatelských recenzí mohou být popisné věty CLIP někdy zbytečně rozvláčné nebo příliš popisné. Běžná kritika se točí kolem tendence modelu opakovat podobné popisy pro stejný objekt nebo přehnaně zdůrazňovat určité atributy, jako je barva objektu.

BLIP: Jednoduchost se snoubí s funkčností

Model BLIP, i když je méně detailní ve svých popisech ve srovnání s CLIP, nabízí jednodušší a přímější přístup ke zpracování obrázků na text. Jak poznamenal jeden recenzent, BLIP je „cool a všechno, ale je docela základní.“ Tato jednoduchost modelu může být výhodou pro aplikace, které vyžadují přímočaré, méně rozvláčné tagy nebo popisy.

Nicméně, někteří uživatelé zjistili, že výstup BLIP často postrádá hloubku a granularitu poskytovanou modely jako WD14. I když může generovat uspokojivé výsledky, BLIP nemusí být nejlepší volbou pro aplikace, které vyžadují detailní a komplexní tagy.

Zjistil jsem, že WD14, i když je zaměřený na anime, funguje skvěle i pro skutečné fotografie lidí. Obvykle ho kombinuji s BLIP a většinou případů zachytí mnohem více detailů než BLIP.

Toni Corvera v komentářích na YouTube

Blip je cool a všechno, ale je docela základní.

Tagování WD 1.4 (WD14) je mnohem lepší – více detailů, šťavnatější tagy.

OrphBean na GitHubu

WD 1.4 (aka WD14): Preciznost v detailech

Model WD 1.4 (také známý jako WD14 nebo Waifu Diffusion 1.4 Tagger), původně navržený pro anime obrázky, prokázal překvapivou všestrannost a dobře si vede i s fotografiemi. Uživatelé si pochvalují jeho pokročilé možnosti konfigurace a schopnosti dávkového zpracování, díky čemuž je robustním nástrojem pro převod obrázků na text.

To, co WD14 odlišuje, je jeho schopnost generovat detailní, „šťavnatější“ tagy, poskytující hlubší popisy obrázků ve srovnání s jeho protějšky. I když je méně pravděpodobné, že tento model vyprodukuje falešné tagy, jeho zaměření na anime může být omezením pro určité typy obrázků.

Otázka: Je tagger WD14 lepší než BLIP nebo deepdanbooru zabudovaný v Automatic1111?

Odpověď: Rozšíření poskytuje lepší možnosti konfigurace a dávkového zpracování a zjistil jsem, že je méně pravděpodobné, že vyprodukuje zcela falešné tagy než deepdanbooru.

CLIP/BLIP je jiný, protože ty produkují popisné věty spíše než seznamy tagů, ale to druhé obvykle více odpovídá mým potřebám. A vestavěný CLIP interrogator má tendenci chrlit věci jako „obrázek (popis) a obrázek (mírně odlišný popis té samé věci“ nebo „(většinou kompletní popis) a růžové vlasy a růžové vlasy a růžové vlasy a (opakuje se mnohokrát)“

I když je tagger WD14 vyrobený pro anime, funguje docela dobře i na fotografie.

MorganTheDual na Redditu

SigLIP 2: Výkonný engine pro převod obrázků na text

Bezplatný a otevřený model SigLIP 2 od Googlu není jen model pro vidění a jazyk; je to výkonný engine pro přeměnu obrázků na smysluplný text. I když vyniká v úkolech, jako je vyhledávání obrázků a textu a klasifikace zero-shot, jeho architektura a vylepšení tréninku z něj dělají silného kandidáta pro generování a porozumění obrázků na text. Zde je rozbor toho, jak SigLIP 2 funguje v tomto kontextu:

Základ: Vision Transformer (ViT) a sigmoidní ztráta

  • Vision Transformer (ViT): Na rozdíl od konvolučních neuronových sítí (CNN) používá SigLIP 2 architekturu Vision Transformer (ViT). ViT zachází s obrázkem jako s posloupností záplat, podobně jako se slova považují za tokeny při zpracování přirozeného jazyka. Každá záplata je převedena na vektorovou reprezentaci (embedding). To umožňuje modelu používat výkonnou architekturu Transformer, známou svou schopností zachytit dlouhodobé závislosti, k pochopení vztahů mezi různými částmi obrázku.
  • Sigmoidní ztráta (Nekontrastivní): Klíčovým rozlišovacím prvkem SigLIP (a SigLIP 2) je použití sigmoidní ztrátové funkce namísto běžnější kontrastivní ztráty (používané v modelech jako CLIP). Kontrastivní učení vyžaduje srovnání obrázku s několika textovými možnostmi. Sigmoidní ztráta na druhou stranu považuje párování obrázku a textu za binární klasifikační problém pro každý pár obrázek-text. Tato zdánlivě malá změna má velký dopad: umožňuje stabilnější trénink a lepší výkon, zejména u větších velikostí dávek. Zaměřuje se na individuální shody párů obrázek-text.

Vylepšený trénink pro generování textu

SigLIP 2 bere základ SigLIP a přidává několik klíčových vylepšení, která přímo prospívají jeho schopnostem převodu obrázků na text:

  • Předtrénování založené na popisování: To je obrovský krok. SigLIP 2 zahrnuje popisování jako součást svého procesu předtrénování. To znamená, že je explicitně trénován k generování textových popisů obrázků. To je v kontrastu s modely, jako je původní CLIP, které byly primárně trénovány na párování obrázků a textu, nikoli na generování.
  • Inspirováno samoučením: SigLIP 2 využívá výkonné techniky:
    • Samodestilace: Model se učí z vlastních předpovědí a postupem času zdokonaluje své porozumění.
    • Maskovaná predikce: Části vstupu (buď záplaty obrázků, nebo textové tokeny) jsou skryté a model se učí předpovídat chybějící kousky. To ho nutí vyvinout hlubší porozumění oběma modalitám.
  • Ztráta LocCa a dekodér: SigLIP 2 integruje ztrátu LocCa, která přidává Transformer dekodér s křížovou pozorností. Tento dekodér je speciálně trénován na úkoly, jako je popisování obrázků, predikce odkazujících výrazů (identifikace oblastí na základě textu) a uzemněné popisování. To zlepšuje jemnozrnnou lokalizaci a detailní extrakci prvků.

Jak to všechno funguje dohromady (Obrázek -> Text)

  1. Vstup obrázku: Obrázek je vložen do ViT kodéru.
  2. Embedding záplat: Obrázek je rozdělen na záplaty a každá záplata je transformována na embedding vektor.
  3. Transformerové kódování: Transformerové vrstvy zpracovávají tyto embeddingy záplat a zachycují vztahy mezi různými částmi obrázku. Naučené poziční embeddingy poskytují informace o umístění každé záplaty.
  4. Pozornostní pooling: Mechanismus pozornostního poolingu (MAP head) agreguje informace z embeddingů záplat do jediné, komplexní reprezentace obrázku.
  5. Textový dekodér (Klíčový pro převod obrázků na text): Zde se uplatní schopnosti SigLIP 2 v oblasti popisování. Reprezentace obrázku z kodéru je vložena do Transformerového dekodéru (přidaného ztrátou LocCa). Dekodér používá křížovou pozornost, aby se zaměřil na relevantní části reprezentace obrázku při generování textu.
  6. Textový výstup: Dekodér generuje sekvenci textových tokenů, tvořící popis nebo popis obrázku.

Vícejazyčná síla

SigLIP 2 se neomezuje pouze na angličtinu. Je trénován na vícejazyčné datové sadě (WebLI), což mu dává schopnost porozumět a generovat text v několika jazycích, což z něj činí skutečně globální nástroj pro převod obrázků na text.

Shrnutí

Kombinace silné architektury založené na ViT, sigmoidní ztráty a, což je klíčové, předtrénování založeného na dekodéru s popisováním a samodestilací činí ze SigLIP 2 vysoce efektivní model pro úkoly převodu obrázků na text. Překračuje rámec jednoduchého párování obrázků a textu a aktivně generuje popisný text, čímž otevírá možnosti pro aplikace, jako je automatické popisování obrázků, vizuální zodpovídání otázek a detailní analýza obrázků.

Odkazy

ChatGPT s Vision

Pokud potřebujete popsat ne příliš velkou datovou sadu obrázků, můžete použít nástroj Image Describer v ChatGPT. Není vhodný pro velké dávky obrázků, ale je perfektní pro menší sady obrázků, protože poskytuje naprosto nejlepší popisy v přirozeném jazyce. Popisy z tohoto nástroje jsou velmi přesné a detailní. Nejsou to jen tagy, ale souvislý a informativní text, který také bere v úvahu vztahy mezi objekty na obrázku.

Příklad:

Testovací sada obrázků:

Výstup nástroje Image Describer pro tyto 3 obrázky:

Nahráli jste tři obrázky. Zde je popis každého z nich:

  1. První obrázek zobrazuje rozkošné, stylizované kreslené kotě s velkýma, výraznýma očima. Je převážně oranžové s bílými akcenty na obličeji, hrudi a tlapkách. Kotě drží pero, které je téměř stejně velké jako ono samo, a kreslí usměvavý obličej na jasně žlutý míč. Umělecký styl je velmi uhlazený a má jakýsi lesklý povrch. Pozadí naznačuje rozmarné prostředí s barevnými, abstraktními tvary a náznakem hvězdné oblohy.
  2. Druhý obrázek se zdá být snímkem obrazovky chatu nebo sekce komentářů ze sociální mediální platformy. Různí uživatelé zanechali komentáře, z nichž mnohé obsahují smích nebo pobavení naznačené zkratkami jako „LMAO“ a emotikony. Uživatelská jména a profilové obrázky jsou pixelované kvůli ochraně soukromí, s různými barvami zobrazenými v pixelaci.
  3. Třetí obrázek je vysoce detailní a realistická ilustrace mladé ženy s přátelským výrazem. Má dlouhé černé vlasy, světlou pleť a nosí fialovou mikinu s kapucí. Žena má také sluchátka, což naznačuje, že by mohla být streamerkou videoher nebo zapojená do nějaké formy online komunikace. Prostředí se jeví jako místnost osvětlená fialovým odstínem, pravděpodobně z LED světel, což naznačuje herní sestavu.

Každý obrázek má velmi odlišný kontext a vizuální styl, od rozmarné ilustrace přes snímek obrazovky digitální interakce až po realističtější digitální malbu.

Závěrem

Výběr mezi CLIP, BLIP, WD 1.4, SigLIP 2 a Image Describer závisí do značné míry na specifických potřebách projektu. Pokud je prvořadá přesnost a detail, WD 1.4 nabízí přesvědčivou možnost s pokročilou konfigurací a schopnostmi detailního tagování. Pro jednodušší aplikace může být vhodnější přímočarý přístup BLIP. Mezitím CLIP poskytuje rovnováhu mezi detaily a jednoduchostí, i když s tendencí k upovídanosti.

Image Describer poskytuje nejlepší výsledky, ale není vhodný pro popisování nebo tagování velkých sad obrázků.

Jak se tyto modely neustále vyvíjejí a zlepšují, skrývají v sobě slibný potenciál pro široké spektrum aplikací, od tvorby obsahu až po analýzu dat. Navzdory svým rozdílům jsou modely CLIP, BLIP, WD 1.4, SigLIP 2 a GPT-Vision důkazem rychlého pokroku v technologii převodu obrázků na text, přičemž každý z nich přispívá jedinečnými silnými stránkami do tohoto vzrušujícího oboru.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *