Automatické značkovanie, popisovanie alebo opisovanie obrázkov je kľúčová úloha v mnohých aplikáciách, najmä pri príprave dátových súborov pre strojové učenie. Práve tu prichádzajú na scénu modely na prevod obrázkov na text. Medzi popredné modely na prevod obrázkov na text patria CLIP, BLIP, WD 1.4 (známy aj ako WD14 alebo Waifu Diffusion 1.4 Tagger), SigLIP 2 a ChatGPT s Vision.
CLIP: Revolučný skok
Model Contrastive Language–Image Pretraining (CLIP) od OpenAI si získal široké uznanie pre svoj revolučný prístup k pochopeniu a generovaniu popisov obrázkov. CLIP využíva rozsiahle množstvo internetového textu a obrazových dát, aby sa naučil množstvo vizuálnych konceptov, a tým vytváral opisné vety pre obrázky.
Avšak, podľa užívateľských recenzií, opisné vety CLIP môžu byť niekedy redundantné alebo príliš rozsiahle. Bežná kritika sa točí okolo sklonu modelu opakovať podobné popisy pre ten istý objekt alebo prehnane zdôrazňovať určité atribúty, ako napríklad farbu objektu.
BLIP: Jednoduchosť sa stretáva s funkčnosťou
Model BLIP, hoci poskytuje menej detailné popisy v porovnaní s CLIP, ponúka jednoduchší a priamejší prístup k spracovaniu obrázkov na text. Ako poznamenal jeden recenzent, BLIP je „fajn, ale dosť základný“. Táto jednoduchosť modelu môže byť výhodou pre aplikácie, ktoré vyžadujú priamočiare, menej rozsiahle značky alebo popisy.
Napriek tomu niektorí používatelia zistili, že výstup BLIP často postráda hĺbku a granularitu, ktorú poskytujú modely ako WD14. Hoci dokáže generovať uspokojivé výsledky, BLIP nemusí byť najlepšou voľbou pre aplikácie, ktoré vyžadujú detailné, komplexné značky.
Zistil som, že WD14, napriek tomu, že je zameraný na anime, funguje skvele aj pre skutočné fotografie ľudí. Zvyčajne ho kombinujem s BLIP a väčšinou prípadov zachytí oveľa viac detailov ako BLIP.
Toni Corvera v komentároch na YouTube
Blip je fajn, ale je dosť základný.
Značkovanie WD 1.4 (WD14) je oveľa lepšie – viac detailov, šťavnatejšie značky.
OrphBean na GitHub
WD 1.4 (aka WD14): Precíznosť v detailoch
Model WD 1.4 (známy aj ako WD14 alebo Waifu Diffusion 1.4 Tagger), pôvodne navrhnutý pre anime obrázky, preukázal prekvapivú všestrannosť a dobre funguje aj s fotografiami. Používatelia chválili jeho pokročilé možnosti konfigurácie a schopnosti dávkového spracovania, vďaka čomu je robustným nástrojom na prevod obrázkov na text.
To, čo odlišuje WD14, je jeho schopnosť generovať detailné, „šťavnatejšie“ značky, poskytujúce hlbšie popisy obrázkov v porovnaní s jeho konkurentmi. Hoci tento model je menej náchylný na vytváranie falošných značiek, jeho zameranie na anime môže byť obmedzením pre určité typy obrázkov.
Otázka: Je značkovač WD14 lepší ako BLIP alebo deepdanbooru zabudované v Automatic1111?
Odpoveď: Rozšírenie poskytuje lepšie možnosti konfigurácie a dávkového spracovania a zistil som, že je menej náchylné na vytváranie úplne falošných značiek ako deepdanbooru.CLIP/BLIP je odlišný, pretože vytvárajú opisné vety namiesto zoznamov značiek, ale to druhé je zvyčajne viac v súlade s mojimi potrebami. A zabudovaný CLIP interrogator je náchylný na vyprodukovanie vecí ako „obrázok (popis) a obrázok (mierne odlišný popis tej istej veci)“ alebo „(väčšinou úplný popis) a ružové vlasy a ružové vlasy a ružové vlasy a (opakuje sa mnohokrát)“
Napriek tomu, že je značkovač WD14 vyrobený pre anime, funguje celkom dobre aj na fotografiách.
MorganTheDual na Reddit
SigLIP 2: Výkonný engine na prevod obrázkov na text
Bezplatný a otvorený model SigLIP 2 od spoločnosti Google nie je len model na spracovanie videnia a jazyka; je to výkonný engine na premenu obrázkov na zmysluplný text. Hoci vyniká v úlohách, ako je vyhľadávanie obrázkov a textu a klasifikácia s nulovým počtom záberov, jeho architektúra a vylepšenia tréningu z neho robia silného kandidáta na generovanie a porozumenie obrázkov na text. Tu je rozbor toho, ako SigLIP 2 funguje v tomto kontexte:
Základ: Vision Transformer (ViT) a sigmoidná strata
- Vision Transformer (ViT): Na rozdiel od konvolučných neurónových sietí (CNN) používa SigLIP 2 architektúru Vision Transformer (ViT). ViT spracováva obrázok ako sekvenciu záplat, podobne ako sa slová spracovávajú ako tokeny pri spracovaní prirodzeného jazyka. Každá záplata sa konvertuje na vektorovú reprezentáciu (vloženie). To umožňuje modelu používať výkonnú architektúru Transformer, známu svojou schopnosťou zachytiť závislosti na dlhé vzdialenosti, na pochopenie vzťahov medzi rôznymi časťami obrázka.
- Sigmoidná strata (nie kontrastívna): Kľúčovým rozdielom SigLIP (a SigLIP 2) je použitie sigmoidnej stratovej funkcie namiesto bežnejšej kontrastívnej straty (používanej v modeloch ako CLIP). Kontrastívne učenie vyžaduje porovnávanie obrázka s viacerými textovými možnosťami. Sigmoidná strata, na druhej strane, spracováva párovanie obrázka a textu ako problém binárnej klasifikácie pre každý pár obrázok-text. Táto zdanlivo malá zmena má veľký dopad: umožňuje stabilnejší tréning a lepší výkon, najmä pri väčších dávkových veľkostiach. Zameriava sa na jednotlivé zhody párov obrázok-text.
Vylepšený tréning pre generovanie textu
SigLIP 2 stavia na základoch SigLIP a pridáva niekoľko kľúčových vylepšení, ktoré priamo prospievajú jeho schopnostiam prevodu obrázkov na text:
- Predtréning založený na popisovaní: Toto je obrovský krok. SigLIP 2 zahŕňa popisovanie ako súčasť svojho predtréningového procesu. To znamená, že je explicitne trénovaný na generovanie textových popisov obrázkov. To je v kontraste s modelmi ako pôvodný CLIP, ktoré boli primárne trénované na párovanie obrázkov a textu, nie na generovanie.
- Inšpirované samoučením: SigLIP 2 využíva výkonné techniky:
- Samodestilácia: Model sa učí z vlastných predikcií, čím časom vylepšuje svoje porozumenie.
- Maskovaná predikcia: Časti vstupu (buď záplaty obrázkov alebo textové tokeny) sú skryté a model sa učí predikovať chýbajúce časti. To ho núti vyvinúť hlbšie porozumenie oboch modalít.
- Strata LocCa a dekodér: SigLIP 2 integruje stratu LocCa, ktorá pridáva Transformer dekodér s krížovou pozornosťou. Tento dekodér je špecificky trénovaný na úlohy, ako je popisovanie obrázkov, predikcia referenčného výrazu (identifikácia oblastí na základe textu) a uzemnené popisovanie. To vylepšuje jemnozrnnú lokalizáciu a detailnú extrakciu funkcií.
Ako to všetko funguje (Obrázok -> Text)
- Vstup obrázka: Obrázok sa privádza do ViT enkodéra.
- Vkladanie záplat: Obrázok sa rozdelí na záplaty a každá záplata sa transformuje na vektor vloženia.
- Transformer kódovanie: Transformer vrstvy spracovávajú tieto vloženia záplat, zachytávajú vzťahy medzi rôznymi časťami obrázka. Naučené pozičné vloženia poskytujú informácie o polohe každej záplaty.
- Zlučovanie pozornosti: Mechanizmus zlučovania založený na pozornosti (MAP head) agreguje informácie z vložení záplat do jednej komplexnej reprezentácie obrázka.
- Textový dekodér (Kľúčový pre prevod obrázkov na text): Tu prichádzajú do hry schopnosti SigLIP 2 popisovať obrázky. Reprezentácia obrázka z enkodéra sa privádza do Transformer dekodéra (pridaného stratou LocCa). Dekodér používa krížovú pozornosť na zameranie sa na relevantné časti reprezentácie obrázka pri generovaní textu.
- Textový výstup: Dekodér generuje sekvenciu textových tokenov, ktoré tvoria popis alebo opis obrázka.
Multilingválna sila
SigLIP 2 sa neobmedzuje len na angličtinu. Je trénovaný na multilingválnom dátovom súbore (WebLI), čo mu dáva schopnosť rozumieť a generovať text vo viacerých jazykoch, vďaka čomu je skutočne globálnym nástrojom na prevod obrázkov na text.
V skratke
Kombinácia silnej architektúry založenej na ViT, sigmoidnej straty a, čo je rozhodujúce, predtréningu založeného na dekodéri s popisovaním a samodestiláciou robí zo SigLIP 2 vysoko efektívny model pre úlohy prevodu obrázkov na text. Presahuje rámec jednoduchého párovania obrázkov a textu a aktívne generuje opisný text, čím otvára možnosti pre aplikácie, ako je automatické popisovanie obrázkov, vizuálne odpovedanie na otázky a podrobná analýza obrázkov.
Odkazy
ChatGPT s Vision
Ak potrebujete opísať nie veľmi rozsiahly dátový súbor obrázkov, môžete použiť nástroj Image Describer v ChatGPT. Nie je vhodný pre veľké dávky obrázkov, ale je ideálny pre menšie sady obrázkov, pretože poskytuje absolútne najlepšie popisy v prirodzenom jazyku. Popisy z tohto nástroja sú veľmi presné a detailné. Nie sú to len značky, ale súvislý a informatívny text, ktorý zohľadňuje aj vzťahy medzi objektmi na obrázku.
Príklad:
Testovacia sada obrázkov:



Výstup nástroja Image Describer pre tieto 3 obrázky:
Nahrali ste tri obrázky. Tu je popis každého z nich:
- Prvý obrázok zobrazuje rozkošné, štylizované kreslené mačiatko s veľkými, výraznými očami. Je prevažne oranžové s bielymi akcentmi na tvári, hrudi a labkách. Mačiatko drží pero, ktoré je takmer také veľké ako ono samo, a kreslí usmievavú tvár na jasne žltú loptu. Umelecký štýl je veľmi prepracovaný a má akýsi lesklý povrch. Pozadie naznačuje rozmarné prostredie s farebnými, abstraktnými tvarmi a náznakom hviezdnej oblohy.
- Druhý obrázok sa javí ako snímka obrazovky chatu alebo sekcie komentárov zo sociálnej siete. Rôzni používatelia zanechali komentáre, z ktorých mnohé obsahujú smiech alebo pobavenie, ktoré je indikované akronymami ako „LMAO“ a emotikonmi. Používateľské mená a profilové obrázky sú pixelované kvôli súkromiu, s rôznymi farbami zobrazenými v pixelácii.
- Tretí obrázok je veľmi detailná a realistická ilustrácia mladej ženy s priateľským výrazom. Má dlhé čierne vlasy, svetlú pleť a nosí fialovú mikinu s kapucňou. Žena má tiež náhlavnú súpravu, čo naznačuje, že by mohla byť streamerkou videohier alebo zapojená do nejakej formy online komunikácie. Prostredie sa javí ako miestnosť osvetlená fialovým odtieňom, pravdepodobne z LED svetiel, čo naznačuje herné nastavenie.
Každý obrázok má veľmi odlišný kontext a vizuálny štýl, od rozmarných ilustrácií po snímku obrazovky digitálnej interakcie, až po realistickejšiu digitálnu maľbu.
Záver
Výber medzi CLIP, BLIP, WD 1.4, SigLIP 2 a Image Describer závisí do veľkej miery od špecifických potrieb projektu. Ak sú prvoradé presnosť a detaily, WD 1.4 a SigLIP 2 ponúkajú presvedčivú možnosť so svojou pokročilou konfiguráciou a detailnými schopnosťami značkovania. Pre jednoduchšie aplikácie môže byť priamejší prístup BLIP vhodnejší. Medzitým CLIP poskytuje rovnováhu medzi detailmi a jednoduchosťou, hoci s tendenciou k rozsiahlejšiemu popisu.
Image Describer poskytuje najlepšie výsledky, ale nie je vhodný na popisovanie alebo značkovanie veľkých sád obrázkov.
Keďže sa tieto modely neustále vyvíjajú a zlepšujú, skrývajú v sebe sľubný potenciál pre široké spektrum aplikácií, od tvorby obsahu až po analýzu dát. Napriek ich rozdielom sú modely CLIP, BLIP, WD 1.4, SigLIP 2 a GPT-Vision dôkazom rýchleho pokroku v technológii prevodu obrázkov na text, pričom každý z nich prispieva jedinečnými silnými stránkami do tejto vzrušujúcej oblasti.