Automatizirano označavanje, etiketiranje ili opisivanje slika ključan je zadatak u mnogim primjenama, posebice u pripremi skupova podataka za strojno učenje. Tu u pomoć priskaču modeli za pretvorbu slike u tekst. Među vodećim modelima za pretvorbu slike u tekst su CLIP, BLIP, WD 1.4 (poznat i kao WD14 ili Waifu Diffusion 1.4 Tagger), SigLIP 2 i ChatGPT s Visionom.
CLIP: Revolucionarni iskorak
OpenAI-jev model Contrastive Language–Image Pretraining (CLIP) široko je priznat zbog svog revolucionarnog pristupa razumijevanju i generiranju opisa slika. CLIP koristi veliku količinu internetskog teksta i slikovnih podataka kako bi naučio mnoštvo vizualnih koncepata, čime proizvodi opisne rečenice za slike.
Međutim, prema korisničkim recenzijama, CLIP-ove opisne rečenice ponekad mogu biti redundantne ili preopširne. Uobičajena kritika odnosi se na sklonost modela da ponavlja slične opise za isti objekt ili da previše naglašava određene atribute, poput boje objekta.
BLIP: Jednostavnost susreće funkcionalnost
Model BLIP, iako manje detaljan u svojim opisima u usporedbi s CLIP-om, nudi jednostavniji i izravniji pristup obradi slike u tekst. Kao što je jedan recenzent primijetio, BLIP je “cool i sve to, ali prilično je osnovan”. Jednostavnost ovog modela može biti prednost za aplikacije koje zahtijevaju jednostavne, manje opširne oznake ili opise.
Ipak, neki su korisnici otkrili da BLIP-ov izlaz često nedostaje dubinu i granularnost koju pružaju modeli poput WD14. Iako može generirati zadovoljavajuće rezultate, BLIP možda nije najbolji izbor za aplikacije koje zahtijevaju detaljne, složene oznake.
Otkrio sam da WD14, unatoč tome što je fokusiran na anime, odlično funkcionira i za stvarne fotografije ljudi. Obično ga kombiniram s BLIP-om i većinu vremena pokupi puno više detalja od BLIP-a.
Toni Corvera u YouTube komentarima
Blip je cool i sve to, ali je prilično osnovan.
Označavanje s WD 1.4 (WD14) je puno bolje – više detalja, sočnije oznake.
OrphBean na GitHubu
WD 1.4 (poznat i kao WD14): Preciznost u detaljima
Model WD 1.4 (također poznat kao WD14 ili Waifu Diffusion 1.4 Tagger), izvorno dizajniran za anime slike, pokazao je iznenađujuću svestranost, dobro se snalazeći čak i s fotografijama. Korisnici su pohvalili njegove napredne opcije konfiguracije i mogućnosti batch obrade, što ga čini robusnim alatom za pretvorbu slike u tekst.
Ono što WD14 izdvaja je njegova sposobnost generiranja detaljnih, “sočnijih” oznaka, pružajući dublje opise slika u usporedbi s njegovim pandanima. Iako je manja vjerojatnost da će ovaj model proizvesti lažne oznake, njegov fokus na anime mogao bi biti ograničenje za određene vrste slika.
P: Je li WD14 tagger bolji od BLIP ili deepdanbooru ugrađenog u Automatic1111?
O: Ekstenzija daje bolje opcije za konfiguraciju i batch obradu, a otkrio sam da je manje vjerojatno da će proizvesti potpuno lažne oznake od deepdanbooru.CLIP/BLIP je drugačiji jer oni proizvode opisne rečenice umjesto popisa oznaka, ali ovo drugo je obično više u skladu s mojim potrebama. A ugrađeni CLIP interrogator sklon je izbacivanju stvari poput “slika (opis) i slika (malo drugačiji opis iste stvari)” ili “(uglavnom potpun opis) i ružičasta kosa i ružičasta kosa i ružičasta kosa i (ponavlja se mnogo puta)”
Unatoč tome što je napravljen za anime, WD14 tagger prilično dobro radi na fotografijama.
MorganTheDual na Redditu
SigLIP 2: Snažan pogon za pretvorbu slike u tekst
Besplatan i otvoreni model SigLIP 2 tvrtke Google nije samo model vizija-jezik; to je snažan pogon za pretvaranje slika u smisleni tekst. Iako se ističe u zadacima poput dohvaćanja slike-tekst i klasifikacije nultog snimka, njegova arhitektura i poboljšanja u obuci čine ga snažnim konkurentom za generiranje i razumijevanje slike u tekst. Evo raščlambe kako SigLIP 2 funkcionira u ovom kontekstu:
Temelj: Vision Transformer (ViT) i sigmoidni gubitak
- Vision Transformer (ViT): Za razliku od konvolucijskih neuronskih mreža (CNN), SigLIP 2 koristi arhitekturu Vision Transformer (ViT). ViT tretira sliku kao niz zakrpa, slično načinu na koji se riječi tretiraju kao tokeni u obradi prirodnog jezika. Svaka zakrpa pretvara se u vektorski prikaz (embedding). To omogućuje modelu da koristi moćnu Transformer arhitekturu, poznatu po svojoj sposobnosti hvatanja dugoročnih ovisnosti, kako bi razumio odnose između različitih dijelova slike.
- Sigmoidni gubitak (nije kontrastivni): Ključna razlika SigLIP-a (i SigLIP-a 2) je upotreba sigmoidne funkcije gubitka umjesto uobičajenijeg kontrastivnog gubitka (koji se koristi u modelima poput CLIP-a). Kontrastivno učenje zahtijeva usporedbu slike s više tekstualnih opcija. Sigmoidni gubitak, s druge strane, tretira podudaranje slike i teksta kao problem binarne klasifikacije za svaki par slika-tekst. Ova naizgled mala promjena ima veliki utjecaj: omogućuje stabilniju obuku i bolje performanse, posebno s većim veličinama batcha. Usredotočuje se na pojedinačna podudaranja parova slika-tekst.
Poboljšana obuka za generiranje teksta
SigLIP 2 uzima temelj SigLIP-a i dodaje nekoliko ključnih poboljšanja koja izravno koriste njegovim mogućnostima pretvorbe slike u tekst:
- Prethodna obuka temeljena na opisivanju: Ovo je ogroman korak. SigLIP 2 uključuje opisivanje kao dio svog procesa prethodne obuke. To znači da je eksplicitno obučen za generiranje tekstualnih opisa slika. To je u suprotnosti s modelima poput originalnog CLIP-a, koji su prvenstveno bili obučeni za podudaranje slike i teksta, a ne za generiranje.
- Inspiriran samonadziranim učenjem: SigLIP 2 koristi moćne tehnike:
- Samodistilacija: Model uči iz vlastitih predviđanja, usavršavajući svoje razumijevanje tijekom vremena.
- Maskirano predviđanje: Dijelovi ulaza (zakrpe slike ili tekstualni tokeni) skriveni su, a model uči predviđati nedostajuće dijelove. To ga prisiljava da razvije dublje razumijevanje oba modaliteta.
- LocCa gubitak i dekoder: SigLIP 2 integrira LocCa gubitak, koji dodaje Transformer dekoder s unakrsnom pažnjom. Ovaj dekoder je posebno obučen za zadatke poput opisivanja slika, predviđanja referentnog izraza (identificiranje regija na temelju teksta) i utemeljenog opisivanja. To poboljšava finozrnatu lokalizaciju i detaljno izdvajanje značajki.
Kako se sve spaja (Slika -> Tekst)
- Ulaz slike: Slika se unosi u ViT enkoder.
- Ugrađivanje zakrpa: Slika se dijeli na zakrpe, a svaka zakrpa pretvara se u vektor ugrađivanja.
- Transformer kodiranje: Transformer slojevi obrađuju ova ugrađivanja zakrpa, hvatajući odnose između različitih dijelova slike. Naučena pozicijska ugrađivanja pružaju informacije o lokaciji svake zakrpe.
- Pažljivo udruživanje: Mehanizam udruživanja temeljen na pažnji (MAP glava) agregira informacije iz ugrađivanja zakrpa u jedinstveni, sveobuhvatni prikaz slike.
- Tekstualni dekoder (Ključan za sliku u tekst): Ovdje do izražaja dolaze SigLIP 2 mogućnosti opisivanja. Prikaz slike iz enkodera unosi se u Transformer dekoder (dodano LocCa gubitkom). Dekoder koristi unakrsnu pažnju kako bi se usredotočio na relevantne dijelove prikaza slike tijekom generiranja teksta.
- Tekstualni izlaz: Dekoder generira niz tekstualnih tokena, tvoreći opis ili opis slike.
Višejezična moć
SigLIP 2 nije ograničen samo na engleski. Obučen je na višejezičnom skupu podataka (WebLI), što mu daje sposobnost razumijevanja i generiranja teksta na više jezika, čineći ga uistinu globalnim alatom za pretvorbu slike u tekst.
Ukratko
Kombinacija snažne ViT arhitekture, sigmoidnog gubitka i, što je ključno, prethodne obuke temeljene na dekoderu s opisivanjem i samodistilacijom, čini SigLIP 2 vrlo učinkovitim modelom za zadatke pretvorbe slike u tekst. Nadilazi jednostavno podudaranje slike i teksta kako bi aktivno generirao opisni tekst, otvarajući mogućnosti za primjene poput automatskog opisivanja slika, vizualnog odgovaranja na pitanja i detaljne analize slika.
Poveznice
ChatGPT s Visionom
Ako trebate opisati ne baš veliki skup slika, možete koristiti alat Image Describer u ChatGPT-u. Nije prikladan za velike skupove slika, ali je savršen za manje skupove slika jer pruža apsolutno najbolje opise na prirodnom jeziku. Opisi iz ovog alata vrlo su precizni i detaljni. Nisu to samo oznake, već koherentan i informativan tekst koji također uzima u obzir odnose između objekata na slici.
Primjer:
Skup testnih slika:



Image Describer izlaz za ove 3 slike:
Učitali ste tri slike. Evo opisa svake:
- Prva slika prikazuje preslatkog, stiliziranog crtanog mačića s velikim, izražajnim očima. Pretežno je narančaste boje s bijelim detaljima na licu, prsima i šapama. Mačić drži olovku, koja je gotovo veličine njega samoga, i crta smajlić na svijetložutoj lopti. Stil crtanja je vrlo uglađen i ima nekakav sjajni završetak. Pozadina sugerira hiroviti ambijent s šarenim, apstraktnim oblicima i naznakom zvjezdanog neba.
- Druga slika izgleda kao snimka zaslona odjeljka za chat ili komentare s platforme društvenih medija. Razni korisnici ostavili su komentare, od kojih mnogi uključuju smijeh ili zabavu označenu akronimima poput “LMAO” i emojijima. Korisnička imena i profilne slike su pikselizirane radi privatnosti, s raznim bojama prikazanim u pikselizaciji.
- Treća slika je vrlo detaljna i realistična ilustracija mlade žene s prijateljskim izrazom lica. Ima dugu crnu kosu, svijetlu put i nosi ljubičastu hudicu. Žena također nosi slušalice, što sugerira da bi mogla biti videoigrača ili uključena u neki oblik online komunikacije. Okruženje izgleda kao soba osvijetljena ljubičastom nijansom, vjerojatno od LED svjetala, što ukazuje na postavke za igranje igara.
Svaka slika ima vrlo različit kontekst i vizualni stil, u rasponu od hirovite ilustracije do snimke zaslona digitalne interakcije, do realističnije digitalne slike.
Zaključak
Odabir između CLIP-a, BLIP-a, WD 1.4, SigLIP 2 i Image Describera uvelike ovisi o specifičnim potrebama projekta. Ako su preciznost i detalji najvažniji, WD 1.4 nudi uvjerljivu opciju sa svojom naprednom konfiguracijom i detaljnim mogućnostima označavanja. Za jednostavnije primjene, BLIP-ov izravan pristup mogao bi biti prikladniji. U međuvremenu, CLIP pruža ravnotežu između detalja i jednostavnosti, iako s tendencijom opširnosti.
Image Describer pruža najbolje rezultate, ali nije prikladan za opisivanje ili označavanje velikih skupova slika.
Kako se ovi modeli nastavljaju razvijati i poboljšavati, drže obećavajući potencijal za širok spektar primjena, od stvaranja sadržaja do analize podataka. Unatoč svojim razlikama, modeli CLIP, BLIP, WD 1.4, SigLIP 2 i GPT-Vision svjedočanstvo su brzog napretka tehnologije pretvorbe slike u tekst, svaki doprinoseći jedinstvenim snagama ovom uzbudljivom području.