Samodejno označevanje, etiketiranje ali opisovanje slik je ključna naloga v številnih aplikacijah, zlasti pri pripravi podatkovnih nizov za strojno učenje. Tu nastopijo modeli za pretvorbo slike v besedilo. Med vodilnimi modeli za pretvorbo slike v besedilo so CLIP, BLIP, WD 1.4 (znan tudi kot WD14 ali Waifu Diffusion 1.4 Tagger), SigLIP 2 in ChatGPT z Vision.
CLIP: Revolucionarni preskok
Model Contrastive Language–Image Pretraining (CLIP) podjetja OpenAI je splošno priznan zaradi svojega revolucionarnega pristopa k razumevanju in ustvarjanju opisov slik. CLIP izkorišča veliko količino internetnega besedila in slikovnih podatkov, da se nauči množice vizualnih konceptov in tako ustvari opisne stavke za slike.
Vendar pa so po mnenju uporabnikov opisni stavki modela CLIP včasih lahko odvečni ali preveč obširni. Pogosta kritika se nanaša na nagnjenost modela k ponavljanju podobnih opisov za isti predmet ali pretiranemu poudarjanju določenih lastnosti, kot je barva predmeta.
BLIP: Enostavnost sreča funkcionalnost
Model BLIP, čeprav je v svojih opisih manj podroben v primerjavi s CLIP, ponuja enostavnejši in bolj neposreden pristop k obdelavi slike v besedilo. Kot je opazil en recenzent, je BLIP “kul in vse to, vendar je precej osnoven.” Enostavnost tega modela je lahko prednost za aplikacije, ki zahtevajo enostavne, manj obširne oznake ali opise.
Kljub temu so nekateri uporabniki ugotovili, da izhod modela BLIP pogosto nima globine in zrnatosti, ki jo zagotavljajo modeli, kot je WD14. Čeprav lahko ustvari zadovoljive rezultate, BLIP morda ni najboljša izbira za aplikacije, ki zahtevajo podrobne in kompleksne oznake.
Ugotovil sem, da WD14, kljub temu da je osredotočen na anime, odlično deluje tudi za dejanske fotografije ljudi. Običajno ga kombiniram z BLIP in večinoma primerov zazna veliko več podrobnosti kot BLIP.
Toni Corvera v YouTube comments
Blip je kul in vse to, ampak je precej osnoven.
Označevanje z WD 1.4 (WD14) je veliko boljše – več podrobnosti, bolj sočne oznake.
OrphBean na GitHub
WD 1.4 (znan tudi kot WD14): Natančnost v podrobnostih
Model WD 1.4 (znan tudi kot WD14 ali Waifu Diffusion 1.4 Tagger), ki je bil prvotno zasnovan za anime slike, je pokazal presenetljivo vsestranskost in dobro deluje celo s fotografijami. Uporabniki so pohvalili njegove napredne možnosti konfiguracije in zmožnosti paketne obdelave, zaradi česar je robustno orodje za pretvorbo slike v besedilo.
WD14 se razlikuje po svoji sposobnosti ustvarjanja podrobnih, “sočnejših” oznak, ki zagotavljajo bolj poglobljene opise slik v primerjavi s svojimi primerljivimi modeli. Čeprav je manj verjetno, da bo ta model ustvaril lažne oznake, je lahko njegova osredotočenost na anime omejitev za določene vrste slik.
V: Je označevalnik WD14 boljši od BLIP ali deepdanbooru, vgrajenih v Automatic1111?
O: Razširitev ponuja boljše možnosti za konfiguracijo in paketno obdelavo, in ugotovil sem, da je manj verjetno, da bo ustvarila popolnoma lažne oznake kot deepdanbooru.CLIP/BLIP je drugačen, ker ustvarjata opisne stavke in ne seznamov oznak, vendar je slednje običajno bolj v skladu z mojimi potrebami. Vgrajeni CLIP interrogator pa je nagnjen k temu, da izbruhne stvari, kot so “slika (opis) in slika (rahlo drugačen opis iste stvari)” ali “(večinoma popoln opis) in roza lasje in roza lasje in roza lasje in (ponovi večkrat)”
Kljub temu da je bil označevalnik WD14 narejen za anime, deluje precej dobro tudi na fotografijah.
MorganTheDual na Reddit
SigLIP 2: Zmogljiv mehanizem za pretvorbo slike v besedilo
Brezplačen in odprtokoden model SigLIP 2 podjetja Google ni le model vizija-jezik; je zmogljiv mehanizem za pretvarjanje slik v smiselno besedilo. Čeprav se odlično obnese pri nalogah, kot so iskanje slik in besedil ter klasifikacija brez primera, ga arhitektura in izboljšave pri usposabljanju uvrščajo med močne kandidate za ustvarjanje in razumevanje slike v besedilo. Tukaj je razčlenitev delovanja modela SigLIP 2 v tem kontekstu:
Temelj: Vision Transformer (ViT) in sigmoidna izguba
- Vision Transformer (ViT): Za razliko od konvolucijskih nevronskih mrež (CNN), SigLIP 2 uporablja arhitekturo Vision Transformer (ViT). ViT obravnava sliko kot zaporedje delov, podobno kot se besede obravnavajo kot žetoni pri obdelavi naravnega jezika. Vsak del se pretvori v vektorsko predstavitev (vdelavo). To modelu omogoča uporabo zmogljive arhitekture Transformer, znane po svoji sposobnosti zajemanja dolgoročnih odvisnosti, za razumevanje odnosov med različnimi deli slike.
- Sigmoidna izguba (ni kontrastna): Ključna razlika med SigLIP (in SigLIP 2) je uporaba sigmoidne funkcije izgube namesto bolj pogoste kontrastne izgube (ki se uporablja v modelih, kot je CLIP). Kontrastno učenje zahteva primerjavo slike z več možnostmi besedila. Sigmoidna izguba pa obravnava ujemanje slike in besedila kot problem binarne klasifikacije za vsak par slika-besedilo. Ta na videz majhna sprememba ima velik vpliv: omogoča stabilnejše usposabljanje in boljšo zmogljivost, zlasti pri večjih velikostih paketov. Osredotoča se na posamezne ujemanja parov slika-besedilo.
Izboljšano usposabljanje za ustvarjanje besedila
SigLIP 2 vzame temelj SigLIP in doda več ključnih izboljšav, ki neposredno koristijo njegovim zmogljivostim pretvorbe slike v besedilo:
- Predusposabljanje na podlagi opisovanja slik: To je ogromen korak. SigLIP 2 vključuje opisovanje slik kot del svojega procesa predusposabljanja. To pomeni, da je izrecno usposobljen za ustvarjanje besedilnih opisov slik. To je v nasprotju z modeli, kot je prvotni CLIP, ki so bili primarno usposobljeni za ujemanje slike in besedila, ne za ustvarjanje.
- Navdihnjeno s samonadzorovanim učenjem: SigLIP 2 izkorišča zmogljive tehnike:
- Samodestilacija: Model se uči iz svojih lastnih napovedi in sčasoma izboljšuje svoje razumevanje.
- Maskirano napovedovanje: Deli vhoda (bodisi deli slike ali besedilni žetoni) so skriti, model pa se uči napovedovati manjkajoče dele. To ga prisili, da razvije globlje razumevanje obeh modalnosti.
- Izguba LocCa in dekoder: SigLIP 2 integrira izgubo LocCa, ki doda Transformatorjev dekoder z navzkrižno pozornostjo. Ta dekoder je posebej usposobljen za naloge, kot so opisovanje slik, napovedovanje referenčnega izraza (identifikacija regij na podlagi besedila) in utemeljeno opisovanje slik. To izboljša natančno lokalizacijo in podrobno ekstrakcijo značilnosti.
Kako se vse združi (Slika -> Besedilo)
- Vhod slike: Slika se vnese v ViT kodirnik.
- Vdelava delov: Slika je razdeljena na dele in vsak del se pretvori v vektor vdelave.
- Transformatorsko kodiranje: Transformatorske plasti obdelajo te vdelave delov in zajamejo odnose med različnimi deli slike. Naučene pozicijske vdelave zagotavljajo informacije o lokaciji vsakega dela.
- Združevanje s pozornostjo: Mehanizem združevanja na podlagi pozornosti (glava MAP) združuje informacije iz vdelav delov v eno samo, celovito predstavitev slike.
- Besedilni dekoder (Ključno za pretvorbo slike v besedilo): Tu pridejo v poštev zmogljivosti opisovanja slik modela SigLIP 2. Predstavitev slike iz kodirnika se vnese v Transformatorjev dekoder (dodan z izgubo LocCa). Dekoder uporablja navzkrižno pozornost, da se osredotoči na ustrezne dele predstavitve slike med ustvarjanjem besedila.
- Besedilni izhod: Dekoder ustvari zaporedje besedilnih žetonov, ki tvorijo opis ali opis slike.
Večjezikovna moč
SigLIP 2 ni omejen na angleščino. Usposobljen je na večjezikovnem naboru podatkov (WebLI), kar mu omogoča razumevanje in ustvarjanje besedila v več jezikih, zaradi česar je resnično globalno orodje za pretvorbo slike v besedilo.
Povzetek
Kombinacija močne arhitekture, ki temelji na ViT, sigmoidne izgube in, kar je ključno, predusposabljanja na podlagi dekoderja z opisovanjem slik in samodestilacijo, modela SigLIP 2, ga naredi zelo učinkovitega za naloge pretvorbe slike v besedilo. Presega preprosto ujemanje slike in besedila ter aktivno ustvarja opisno besedilo, kar odpira možnosti za aplikacije, kot so samodejno opisovanje slik, vizualno odgovarjanje na vprašanja in podrobna analiza slik.
Povezave
ChatGPT z Vision
Če morate opisati ne zelo velik nabor slik, lahko uporabite orodje Image Describer v ChatGPT. Ni primeren za velike pakete slik, je pa popoln za manjše nize slik, ker zagotavlja absolutno najboljše opise v naravnem jeziku. Opisi tega orodja so zelo natančni in podrobni. Niso le oznake, temveč koherentno in informativno besedilo, ki upošteva tudi odnose med predmeti na sliki.
Primer:
Testni niz slik:



Izhod orodja Image Describer za te 3 slike:
Naložili ste tri slike. Tukaj je opis vsake:
- Prva slika prikazuje čudovitega, stiliziranega risanega mucka z velikimi, izrazitimi očmi. Prevladujoče je oranžne barve z belimi poudarki na obrazu, prsih in tačkah. Mucek drži pisalo, ki je skoraj tako veliko kot on sam, in riše smeška na svetlo rumeno žogo. Umetniški slog je zelo uglajen in ima nekakšen sijajni zaključek. Ozadje nakazuje domiselno okolje s pisanimi, abstraktnimi oblikami in nakazovanjem zvezdnatega neba.
- Druga slika je posnetek zaslona klepetalnice ali odseka za komentarje s platforme družbenih medijev. Različni uporabniki so pustili komentarje, mnogi od njih vključujejo smeh ali zabavo, kar je označeno z akronimi, kot je “LMAO”, in emojiji. Uporabniška imena in profilne slike so pikselizirane zaradi zasebnosti, pri čemer je v pikselizaciji prikazana različica barv.
- Tretja slika je zelo podrobna in realistična ilustracija mlade ženske s prijateljskim izrazom. Ima dolge črne lase, svetlo kožo in nosi vijoličen pulover s kapuco. Ženska nosi tudi slušalke, kar nakazuje, da je morda streamerka videoiger ali vpletena v neko obliko spletne komunikacije. Okolje je videti kot soba, osvetljena z vijoličnim odtenkom, morda iz LED luči, kar nakazuje igričarsko postavitev.
Vsaka slika ima zelo drugačen kontekst in vizualni slog, od domiselne ilustracije do posnetka zaslona digitalne interakcije do bolj realistične digitalne slike.
Zaključek
Izbira med modeli CLIP, BLIP, WD 1.4, SigLIP 2 in Image Describer je v veliki meri odvisna od specifičnih potreb projekta. Če sta natančnost in podrobnost najpomembnejši, WD 1.4 in SigLIP 2 ponujata prepričljivo možnost s svojo napredno konfiguracijo in podrobnimi zmogljivostmi označevanja. Za enostavnejše aplikacije je lahko Bolj primeren neposreden pristop modela BLIP. Medtem CLIP zagotavlja ravnovesje med podrobnostjo in enostavnostjo, čeprav z nagnjenostjo k obširnosti.
Image Describer zagotavlja najboljše rezultate, vendar ni primeren za opisovanje ali označevanje velikih nizov slik.
Ker se ti modeli še naprej razvijajo in izboljšujejo, imajo obetaven potencial za širok spekter aplikacij, od ustvarjanja vsebine do analize podatkov. Kljub razlikam so modeli CLIP, BLIP, WD 1.4, SigLIP 2 in GPT-Vision dokaz hitrega napredka v tehnologiji pretvorbe slike v besedilo, pri čemer vsak prispeva edinstvene prednosti k temu razburljivemu področju.