Automatinis vaizdų žymėjimas, etiketavimas ar aprašymas yra labai svarbi užduotis daugelyje programų, ypač rengiant duomenų rinkinius mašininiam mokymuisi. Būtent čia į pagalbą ateina vaizdas-tekstas modeliai. Tarp pirmaujančių vaizdas-tekstas modelių yra CLIP, BLIP, WD 1.4 (taip pat žinomas kaip WD14 arba Waifu Diffusion 1.4 Tagger), SigLIP 2 ir ChatGPT su Vision.
CLIP: Revoliucinis šuolis
„OpenAI“ sukurtas kontrastingas kalbos ir vaizdo išankstinio mokymo (CLIP) modelis yra plačiai pripažintas dėl savo revoliucinio požiūrio į vaizdų supratimą ir aprašymų generavimą. CLIP naudoja didelį kiekį interneto teksto ir vaizdo duomenų, kad išmoktų daugybę vaizdinių koncepcijų, taip kurdamas aprašomuosius sakinius vaizdams.
Tačiau, remiantis vartotojų atsiliepimais, CLIP aprašomieji sakiniai kartais gali būti pertekliniai arba pernelyg žodžių gausūs. Dažna kritika susijusi su modelio polinkiu kartoti panašius to paties objekto aprašymus arba per daug akcentuoti tam tikrus atributus, pavyzdžiui, objekto spalvą.
BLIP: Paprastumas ir funkcionalumas
BLIP modelis, nors ir ne toks detalus savo aprašymuose, palyginti su CLIP, siūlo paprastesnį ir tiesesnį požiūrį į vaizdas-tekstas apdorojimą. Kaip pažymėjo vienas apžvalgininkas, BLIP yra „šaunus ir visa kita, bet gana paprastas“. Šio modelio paprastumas gali būti pranašumas programoms, kurioms reikia tiesmukų, mažiau žodžių gausių žymių ar aprašymų.
Vis dėlto kai kurie vartotojai nustatė, kad BLIP išvestyje dažnai trūksta gilumo ir detalumo, kurį suteikia tokie modeliai kaip WD14. Nors jis gali generuoti patenkinamus rezultatus, BLIP gali būti ne pats geriausias pasirinkimas programoms, kurioms reikia detalių, sudėtingų žymių.
Pastebėjau, kad WD14, nepaisant to, kad yra orientuotas į anime, puikiai tinka ir tikroms žmonių nuotraukoms. Paprastai jį derinu su BLIP ir dažniausiai jis sugauna daug daugiau detalių nei BLIP.
Toni Corvera YouTube komentaruose
Blip yra šaunus ir visa kita, bet gana paprastas.
WD 1.4 (WD14) žymėjimas yra daug geresnis – daugiau detalių, „sultingesnės“ žymės.
OrphBean GitHub
WD 1.4 (dar žinomas kaip WD14): Detalumo tikslumas
WD 1.4 modelis (taip pat žinomas kaip WD14 arba Waifu Diffusion 1.4 Tagger), iš pradžių sukurtas anime vaizdams, pademonstravo stebėtiną universalumą, gerai veikiantį net ir su nuotraukomis. Vartotojai gyrė jo pažangias konfigūravimo parinktis ir paketinio apdorojimo galimybes, kurios daro jį patikimu įrankiu vaizdas-tekstas vertimui.
WD14 išskiria gebėjimas generuoti detalias, „sultingesnes“ žymes, pateikiant išsamesnius vaizdų aprašymus, palyginti su jo konkurentais. Nors šis modelis mažiau linkęs generuoti netikras žymes, jo orientavimasis į anime gali būti apribojimas tam tikriems vaizdų tipams.
K: Ar WD14 žymeklis yra geresnis nei BLIP ar deepdanbooru, įtaisyti Automatic1111?
A: Plėtinys suteikia geresnes konfigūravimo ir paketinio apdorojimo parinktis, ir pastebėjau, kad jis mažiau linkęs generuoti visiškai netikras žymes nei deepdanbooru.CLIP/BLIP yra kitokie, nes jie generuoja aprašomuosius sakinius, o ne žymių sąrašus, bet pastarasis paprastai labiau atitinka mano poreikius. O įtaisytas CLIP apklausėjas linkęs išmesti tokius dalykus kaip „(aprašymo) nuotrauka ir (šiek tiek kitokio to paties dalyko aprašymo) nuotrauka“ arba „(daugiausia pilnas aprašymas) ir rožiniai plaukai ir rožiniai plaukai ir rožiniai plaukai ir (daug kartų kartojasi)“
Nepaisant to, kad WD14 žymeklis sukurtas anime, jis gana gerai veikia su nuotraukomis.
MorganTheDual Reddit
SigLIP 2: Galingas vaizdas-tekstas variklis
Nemokamas ir atvirojo kodo modelis SigLIP 2 iš „Google“ nėra tik vaizdo-kalbos modelis; tai galingas variklis, skirtas vaizdams paversti prasmingu tekstu. Nors jis puikiai tinka tokioms užduotims kaip vaizdo-teksto paieška ir nulinio šūvio klasifikavimas, jo architektūra ir mokymo patobulinimai daro jį stipriu konkurentu vaizdas-tekstas generavimui ir supratimui. Štai kaip SigLIP 2 veikia šiame kontekste:
Pagrindas: Vision Transformer (ViT) ir sigmoidinis nuostolis
- Vision Transformer (ViT): Skirtingai nuo konvoliucinių neuroninių tinklų (CNN), SigLIP 2 naudoja Vision Transformer (ViT) architektūrą. ViT vaizdą traktuoja kaip pleistrų seką, panašiai kaip žodžiai traktuojami kaip žetonai natūralios kalbos apdorojime. Kiekvienas pleistras paverčiamas vektoriniu vaizdavimu (įterpimu). Tai leidžia modeliui naudoti galingą Transformer architektūrą, žinomą dėl savo gebėjimo užfiksuoti ilgalaikius priklausomybes, kad suprastų ryšius tarp skirtingų vaizdo dalių.
- Sigmoidinis nuostolis (ne kontrastingas): Pagrindinis SigLIP (ir SigLIP 2) skiriamasis bruožas yra sigmoidės nuostolio funkcijos naudojimas, o ne dažnesnis kontrastingas nuostolis (naudojamas tokiuose modeliuose kaip CLIP). Kontrastingas mokymasis reikalauja palyginti vaizdą su keliais teksto variantais. Kita vertus, sigmoidinis nuostolis vaizdo-teksto atitikimą traktuoja kaip dvejetainę klasifikavimo problemą kiekvienai vaizdo-teksto porai. Šis iš pažiūros mažas pakeitimas turi didelį poveikį: jis leidžia stabiliau mokytis ir pasiekti geresnių rezultatų, ypač naudojant didesnius paketų dydžius. Jis sutelkia dėmesį į atskirus vaizdo-teksto poros atitikimus.
Patobulintas mokymas teksto generavimui
SigLIP 2 remiasi SigLIP pagrindu ir prideda keletą esminių patobulinimų, kurie tiesiogiai pagerina jo vaizdas-tekstas galimybes:
- Aprašymu pagrįstas išankstinis mokymas: Tai yra milžiniškas žingsnis. SigLIP 2 įtraukia aprašymą kaip dalį savo išankstinio mokymo proceso. Tai reiškia, kad jis yra aiškiai mokomas generuoti tekstinius vaizdų aprašymus. Tai skiriasi nuo tokių modelių kaip originalus CLIP, kurie pirmiausia buvo mokomi suderinti vaizdą ir tekstą, o ne generuoti.
- Įkvėptas savarankiško mokymosi: SigLIP 2 naudoja galingus metodus:
- Savarankiška distiliacija: Modelis mokosi iš savo paties prognozių, laikui bėgant tobulindamas savo supratimą.
- Užmaskuota prognozė: Dalys įvesties (vaizdo pleistrai arba teksto žetonai) yra paslėptos, o modelis mokosi nuspėti trūkstamas dalis. Tai priverčia jį giliau suprasti abu modalumus.
- LocCa nuostolis ir dekoderis: SigLIP 2 integruoja LocCa nuostolį, kuris prideda Transformer dekoderį su kryžminiu dėmesiu. Šis dekoderis yra specialiai apmokytas tokioms užduotims kaip vaizdų aprašymas, nuorodos išraiškos prognozavimas (regionų identifikavimas pagal tekstą) ir pagrįstas aprašymas. Tai pagerina smulkų lokalizavimą ir detalų funkcijų ištraukimą.
Kaip visa tai susijungia (Vaizdas -> Tekstas)
- Vaizdo įvestis: Vaizdas įvedamas į ViT kodavimo įrenginį.
- Pleistro įterpimas: Vaizdas padalijamas į pleistrus, o kiekvienas pleistras paverčiamas įterpimo vektoriumi.
- Transformer kodavimas: Transformer sluoksniai apdoroja šiuos pleistro įterpimus, užfiksuodami ryšius tarp skirtingų vaizdo dalių. Išmokti poziciniai įterpimai suteikia informacijos apie kiekvieno pleistro vietą.
- Dėmesio telkimas: Dėmesiu pagrįstas telkimo mechanizmas (MAP galvutė) apibendrina informaciją iš pleistro įterpimų į vieną, visapusišką vaizdo vaizdavimą.
- Teksto dekoderis (ypač svarbus vaizdas-tekstas): Čia SigLIP 2 aprašymo galimybės įgauna svarbą. Vaizdo vaizdavimas iš kodavimo įrenginio įvedamas į Transformer dekoderį (pridėtą LocCa nuostolio). Dekoderis naudoja kryžminį dėmesį, kad sutelktų dėmesį į atitinkamas vaizdo vaizdavimo dalis generuodamas tekstą.
- Teksto išvestis: Dekoderis generuoja teksto žetonų seką, sudarydamas vaizdo antraštę arba aprašymą.
Daugiakalbė galia
SigLIP 2 neapsiriboja tik anglų kalba. Jis apmokytas su daugiakalbiu duomenų rinkiniu (WebLI), suteikiančiu jam galimybę suprasti ir generuoti tekstą keliomis kalbomis, todėl jis yra tikrai pasaulinis vaizdas-tekstas įrankis.
Apibendrinant
SigLIP 2 derinys iš stiprios ViT pagrindu sukurtos architektūros, sigmoidės nuostolio ir, svarbiausia, dekoderiu pagrįsto išankstinio mokymo su aprašymu ir savarankiška distiliacija, daro jį labai efektyviu modeliu vaizdas-tekstas užduotims. Jis peržengia paprastą vaizdo-teksto suderinimą ir aktyviai generuoja aprašomąjį tekstą, atverdamas galimybes tokioms programoms kaip automatinis vaizdų aprašymas, vizualus klausimų atsakymas ir detali vaizdų analizė.
Nuorodos
ChatGPT su Vision
Jei jums reikia aprašyti ne itin didelį vaizdų duomenų rinkinį, galite naudoti Image Describer įrankį ChatGPT. Jis netinka dideliems vaizdų paketams, bet puikiai tinka mažesniems vaizdų rinkiniams, nes pateikia absoliučiai geriausius aprašymus natūralia kalba. Šio įrankio aprašymai yra labai tikslūs ir detalūs. Tai ne tik žymės, bet ir rišlus bei informatyvus tekstas, kuris taip pat atsižvelgia į ryšius tarp vaizde esančių objektų.
Pavyzdys:
Bandomasis vaizdų rinkinys:



Image Describer išvestis šiems 3 vaizdams:
Įkėlėte tris vaizdus. Štai kiekvieno aprašymas:
- Pirmajame vaizde pavaizduotas žavingas, stilizuotas animacinis kačiukas didelėmis, išraiškingomis akimis. Jis yra daugiausia oranžinis su baltais akcentais ant veido, krūtinės ir letenų. Kačiukas laiko rašiklį, kuris yra beveik toks pat didelis kaip jis pats, ir piešia laimingą veidą ant ryškiai geltono kamuolio. Meno stilius yra labai poliruotas ir turi tam tikrą blizgų paviršių. Fonas rodo įnoringą aplinką su spalvingomis, abstrakčiomis formomis ir žvaigždėto dangaus užuomina.
- Antrasis vaizdas, atrodo, yra pokalbių arba komentarų skilties ekrano kopija iš socialinės žiniasklaidos platformos. Įvairūs vartotojai paliko komentarų, kurių daugelis apima juoką ar susižavėjimą, nurodytą akronimais, tokiais kaip „LMAO“, ir jaustukais. Vartotojų vardai ir profilio nuotraukos yra pikseliuoti privatumo sumetimais, o pikseliavime rodomos įvairios spalvos.
- Trečiasis vaizdas yra labai detali ir realistinė jaunos moters su draugiška išraiška iliustracija. Ji turi ilgus juodus plaukus, šviesią odą ir dėvi purpurinį džemperį su gobtuvu. Moteris taip pat dėvi ausines, o tai rodo, kad ji gali būti vaizdo žaidimų transliuotoja arba dalyvauti kokioje nors internetinėje komunikacijoje. Aplinka atrodo kaip kambarys, apšviestas purpuriniu atspalviu, galbūt iš LED lempučių, rodančių žaidimų sąranką.
Kiekvienas vaizdas turi labai skirtingą kontekstą ir vizualinį stilių, pradedant įnoringa iliustracija, baigiant skaitmeninės sąveikos ekrano kopija ir realistiškesniu skaitmeniniu piešiniu.
Apibendrinimas
Pasirinkimas tarp CLIP, BLIP, WD 1.4, SigLIP 2 ir Image Describer daugiausia priklauso nuo konkrečių projekto poreikių. Jei tikslumas ir detalumas yra svarbiausi, WD 1.4 ir SigLIP 2 siūlo įtikinamą variantą su savo pažangia konfigūracija ir detalaus žymėjimo galimybėmis. Paprastesnėms programoms BLIP tiesioginis požiūris gali būti tinkamesnis. Tuo tarpu CLIP suteikia pusiausvyrą tarp detalumo ir paprastumo, nors ir su polinkiu į žodžių gausą.
Image Describer pateikia geriausius rezultatus, bet netinka dideliems vaizdų rinkiniams aprašyti ar žymėti.
Kadangi šie modeliai ir toliau vystosi ir tobulėja, jie turi daug žadantį potencialą įvairioms programoms, nuo turinio kūrimo iki duomenų analizės. Nepaisant skirtumų, CLIP, BLIP, WD 1.4, SigLIP 2 ir GPT-Vision modeliai yra greitos vaizdas-tekstas technologijos pažangos įrodymas, kiekvienas iš jų prisideda unikaliomis stiprybėmis prie šios įdomios srities.