Piltide automaatne märgendamine, sildistamine või kirjeldamine on paljudes rakendustes, eriti masinõppe andmekogumite ettevalmistamisel, ülioluline ülesanne. Siin tulevad appi pildist tekstiks mudelid. Peamiste pildist tekstiks mudelite hulka kuuluvad CLIP, BLIP, WD 1.4 (tuntud ka kui WD14 või Waifu Diffusion 1.4 Tagger), SigLIP 2 ja ChatGPT Visioniga.
CLIP: Revolutsiooniline läbimurre
OpenAI Contrastive Language–Image Pretraining (CLIP) mudel on laialdaselt tuntud oma revolutsioonilise lähenemisviisi poolest piltide mõistmise ja kirjelduste genereerimise vallas. CLIP kasutab suurt hulka internetist pärit teksti- ja pildiandmeid, et õppida tundma mitmeid visuaalseid kontseptsioone, genereerides seeläbi piltidele kirjeldavaid lauseid.
Kasutajate arvustuste kohaselt võivad CLIP-i kirjeldavad laused mõnikord olla ülearused või liiga pikad. Levinud kriitika puudutab mudeli kalduvust korrata sarnaseid kirjeldusi sama objekti kohta või liigselt rõhutada teatud omadusi, näiteks objekti värvi.
BLIP: Lihtsus kohtub funktsionaalsusega
BLIP mudel, kuigi oma kirjeldustes CLIP-ist vähem detailne, pakub pildist tekstiks töötlemiseks lihtsamat ja otsesemat lähenemist. Nagu üks arvustaja märkis, on BLIP “cool ja puha, aga üsna basic”. Selle mudeli lihtsus võib olla eeliseks rakendustes, mis vajavad otsekoheseid, vähem sõnaohtraid silte või kirjeldusi.
Sellegipoolest leidsid mõned kasutajad, et BLIP-i väljundist jääb sageli puudu sügavus ja detailsus, mida pakuvad mudelid nagu WD14. Kuigi see suudab genereerida rahuldavaid tulemusi, ei pruugi BLIP olla parim valik rakenduste jaoks, mis nõuavad detailseid ja keerukaid silte.
Olen leidnud, et WD14, kuigi anime-keskne, töötab suurepäraselt ka päris inimeste fotodega. Tavaliselt kombineerin seda BLIP-iga ja enamasti leiab see üles palju rohkem detaile kui BLIP.
Toni Corvera at YouTube comments
Blip on cool ja puha, aga üsna basic.
WD 1.4 (WD14) märgendamine on palju parem – detailsemad, “mahlasemad” sildid.
OrphBean at GitHub
WD 1.4 (ehk WD14): Täpsus detailsuses
WD 1.4 mudel (tuntud ka kui WD14 või Waifu Diffusion 1.4 Tagger), mis algselt loodi animepiltide jaoks, on näidanud üllatavat mitmekülgsust, toimides hästi isegi fotodega. Kasutajad on kiitnud selle täiustatud konfiguratsioonivalikuid ja pakettöötlusvõimalusi, mis teevad sellest tugeva tööriista pildist tekstiks tõlkimiseks.
WD14 eristab teistest selle võime genereerida detailseid, “mahlasemaid” silte, pakkudes põhjalikumaid pildikirjeldusi võrreldes konkurentidega. Kuigi see mudel genereerib vähem tõenäoliselt valesid silte, võib selle keskendumine animele olla piiranguks teatud tüüpi piltide puhul.
K: Kas WD14 märgendi on parem kui BLIP või deepdanbooru, mis on sisse ehitatud Automatic1111-sse?
V: Laiendus pakub paremaid konfiguratsiooni- ja pakettöötlusvõimalusi ning olen leidnud, et see genereerib vähem tõenäoliselt täiesti valesid silte kui deepdanbooru.CLIP/BLIP on erinevad, kuna need genereerivad kirjeldavaid lauseid, mitte siltide loendeid, kuid viimane on tavaliselt minu vajadustega rohkem kooskõlas. Ja sisseehitatud CLIP-i küsitleja kipub välja paiskama selliseid asju nagu “pilt (kirjeldusest) ja pilt (veidi erinev kirjeldus samast asjast)” või “(enamasti täielik kirjeldus) ja roosad juuksed ja roosad juuksed ja roosad juuksed ja (kordub mitu korda)”
Vaatamata sellele, et WD14 märgendi on loodud anime jaoks, töötab see fotodega üsna hästi.
MorganTheDual at Reddit
SigLIP 2: Võimas pildist tekstiks mootor
Google’i tasuta ja avatud mudel SigLIP 2 ei ole lihtsalt nägemis-keele mudel; see on võimas mootor piltide muutmiseks tähendusrikkaks tekstiks. Kuigi see paistab silma sellistes ülesannetes nagu pilt-tekst otsing ja null-lasu klassifitseerimine, muudavad selle arhitektuur ja treeningu täiustused selle tugevaks kandidaadiks pildist tekstiks genereerimise ja mõistmise vallas. Siin on ülevaade, kuidas SigLIP 2 selles kontekstis töötab:
Alus: Vision Transformer (ViT) ja sigmoidkadu
- Vision Transformer (ViT): Erinevalt konvolutsioonilistest närvivõrkudest (CNN) kasutab SigLIP 2 Vision Transformer (ViT) arhitektuuri. ViT käsitleb pilti kui paigalaikude jada, sarnaselt sellele, kuidas sõnu käsitletakse tokenitena loomulikus keeletöötluses. Iga paigalaik muudetakse vektorkujutiseks (embedding). See võimaldab mudelil kasutada võimsat Transformer arhitektuuri, mis on tuntud oma võime poolest haarata pikamaa sõltuvusi, et mõista suhteid pildi erinevate osade vahel.
- Sigmoidkadu (mitte kontrastiivne): SigLIP-i (ja SigLIP 2) peamine eristaja on sigmoidkadu funktsiooni kasutamine tavalisema kontrastiivse kadu (mida kasutatakse mudelites nagu CLIP) asemel. Kontrastiivne õppimine nõuab pildi võrdlemist mitme teksti variandiga. Sigmoidkadu seevastu käsitleb pilt-tekst sobitamist binaarse klassifitseerimise probleemina iga pilt-tekst paari jaoks. Sellel näiliselt väikesel muudatusel on suur mõju: see võimaldab stabiilsemat treenimist ja paremat jõudlust, eriti suuremate pakettide suuruste korral. See keskendub individuaalsetele pilt-tekst paari vastavustele.
Täiustatud treenimine teksti genereerimiseks
SigLIP 2 võtab SigLIP-i aluse ja lisab mitmeid olulisi täiustusi, mis otseselt parandavad selle pildist tekstiks võimekust:
- Pildiallkirjadel põhinev eelkoolitus: See on tohutu samm. SigLIP 2 lisab pildiallkirjade genereerimise oma eelkoolitusprotsessi osana. See tähendab, et seda on otseselt treenitud genereerima piltide tekstikirjeldusi. See on vastupidine mudelitele nagu originaal-CLIP, mida treeniti peamiselt pilt-tekst sobitamisele, mitte genereerimisele.
- Inspireeritud iseõppivast õppimisest: SigLIP 2 kasutab võimsaid tehnikaid:
- Ise-destilleerimine: Mudel õpib omaenda ennustustest, täiustades aja jooksul oma arusaamist.
- Maskeeritud ennustamine: Osa sisendist (kas pildi paigalaigud või teksttokenid) on peidetud ja mudel õpib ennustama puuduvaid osi. See sunnib seda arendama sügavamat arusaamist mõlemast modaalsusest.
- LocCa kadu ja dekooder: SigLIP 2 integreerib LocCa kadu, mis lisab Transformer dekoodri risttähelepanuga. Seda dekoodrit on spetsiaalselt treenitud ülesannete jaoks nagu pildiallkirjade genereerimine, viitava väljendi ennustamine (teksti põhjal piirkondade tuvastamine) ja maandatud pildiallkirjade genereerimine. See parandab peeneteralist lokaliseerimist ja detailset funktsioonide eraldamist.
Kuidas see kõik kokku tuleb (Pilt -> Tekst)
- Pildi sisend: Pilt söödetakse ViT-enkoodrisse.
- Paigalaigu embedding: Pilt jagatakse paigalaikudeks ja iga paigalaik muudetakse embedding vektoriks.
- Transformer kodeerimine: Transformer kihid töötlevad neid paigalaigu embeddinguid, haarates suhteid pildi erinevate osade vahel. Õpitud positsiooni embeddingud annavad teavet iga paigalaigu asukoha kohta.
- Tähelepanu koondamine: Tähelepanupõhine koondamismehhanism (MAP pea) koondab teabe paigalaigu embeddingutest ühtseks, terviklikuks pildikujutiseks.
- Teksti dekooder (ülioluline pildist tekstiks jaoks): Siin tulevad mängu SigLIP 2 pildiallkirjade genereerimise võimalused. Enkoodri pildikujutis söödetakse Transformer dekoodrisse (mille lisab LocCa kadu). Dekooder kasutab risttähelepanu, et keskenduda pildikujutise asjakohastele osadele teksti genereerimise ajal.
- Teksti väljund: Dekooder genereerib teksttokenite jada, moodustades pildi allkirja või kirjelduse.
Mitmekeelne võimsus
SigLIP 2 ei piirdu ainult inglise keelega. Seda on treenitud mitmekeelsel andmekogumil (WebLI), mis annab sellele võime mõista ja genereerida teksti mitmes keeles, muutes selle tõeliselt globaalseks pildist tekstiks tööriistaks.
Kokkuvõtteks
SigLIP 2 kombinatsioon tugevast ViT-põhisest arhitektuurist, sigmoidkadust ja, mis on oluline, dekoodripõhisest eelkoolitusest pildiallkirjade genereerimise ja ise-destilleerimisega, muudab selle väga tõhusaks mudeliks pildist tekstiks ülesannete jaoks. See läheb lihtsast pilt-tekst sobitamisest kaugemale, et aktiivselt genereerida kirjeldavat teksti, avades võimalusi rakendustele nagu automaatne pildiallkirjade genereerimine, visuaalne küsimustele vastamine ja detailne pildianalüüs.
Lingid
ChatGPT Visioniga
Kui teil on vaja kirjeldada mitte väga suurt piltide andmekogumit, võite kasutada ChatGPT tööriista Image Describer. See ei sobi suurte pildipakettide jaoks, kuid see on ideaalne väiksemate pildikogumite jaoks, kuna see pakub absoluutselt parimaid kirjeldusi loomulikus keeles. Selle tööriista kirjeldused on väga täpsed ja detailirohked. See ei ole lihtsalt sildid, vaid sidus ja informatiivne tekst, mis võtab arvesse ka objektidevahelisi suhteid pildil.
Näide:
Testpiltide komplekt:



Image Describer väljund nende 3 pildi jaoks:
Olete üles laadinud kolm pilti. Siin on igaühe kirjeldus:
- Esimesel pildil on kujutatud armas, stiliseeritud multifilmi kassipoeg suurte, väljendusrikaste silmadega. See on peamiselt oranž, valgete aktsentidega näol, rinnal ja käppadel. Kassipoeg hoiab käes pliiatsit, mis on peaaegu sama suur kui ta ise, ja joonistab helekollasele pallile naerunägu. Kunstistiil on väga viimistletud ja omab omamoodi läikivat viimistlust. Taust viitab veidrale keskkonnale värviliste, abstraktsete kujunditega ja aimdusele tähistaevast.
- Teine pilt näib olevat ekraanipilt vestluse või kommentaaride sektsioonist sotsiaalmeedia platvormil. Erinevad kasutajad on jätnud kommentaare, millest paljud sisaldavad naeru või lõbustust, mida näitavad akronüümid nagu “LMAO” ja emotikonid. Kasutajanimed ja profiilipildid on privaatsuse huvides pikseldatud, pikselduses on näha erinevaid värve.
- Kolmas pilt on väga detailne ja realistlik illustratsioon noorest sõbraliku ilmega naisest. Tal on pikad mustad juuksed, hele nahk ja ta kannab lillat kapuutsiga dressipluusi. Naine kannab ka peakomplekti, mis viitab sellele, et ta võib olla videomängude striimija või tegeleb mingisuguse veebisuhtlusega. Seade näib olevat lilla varjundiga valgustatud ruum, tõenäoliselt LED-valgustitest, mis viitab mänguseadele.
Igal pildil on väga erinev kontekst ja visuaalne stiil, alates veidrast illustratsioonist kuni digitaalse interaktsiooni ekraanipildini ja realistlikuma digitaalse maalini.
Kokkuvõtteks
Valik CLIP-i, BLIP-i, WD 1.4, SigLIP 2 ja Image Describer vahel sõltub suuresti projekti spetsiifilistest vajadustest. Kui täpsus ja detailsus on ülimalt olulised, pakub WD 1.4 oma täiustatud konfiguratsiooni ja detailsete märgendamisvõimalustega veenvat valikut. Lihtsamate rakenduste jaoks võib BLIP-i otsekohene lähenemine olla sobivam. Samal ajal pakub CLIP tasakaalu detaili ja lihtsuse vahel, kuigi kalduvusega sõnaohtrusele.
Image Describer pakub parimaid tulemusi, kuid ei sobi suurte pildikogumite kirjeldamiseks või märgendamiseks.
Kuna need mudelid arenevad ja täiustuvad jätkuvalt, on neil paljulubav potentsiaal laias valikus rakendustes, alates sisu loomisest kuni andmeanalüüsini. Vaatamata nende erinevustele on CLIP, BLIP, WD 1.4, SigLIP 2 ja GPT-Vision mudelid tunnistus kiirest arengust pildist tekstiks tehnoloogias, millest igaüks annab sellesse põnevasse valdkonda ainulaadseid tugevusi.