Attēlu-teksta mākslīgais intelekts modeļi: CLIP, BLIP, WD 1.4 (jeb WD14), SigLIP 2 un ChatGPT ar Vision

Categorized as AI/ML, Art, Open Source Tagged , , ,
Save and Share:

Automātiska attēlu tagu, etiķešu vai aprakstu ģenerēšana ir ļoti svarīgs uzdevums daudzās jomās, īpaši datu kopu sagatavošanā mašīnmācībai. Šeit palīgā nāk attēlu-teksta modeļi. Starp vadošajiem attēlu-teksta modeļiem ir CLIP, BLIP, WD 1.4 (zināms arī kā WD14 jeb Waifu Diffusion 1.4 Tagger), SigLIP 2 un ChatGPT ar Vision.

CLIP: revolucionārs lēciens

OpenAI izstrādātais Contrastive Language–Image Pretraining (CLIP) modelis ir plaši atzīts par tā revolucionāro pieeju attēlu izpratnei un aprakstu ģenerēšanai. CLIP izmanto lielu apjomu interneta teksta un attēlu datu, lai apgūtu daudzus vizuālos konceptus, tādējādi radot aprakstošus teikumus attēliem.

Tomēr, saskaņā ar lietotāju atsauksmēm, CLIP ģenerētie aprakstošie teikumi dažreiz var būt lieki vai pārmērīgi apjomīgi. Bieža kritika ir saistīta ar modeļa tendenci atkārtot līdzīgus aprakstus vienam un tam pašam objektam vai pārāk uzsvērt noteiktas īpašības, piemēram, objekta krāsu.

BLIP: vienkāršība satiek funkcionalitāti

BLIP modelis, lai gan tā apraksti nav tik detalizēti kā CLIP, piedāvā vienkāršāku un tiešāku pieeju attēlu-teksta apstrādei. Kā atzīmēja kāds recenzents, BLIP ir “foršs un viss, bet diezgan vienkāršs”. Šī modeļa vienkāršība var būt priekšrocība lietojumiem, kuriem nepieciešami vienkārši, mazāk apjomīgi tagi vai apraksti.

Tomēr daži lietotāji atklāja, ka BLIP izvadei bieži trūkst dziļuma un detalizācijas, ko nodrošina tādi modeļi kā WD14. Lai gan tas var ģenerēt apmierinošus rezultātus, BLIP, iespējams, nav labākā izvēle lietojumiem, kuriem nepieciešami detalizēti, sarežģīti tagi.

Esmu atklājis, ka WD14, neskatoties uz to, ka tas ir orientēts uz anime, lieliski darbojas arī ar reālām cilvēku fotogrāfijām. Es parasti to kombinēju ar BLIP, un lielākoties tas uztver daudz vairāk detaļu nekā BLIP.

Toni Corvera vietnē YouTube komentāri

Blip ir foršs un viss, bet diezgan vienkāršs.

WD 1.4 (WD14) tagi ir daudz labāki – detalizētāki, “sulīgāki” tagi.

OrphBean vietnē GitHub

WD 1.4 (jeb WD14): precizitāte detaļās

WD 1.4 modelis (zināms arī kā WD14 jeb Waifu Diffusion 1.4 Tagger), kas sākotnēji tika izstrādāts anime attēliem, ir demonstrējis pārsteidzošu daudzpusību, labi darbojoties pat ar fotogrāfijām. Lietotāji ir slavējuši tā uzlabotās konfigurācijas iespējas un pakešapstrādes iespējas, kas padara to par robustu rīku attēlu-teksta tulkošanai.

WD14 atšķir no citiem tā spēja ģenerēt detalizētus, “sulīgākus” tagus, nodrošinot padziļinātākus attēlu aprakstus salīdzinājumā ar tā konkurentiem. Lai gan šis modelis mazāk ģenerē neīstus tagus, tā koncentrēšanās uz anime varētu būt ierobežojums noteiktiem attēlu veidiem.

J: Vai WD14 tagotājs ir labāks par BLIP vai deepdanbooru, kas ir iebūvēti Automatic1111?

A: Paplašinājums nodrošina labākas konfigurācijas un pakešapstrādes iespējas, un esmu atklājis, ka tas mazāk ģenerē pilnīgi neīstus tagus nekā deepdanbooru.

CLIP/BLIP ir atšķirīgi, jo tie ģenerē aprakstošus teikumus, nevis tagu sarakstus, bet pēdējie parasti vairāk atbilst manām vajadzībām. Un iebūvētais CLIP vaicātājs ir tendēts uz tādu lietu izspļaušanu kā “attēls ar (apraksts) un attēls ar (nedaudz atšķirīgs tā paša objekta apraksts)” vai “(gandrīz pilnīgs apraksts) un rozā mati un rozā mati un rozā mati un (atkārto daudzas reizes)”

Neskatoties uz to, ka WD14 tagotājs ir izveidots anime vajadzībām, tas diezgan labi darbojas ar fotogrāfijām.

MorganTheDual vietnē Reddit

SigLIP 2: jaudīgs attēlu-teksta dzinējs

Bezmaksas un atvērts modelis SigLIP 2 no Google nav tikai redzes-valodas modelis; tas ir jaudīgs dzinējs attēlu pārvēršanai jēgpilnā tekstā. Lai gan tas izcili veic tādus uzdevumus kā attēlu-teksta izgūšana un nulles šāviena klasifikācija, tā arhitektūra un apmācības uzlabojumi padara to par spēcīgu konkurentu attēlu-teksta ģenerēšanai un izpratnei. Šeit ir sīkāks skaidrojums par to, kā SigLIP 2 darbojas šajā kontekstā:

Pamats: Vision Transformer (ViT) un Sigmoid Loss

  • Vision Transformer (ViT): Atšķirībā no konvolucionālajiem neironu tīkliem (CNN), SigLIP 2 izmanto Vision Transformer (ViT) arhitektūru. ViT attēlu uztver kā plāksteru secību, līdzīgi kā vārdus uztver kā tokenus dabiskās valodas apstrādē. Katrs plāksteris tiek pārveidots par vektora attēlojumu (ieguldi). Tas ļauj modelim izmantot jaudīgo Transformer arhitektūru, kas ir pazīstama ar savu spēju uztvert liela diapazona atkarības, lai saprastu attiecības starp dažādām attēla daļām.
  • Sigmoid Loss (nav kontrastīvs): Galvenā SigLIP (un SigLIP 2) atšķirība ir sigmoid zuduma funkcijas izmantošana, nevis biežāk sastopamā kontrastīvā zuduma (ko izmanto tādos modeļos kā CLIP). Kontrastīvai mācībai ir nepieciešams salīdzināt attēlu ar vairākām teksta iespējām. Savukārt Sigmoid zudums attēlu-teksta saskaņošanu uztver kā bināru klasifikācijas problēmu katram attēlu-teksta pārim. Šī šķietami nelielā izmaiņa būtiski ietekmē: tā nodrošina stabilāku apmācību un labāku veiktspēju, īpaši ar lielākiem pakešu izmēriem. Tā koncentrējas uz atsevišķiem attēlu-teksta pāru saskaņojumiem.

Uzlabota apmācība teksta ģenerēšanai

SigLIP 2 balstās uz SigLIP pamatiem un pievieno vairākus būtiskus uzlabojumus, kas tieši uzlabo tā attēlu-teksta iespējas:

  • Parakstu veidošanas iepriekšēja apmācība: Tas ir milzīgs solis. SigLIP 2 iekļauj parakstu veidošanu kā daļu no tā iepriekšējas apmācības procesa. Tas nozīmē, ka tas ir īpaši apmācīts, lai ģenerētu attēlu teksta aprakstus. Tas ir pretēji tādiem modeļiem kā oriģinālais CLIP, kas galvenokārt tika apmācīti attēlu-teksta saskaņošanai, nevis ģenerēšanai.
  • Iedvesmojoties no pašmācības: SigLIP 2 izmanto jaudīgas metodes:
    • Pašdestilācija: Modelis mācās no saviem pašas prognozēm, laika gaitā pilnveidojot savu izpratni.
    • Maskēta prognozēšana: Daļas no ievades (vai nu attēlu plāksteri, vai teksta tokeni) tiek paslēptas, un modelis mācās prognozēt trūkstošās daļas. Tas liek tam izveidot dziļāku izpratni par abām modalitātēm.
  • LocCa Loss un dekodētājs: SigLIP 2 integrē LocCa zudumu, kas pievieno Transformer dekodētāju ar krustenisko uzmanību. Šis dekodētājs ir īpaši apmācīts tādiem uzdevumiem kā attēlu parakstīšana, atsauces izteiksmju prognozēšana (reģionu identificēšana, pamatojoties uz tekstu) un pamatota parakstīšana. Tas uzlabo smalku lokalizāciju un detalizētu funkciju izvilkšanu.

Kā tas viss saskan (Attēls -> Teksts)

  1. Attēla ievade: Attēls tiek ievadīts ViT kodētājā.
  2. Plāksteru iegulde: Attēls tiek sadalīts plāksteros, un katrs plāksteris tiek pārveidots par ieguldes vektoru.
  3. Transformer kodēšana: Transformer slāņi apstrādā šos plāksteru ieguldījumus, uztverot attiecības starp dažādām attēla daļām. Apgūtie pozicionālie ieguldījumi sniedz informāciju par katra plākstera atrašanās vietu.
  4. Uzmanības pūls: Uz uzmanību balstīts pūla mehānisms (MAP galva) apkopo informāciju no plāksteru ieguldījumiem vienotā, visaptverošā attēla attēlojumā.
  5. Teksta dekodētājs (būtiski attēlam-tekstam): Šeit SigLIP 2 parakstu veidošanas iespējas nāk talkā. Attēla attēlojums no kodētāja tiek ievadīts Transformer dekodētājā (ko pievieno LocCa zudums). Dekodētājs izmanto krustenisko uzmanību, lai koncentrētos uz atbilstošām attēla attēlojuma daļām, vienlaikus ģenerējot tekstu.
  6. Teksta izvade: Dekodētājs ģenerē teksta tokenu secību, veidojot attēla parakstu vai aprakstu.

Daudzvalodu jauda

SigLIP 2 nav ierobežots tikai ar angļu valodu. Tas ir apmācīts ar daudzvalodu datu kopu (WebLI), kas dod tam iespēju saprast un ģenerēt tekstu vairākās valodās, padarot to par patiesi globālu attēlu-teksta rīku.

Rezumējot

SigLIP 2 spēcīgās ViT arhitektūras, sigmoid zuduma un, kas ir būtiski, dekodētāja iepriekšējas apmācības ar parakstu veidošanu un pašdestilāciju kombinācija padara to par ļoti efektīvu modeli attēlu-teksta uzdevumiem. Tas pārsniedz vienkāršu attēlu-teksta saskaņošanu, aktīvi ģenerējot aprakstošu tekstu, paverot iespējas tādiem lietojumiem kā automātiska attēlu parakstīšana, vizuāla jautājumu atbildēšana un detalizēta attēlu analīze.

Saites

ChatGPT ar Vision

Ja jums ir nepieciešams aprakstīt ne pārāk lielu attēlu datu kopu, varat izmantot rīku Image Describer ChatGPT. Tas nav piemērots lielām attēlu pakotnēm, bet tas ir lieliski piemērots mazākām attēlu kopām, jo tas nodrošina absolūti labākos aprakstus dabiskā valodā. Apraksti no šī rīka ir ļoti precīzi un detalizēti. Tie nav tikai tagi, bet gan saskaņots un informatīvs teksts, kas ņem vērā arī attiecības starp objektiem attēlā.

Piemērs:

Testa attēlu kopa:

Image Describer izvade šiem 3 attēliem:

Jūs esat augšupielādējis trīs attēlus. Šeit ir katra apraksts:

  1. Pirmajā attēlā redzams burvīgs, stilizēts multfilmu kaķēns ar lielām, izteiksmīgām acīm. Tas ir galvenokārt oranžs ar baltiem akcentiem uz sejas, krūtīm un ķepām. Kaķēns tur rokā pildspalvu, kas ir gandrīz tikpat liela kā viņš pats, un zīmē smaidošu seju uz spilgti dzeltenas bumbas. Mākslas stils ir ļoti gluds un ar tādu kā spīdīgu apdari. Fons norāda uz kaprīzu vidi ar krāsainām, abstraktām formām un zvaigžņotas debess iespaidu.
  2. Otrais attēls, šķiet, ir ekrānuzņēmums no sociālo mediju platformas tērzēšanas vai komentāru sadaļas. Dažādi lietotāji ir atstājuši komentārus, no kuriem daudzi ietver smieklus vai izklaidi, ko norāda akronīmi, piemēram, “LMAO”, un emocijzīmes. Lietotājvārdi un profila attēli ir pikselēti privātuma nolūkos, un pikselēšanā tiek parādītas dažādas krāsas.
  3. Trešais attēls ir ļoti detalizēta un reālistiska jaunas sievietes ilustrācija ar draudzīgu izteiksmi. Viņai ir gari melni mati, gaiša āda un purpura krāsas kapuce. Sieviete valkā arī austiņas, kas liecina, ka viņa varētu būt videospēļu straumētāja vai iesaistīta kādā tiešsaistes komunikācijas formā. Vide, šķiet, ir telpa, kas apgaismota ar purpursarkanu nokrāsu, iespējams, no LED gaismām, kas liecina par spēļu iekārtu.

Katram attēlam ir ļoti atšķirīgs konteksts un vizuālais stils, sākot no kaprīzas ilustrācijas līdz digitālās mijiedarbības ekrānuzņēmumam un reālistiskākai digitālai glezniecībai.

Noslēgumā

Izvēle starp CLIP, BLIP, WD 1.4, SigLIP 2 un Image Describer lielā mērā ir atkarīga no projekta specifiskajām vajadzībām. Ja precizitāte un detaļas ir vissvarīgākās, WD 1.4 un SigLIP 2 piedāvā pārliecinošu iespēju ar savām uzlabotajām konfigurācijas un detalizētām tagu iespējām. Vienkāršākiem lietojumiem BLIP vienkāršā pieeja varētu būt piemērotāka. Tikmēr CLIP nodrošina līdzsvaru starp detaļām un vienkāršību, lai gan ar tendenci uz apjomīgumu.

Image Describer nodrošina labākos rezultātus, bet nav piemērots lielu attēlu kopu aprakstīšanai vai tagu piešķiršanai.

Turpinot attīstīties un uzlaboties, šie modeļi sola daudzsološu potenciālu plašam lietojumu spektram, sākot no satura izveides līdz datu analīzei. Neskatoties uz atšķirībām, CLIP, BLIP, WD 1.4, SigLIP 2 un GPT-Vision modeļi liecina par straujo progresu attēlu-teksta tehnoloģijā, katrs no tiem sniedzot unikālu ieguldījumu šajā aizraujošajā jomā.

Leave a comment

Your email address will not be published. Required fields are marked *