Image-teksti -tekoälymallit: CLIP, BLIP, WD 1.4 (eli WD14), SigLIP 2 ja ChatGPT Vision-ominaisuudella

Kategoria(t): AI/ML, Art, Open Source Avainsanat: , , ,
Save and Share:

Kuvien automaattinen taggaus, merkitseminen tai kuvaileminen on olennaisen tärkeä tehtävä monissa sovelluksissa, erityisesti koneoppimisen datasettien valmistelussa. Tässä kohtaa image-teksti -mallit astuvat apuun. Johtavia image-teksti -malleja ovat CLIP, BLIP, WD 1.4 (tunnetaan myös nimillä WD14 tai Waifu Diffusion 1.4 Tagger), SigLIP 2 ja ChatGPT Vision-ominaisuudella.

CLIP: Vallankumouksellinen harppaus

OpenAI:n Contrastive Language–Image Pretraining (CLIP) -malli on saanut laajaa tunnustusta vallankumouksellisesta lähestymistavastaan kuvien ymmärtämiseen ja kuvausten luomiseen. CLIP hyödyntää valtavaa määrää internetin teksti- ja kuvadataa oppiakseen lukuisia visuaalisia konsepteja ja tuottaa siten kuvailevia lauseita kuvista.

Käyttäjäarvioiden mukaan CLIP:n kuvailevat lauseet voivat kuitenkin joskus olla redundantteja tai liian laveita. Yleinen kritiikki koskee mallin taipumusta toistaa samankaltaisia kuvauksia samasta objektista tai ylikorostaa tiettyjä ominaisuuksia, kuten objektin väriä.

BLIP: Yksinkertaisuus kohtaa toiminnallisuuden

BLIP-malli, vaikka se onkin vähemmän yksityiskohtainen kuvauksissaan verrattuna CLIP:iin, tarjoaa yksinkertaisemman ja suoraviivaisemman lähestymistavan image-teksti -prosessointiin. Kuten eräs arvioija totesi, BLIP on ”ihan siisti ja kaikkea, mutta aika perus”. Tämän mallin yksinkertaisuus voi olla etu sovelluksissa, jotka vaativat selkeitä, vähemmän laveita tageja tai kuvauksia.

Siitä huolimatta jotkut käyttäjät ovat havainneet, että BLIP:n ulostulosta puuttuu usein syvyys ja tarkkuus, jota WD14:n kaltaiset mallit tarjoavat. Vaikka se voi tuottaa tyydyttäviä tuloksia, BLIP ei ehkä ole paras valinta sovelluksiin, jotka vaativat yksityiskohtaisia, monimutkaisia tageja.

Olen huomannut, että WD14, vaikka se onkin anime-painotteinen, toimii erinomaisesti myös oikeissa valokuvissa ihmisistä. Yleensä yhdistän sen BLIP:iin, ja useimmiten se poimii paljon enemmän yksityiskohtia kuin BLIP.

Toni Corvera osoitteessa YouTube-kommentit

Blip on ihan siisti ja kaikkea, mutta aika perus.

WD 1.4 (WD14) taggaus on paljon parempi – enemmän yksityiskohtia, mehukkaampia tageja.

OrphBean osoitteessa GitHub

WD 1.4 (eli WD14): Tarkkuutta yksityiskohdissa

WD 1.4 -malli (tunnetaan myös nimillä WD14 tai Waifu Diffusion 1.4 Tagger), joka alun perin suunniteltiin animekuville, on osoittanut yllättävää monipuolisuutta ja toimii hyvin myös valokuvien kanssa. Käyttäjät ovat ylistäneet sen edistyneitä konfigurointivaihtoehtoja ja eräkäsittelyominaisuuksia, jotka tekevät siitä vankan työkalun image-teksti -käännöksiin.

WD14:n erottaa muista sen kyky tuottaa yksityiskohtaisia, ”mehukkaampia” tageja, jotka tarjoavat syvällisempiä kuvauksia kuvista verrattuna kilpailijoihinsa. Vaikka tämä malli tuottaa epätodennäköisemmin vääriä tageja, sen keskittyminen animeen voi olla rajoitus tietyntyyppisille kuville.

K: Onko WD14-taggaaja parempi kuin Automatic1111:een sisäänrakennettu BLIP tai deepdanbooru?

V: Lisäosa tarjoaa paremmat konfigurointi- ja eräkäsittelyvaihtoehdot, ja olen havainnut, että se tuottaa epätodennäköisemmin täysin vääriä tageja kuin deepdanbooru.

CLIP/BLIP on erilainen, koska ne tuottavat kuvailevia lauseita tagilistojen sijaan, mutta jälkimmäinen on yleensä enemmän tarpeideni mukaista. Ja sisäänrakennettu CLIP-interrogaattori on altis tuottamaan asioita, kuten ”kuva (kuvaus) ja kuva (hieman erilainen kuvaus samasta asiasta)” tai ”(lähes täydellinen kuvaus) ja vaaleanpunaiset hiukset ja vaaleanpunaiset hiukset ja vaaleanpunaiset hiukset ja (toistetaan monta kertaa)”

Vaikka WD14-taggaaja on tehty animea varten, se toimii melko hyvin valokuvissa.

MorganTheDual osoitteessa Reddit

SigLIP 2: Tehokas image-teksti -moottori

Googlen ilmainen ja avoimen lähdekoodin malli SigLIP 2 ei ole vain visio-kieli -malli; se on tehokas moottori kuvien muuttamiseksi mielekkääksi tekstiksi. Vaikka se onkin erinomainen tehtävissä, kuten image-teksti -haku ja nolla-shot-luokittelu, sen arkkitehtuuri ja koulutusparannukset tekevät siitä vahvan kilpailijan image-teksti -generoinnissa ja ymmärtämisessä. Seuraavassa on erittely siitä, miten SigLIP 2 toimii tässä kontekstissa:

Perusta: Vision Transformer (ViT) ja sigmoidifunktio

  • Vision Transformer (ViT): Toisin kuin konvoluutioneuraaliverkot (CNN:t), SigLIP 2 käyttää Vision Transformer (ViT) -arkkitehtuuria. ViT käsittelee kuvaa laikkujonona, samalla tavalla kuin sanoja käsitellään tokeneina luonnollisen kielen prosessoinnissa. Jokainen laikku muunnetaan vektorimuotoiseksi esitykseksi (upotukseksi). Tämä mahdollistaa mallin käyttää tehokasta Transformer-arkkitehtuuria, joka tunnetaan kyvystään kaapata pitkän kantaman riippuvuuksia, ymmärtääkseen suhteita kuvan eri osien välillä.
  • Sigmoidifunktio (ei kontrastinen): Keskeinen SigLIP:n (ja SigLIP 2:n) erottava tekijä on sigmoidifunktion käyttö yleisemmän kontrastisen funktion (jota käytetään CLIP:n kaltaisissa malleissa) sijaan. Kontrastinen oppiminen edellyttää kuvan vertaamista useisiin tekstivaihtoehtoihin. Sigmoidifunktio puolestaan käsittelee image-teksti -täsmäytystä binäärisenä luokitteluongelmana jokaiselle image-teksti -parille. Tällä näennäisesti pienellä muutoksella on suuri vaikutus: se mahdollistaa vakaamman koulutuksen ja paremman suorituskyvyn, erityisesti suuremmilla eräkokoilla. Se keskittyy yksittäisiin image-teksti -parien täsmäytyksiin.

Parannettu koulutus tekstin generointia varten

SigLIP 2 ottaa SigLIP:n perustan ja lisää useita ratkaisevia parannuksia, jotka hyödyttävät suoraan sen image-teksti -ominaisuuksia:

  • Kuvatekstipohjainen esikoulutus: Tämä on valtava askel. SigLIP 2 sisällyttää kuvatekstityksen osaksi esikoulutusprosessiaan. Tämä tarkoittaa, että se on nimenomaisesti koulutettu tuottamaan tekstikuvauksia kuvista. Tämä on vastakohtana malleille, kuten alkuperäiselle CLIP:ille, joka oli ensisijaisesti koulutettu image-teksti -täsmäytykseen, ei generointiin.
  • Inspiroitunut itseohjautuvasta oppimisesta:
    • Itsedistillaatio: Malli oppii omista ennusteistaan ja hioo ymmärrystään ajan myötä.
    • Maskattu ennustaminen: Osa syötteestä (joko kuvalaikut tai tekstitokenit) piilotetaan, ja malli oppii ennustamaan puuttuvat osat. Tämä pakottaa sen kehittämään syvempää ymmärrystä molemmista modaliteeteista.
  • LocCa-funktio ja dekooderi: SigLIP 2 integroi LocCa-funktion, joka lisää Transformer-dekooderin ristiinhuomiolla. Tämä dekooderi on erityisesti koulutettu tehtäviin, kuten kuvatekstitykseen, viittaavan ilmaisun ennustamiseen (alueiden tunnistaminen tekstin perusteella) ja maadoitettuun kuvatekstitykseen. Tämä parantaa hienojakoista paikallistamista ja yksityiskohtaista ominaisuuksien erottamista.

Miten kaikki yhdistyy (Kuva -> Teksti)

  1. Kuvasyöte: Kuva syötetään ViT-enkooderiin.
  2. Laikkujen upotus: Kuva jaetaan laikkuiksi, ja jokainen laikku muunnetaan upotusvektoriksi.
  3. Transformer-enkoodaus: Transformer-kerrokset käsittelevät näitä laikkujen upotuksia kaapaten suhteita kuvan eri osien välillä. Opitut positionaaliset upotukset antavat tietoa jokaisen laikun sijainnista.
  4. Huomioallastus: Huomioon perustuva allastusmekanismi (MAP-pää) yhdistää tiedon laikkujen upotuksista yhdeksi, kattavaksi kuvan esitykseksi.
  5. Tekstidekooderi (ratkaiseva image-teksti -muunnoksessa): Tässä SigLIP 2:n kuvatekstitysominaisuudet astuvat kuvaan. Enkooderista saatu kuvan esitys syötetään Transformer-dekooderiin (jonka LocCa-funktio on lisännyt). Dekooderi käyttää ristiinhuomiota keskittyäkseen kuvan esityksen olennaisiin osiin samalla kun se generoi tekstiä.
  6. Tekstiulostulo: Dekooderi generoi tekstimerkkijonon, joka muodostaa kuvatekstin tai kuvauksen kuvasta.

Monikielinen voima

SigLIP 2 ei rajoitu pelkästään englantiin. Se on koulutettu monikielisellä datasetillä (WebLI), mikä antaa sille kyvyn ymmärtää ja generoida tekstiä useilla kielillä, mikä tekee siitä todella globaalin image-teksti -työkalun.

Yhteenvetona

SigLIP 2:n yhdistelmä vahvaa ViT-pohjaista arkkitehtuuria, sigmoidifunktiota ja ratkaisevasti dekooderipohjaista esikoulutusta kuvatekstityksellä ja itsedistillaatiolla tekee siitä erittäin tehokkaan mallin image-teksti -tehtäviin. Se menee yksinkertaista image-teksti -täsmäytystä pidemmälle generoimalla aktiivisesti kuvailevaa tekstiä, mikä avaa mahdollisuuksia sovelluksille, kuten automaattiselle kuvatekstitykselle, visuaaliseen kysymys-vastausjärjestelmiin ja yksityiskohtaiseen kuva-analyysiin.

Linkit

ChatGPT Vision-ominaisuudella

Jos sinun tarvitsee kuvata ei kovin suurta kuvadatajoukkoa, voit käyttää Image Describer -työkalua ChatGPT:ssä. Se ei sovellu suurille erille kuvia, mutta se on täydellinen pienemmille kuvajoukoille, koska se tarjoaa ehdottomasti parhaat kuvaukset luonnollisella kielellä. Tämän työkalun kuvaukset ovat erittäin tarkkoja ja yksityiskohtaisia. Se ei ole vain tageja, vaan johdonmukaista ja informatiivista tekstiä, joka ottaa huomioon myös kuvassa olevien objektien väliset suhteet.

Esimerkki:

Testikuvajoukko:

Image Describer -ulostulo näille 3 kuvalle:

Olet ladannut kolme kuvaa. Tässä on kuvaus jokaisesta:

  1. Ensimmäisessä kuvassa on ihastuttava, tyylitelty sarjakuvakissa, jolla on suuret, ilmeikkäät silmät. Se on pääosin oranssi, ja sillä on valkoisia yksityiskohtia kasvoissa, rinnassa ja tassuissa. Kissa pitelee kynää, joka on melkein yhtä suuri kuin se itse, ja piirtää hymynaamaa kirkkaankeltaiseen palloon. Taidetyyli on erittäin hiottu ja siinä on jonkinlainen kiiltävä pinta. Tausta viittaa hassunhauskaan ympäristöön, jossa on värikkäitä, abstrakteja muotoja ja vihje tähtitaivaasta.
  2. Toinen kuva näyttää olevan kuvakaappaus chatista tai kommenttiosiosta sosiaalisen median alustalta. Useat käyttäjät ovat jättäneet kommentteja, joista monet sisältävät naurua tai huvittuneisuutta, jota ilmaistaan lyhenteillä, kuten ”LMAO” ja emojeilla. Käyttäjänimet ja profiilikuvat on pikselöity yksityisyyden suojaamiseksi, ja pikselöinnissä näkyy useita värejä.
  3. Kolmas kuva on erittäin yksityiskohtainen ja realistinen kuvitus nuoresta naisesta, jolla on ystävällinen ilme. Hänellä on pitkät mustat hiukset, vaalea iho ja hänellä on yllään violetti huppari. Naisella on myös kuulokemikrofoni, mikä viittaa siihen, että hän saattaa olla videopelistriimaaja tai mukana jonkinlaisessa online-viestinnässä. Ympäristö näyttää olevan huone, joka on valaistu violetilla sävyllä, mahdollisesti LED-valoista, mikä viittaa peliasetukseen.

Jokaisella kuvalla on hyvin erilainen konteksti ja visuaalinen tyyli, hassunhauskasta kuvituksesta digitaalisen vuorovaikutuksen kuvakaappaukseen ja realistisempaan digitaaliseen maalaukseen.

Yhteenveto

Valinta CLIP:n, BLIP:n, WD 1.4:n, SigLIP 2:n ja Image Describerin välillä riippuu suuresti projektin erityistarpeista. Jos tarkkuus ja yksityiskohdat ovat ensiarvoisen tärkeitä, WD 1.4 tarjoaa houkuttelevan vaihtoehdon edistyneillä konfigurointivaihtoehdoillaan ja yksityiskohtaisilla taggausominaisuuksillaan. Yksinkertaisempiin sovelluksiin BLIP:n suoraviivainen lähestymistapa saattaa olla sopivampi. Samaan aikaan CLIP tarjoaa tasapainon yksityiskohtien ja yksinkertaisuuden välillä, vaikkakin sillä on taipumus laveuteen.

Image Describer tarjoaa parhaat tulokset, mutta se ei sovellu suurten kuvajoukkojen kuvaamiseen tai taggaamiseen.

Kun nämä mallit jatkavat kehittymistään ja parantumistaan, niillä on lupaavaa potentiaalia monenlaisiin sovelluksiin sisällöntuotannosta data-analyysiin. Eroavaisuuksistaan huolimatta CLIP-, BLIP-, WD 1.4-, SigLIP 2- ja GPT-Vision-mallit ovat osoitus image-teksti -teknologian nopeasta kehityksestä, ja jokainen niistä tuo ainutlaatuisia vahvuuksia tälle jännittävälle alalle.

Kirjoita kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *