Kép-szöveg AI modellek: CLIP, BLIP, WD 1.4 (azaz WD14), SigLIP 2 és a ChatGPT Visionnel

AI/ML, Art, Open Source kategóriába sorolva Címkézve , , ,
Save and Share:

Az automatizált címkézés, feliratozás vagy képleírás kritikus feladat számos alkalmazásban, különösen a gépi tanuláshoz szükséges adathalmazok előkészítése során. Ebben nyújtanak segítséget a kép-szöveg modellek. A vezető kép-szöveg modellek közé tartozik a CLIP, a BLIP, a WD 1.4 (más néven WD14 vagy Waifu Diffusion 1.4 Tagger), a SigLIP 2 és a ChatGPT Visionnel.

CLIP: Forradalmi ugrás

Az OpenAI Contrastive Language–Image Pretraining (CLIP) modelljét széles körben elismerik a képek értelmezésében és leírások generálásában alkalmazott forradalmi megközelítéséért. A CLIP hatalmas mennyiségű internetes szöveget és képanyagot használ fel, hogy vizuális fogalmak széles skáláját tanulja meg, és ezáltal leíró mondatokat generáljon a képekhez.

Azonban a felhasználói vélemények szerint a CLIP leíró mondatai néha redundánsak vagy túlságosan szóvirágosak lehetnek. Gyakori kritika a modell azon hajlama, hogy ugyanarra az objektumra hasonló leírásokat ismétel, vagy túlzottan hangsúlyoz bizonyos attribútumokat, például egy objektum színét.

BLIP: Egyszerűség és funkcionalitás találkozása

A BLIP modell, bár a CLIP-hez képest kevésbé részletes leírásokat generál, egyszerűbb és közvetlenebb megközelítést kínál a kép-szöveg feldolgozáshoz. Ahogy egy véleményező megjegyezte, a BLIP „tök jó meg minden, de elég alap”. Ennek a modellnek az egyszerűsége előnyt jelenthet olyan alkalmazásokban, amelyek egyszerű, kevésbé szóvirágos címkéket vagy leírásokat igényelnek.

Mindazonáltal néhány felhasználó úgy találta, hogy a BLIP kimenete gyakran hiányolja a WD14-hez hasonló modellek által nyújtott mélységet és részletességet. Bár kielégítő eredményeket tud generálni, a BLIP talán nem a legjobb választás olyan alkalmazásokhoz, amelyek részletes, összetett címkéket igényelnek.

Én azt tapasztaltam, hogy a WD14, bár anime-fókuszú, valódi emberfotókhoz is remekül működik. Általában BLIP-pel kombinálom, és az esetek többségében sokkal több részletet ragad meg, mint a BLIP.

Toni Corvera a YouTube hozzászólásoknál

A Blip tök jó meg minden, de elég alap.

A WD 1.4 (WD14) címkézés sokkal jobb – részletesebb, „szaftosabb” címkék.

OrphBean a GitHubon

WD 1.4 (azaz WD14): Precizitás a részletekben

A WD 1.4 modell (más néven WD14 vagy Waifu Diffusion 1.4 Tagger), amelyet eredetileg anime képekhez terveztek, meglepő sokoldalúságot mutatott, és fotókkal is jól teljesít. A felhasználók dicsérték a fejlett konfigurációs lehetőségeit és kötegelt feldolgozási képességeit, amelyek robusztus eszközzé teszik a kép-szöveg fordításához.

Ami a WD14-et megkülönbözteti, az a képessége, hogy részletes, „szaftosabb” címkéket generál, mélyebb leírásokat adva a képekről, mint versenytársai. Bár ez a modell kevésbé valószínű, hogy hamis címkéket generál, az anime-re való összpontosítása korlátozó tényező lehet bizonyos képtípusok esetében.

K: Jobb a WD14 tagger, mint az Automatic1111-be beépített BLIP vagy deepdanbooru?

V: A bővítmény jobb konfigurációs és kötegelt feldolgozási lehetőségeket biztosít, és azt tapasztaltam, hogy kevésbé valószínű, hogy teljesen hamis címkéket generál, mint a deepdanbooru.

A CLIP/BLIP más, mivel leíró mondatokat generálnak, nem pedig címkelistákat, de az utóbbi általában jobban megfelel az igényeimnek. És a beépített CLIP interrogator hajlamos olyan dolgokat generálni, mint „egy kép (leírás) és egy kép (enyhén eltérő leírás ugyanarról a dologról)” vagy „(nagyrészt teljes leírás) és rózsaszín haj és rózsaszín haj és rózsaszín haj és (sokszor ismételve)”.

Annak ellenére, hogy anime-hez készült, a WD14 tagger meglehetősen jól működik fotókon is.

MorganTheDual a Reddit

SigLIP 2: Egy erőteljes kép-szöveg motor

A Google ingyenes és nyílt forráskódú SigLIP 2 modellje nem csupán egy látás-nyelv modell; ez egy erőteljes motor a képek értelmes szöveggé alakításához. Bár olyan feladatokban kiemelkedő, mint a kép-szöveg visszakeresés és a zero-shot osztályozás, architektúrája és képzési fejlesztései erős versenytárssá teszik a kép-szöveg generálás és értelmezés terén. Íme egy lebontás arról, hogyan működik a SigLIP 2 ebben a kontextusban:

Az alapok: Vision Transformer (ViT) és Sigmoid Loss

  • Vision Transformer (ViT): A konvolúciós neurális hálózatokkal (CNN-ek) ellentétben a SigLIP 2 Vision Transformer (ViT) architektúrát használ. A ViT a képet patch-ek sorozataként kezeli, hasonlóan ahhoz, ahogyan a szavakat tokenekként kezelik a természetes nyelvfeldolgozásban. Minden patch vektoros reprezentációvá (embeddinggé) alakul át. Ez lehetővé teszi a modell számára, hogy a hatékony Transformer architektúrát használja, amely hosszú távú függőségek rögzítésére képes, hogy megértse a kép különböző részei közötti kapcsolatokat.
  • Sigmoid Loss (Nem kontrasztív): A SigLIP (és a SigLIP 2) egyik legfontosabb megkülönböztető jegye a sigmoid loss függvény használata a gyakoribb kontrasztív loss helyett (amelyet olyan modellekben használnak, mint a CLIP). A kontrasztív tanulás megköveteli, hogy egy képet több szöveges opcióhoz hasonlítsanak. A sigmoid loss viszont a kép-szöveg egyeztetést bináris osztályozási problémaként kezeli minden egyes kép-szöveg pár esetében. Ez a látszólag apró változás nagy hatással van: stabilabb képzést és jobb teljesítményt tesz lehetővé, különösen nagyobb kötegstoronyok esetén. Az egyes kép-szöveg pár egyeztetésekre összpontosít.

Továbbfejlesztett képzés a szöveggeneráláshoz

A SigLIP 2 a SigLIP alapjaira építve számos kulcsfontosságú fejlesztést ad hozzá, amelyek közvetlenül javítják kép-szöveg képességeit:

  • Feliratozáson alapuló előképzés: Ez egy hatalmas lépés. A SigLIP 2 a feliratozást is beépíti az előképzési folyamatába. Ez azt jelenti, hogy kifejezetten képleírások szöveges generálására képzik ki. Ez ellentétben áll az eredeti CLIP-hez hasonló modellekkel, amelyeket elsősorban kép-szöveg egyeztetésre képeztek ki, nem generálásra.
  • Önfelügyelt tanulás ihlette: A SigLIP 2 hatékony technikákat használ:
    • Ön-desztilláció: A modell saját előrejelzéseiből tanul, idővel finomítva a megértését.
    • Maszkolt előrejelzés: A bemenet egyes részeit (vagy kép-patcheket vagy szöveges tokeneket) elrejtik, és a modell megtanulja megjósolni a hiányzó részeket. Ez mélyebb megértést kényszerít ki mindkét modalitásról.
  • LocCa Loss és Decoder: A SigLIP 2 integrálja a LocCa losst, amely egy Transformer dekódert ad hozzá cross-attentionnel. Ezt a dekódert kifejezetten olyan feladatokra képzik ki, mint a képleírás, a referáló kifejezés előrejelzése (régiók azonosítása szöveg alapján) és a grounded captioning. Ez fokozza a finom részletességű lokalizációt és a részletes funkciókinyerést.

Hogyan áll össze az egész (Kép -> Szöveg)

  1. Képbemenet: Egy képet betáplálnak a ViT kódolóba.
  2. Patch Embedding: A képet patch-ekre osztják, és minden patch-et embedding vektorrá alakítanak.
  3. Transformer kódolás: A Transformer rétegek feldolgozzák ezeket a patch embeddingeket, rögzítve a kép különböző részei közötti kapcsolatokat. A tanult pozíció embeddingek információt nyújtanak az egyes patch-ek helyéről.
  4. Attention Pooling: Egy figyelem alapú pooling mechanizmus (MAP head) összesíti a patch embeddingekből származó információkat egyetlen, átfogó képreprezentációvá.
  5. Szövegdekóder (Kulcsfontosságú a kép-szöveghez): Itt lépnek működésbe a SigLIP 2 feliratozási képességei. A kódolóból származó képreprezentációt a Transformer dekóderbe táplálják (amelyet a LocCa loss ad hozzá). A dekóder cross-attentiont használ, hogy a képreprezentáció releváns részeire összpontosítson a szöveg generálása közben.
  6. Szövegkimenet: A dekóder szöveges tokenek sorozatát generálja, képezve a kép feliratát vagy leírását.

Többnyelvű erő

A SigLIP 2 nem korlátozódik az angolra. Egy többnyelvű adathalmazon (WebLI) képzik ki, amely képessé teszi arra, hogy több nyelven is megértsen és generáljon szöveget, így egy valóban globális kép-szöveg eszközzé válik.

Összefoglalva

A SigLIP 2 erős ViT-alapú architektúrájának, sigmoid loss-ának és, ami kulcsfontosságú, a dekóderen alapuló előképzésnek feliratozással és ön-desztillációval való kombinációja rendkívül hatékony modellt eredményez kép-szöveg feladatokhoz. Túllép a puszta kép-szöveg egyeztetésen, és aktívan generál leíró szöveget, lehetőségeket nyitva meg olyan alkalmazások számára, mint az automatikus képleírás, a vizuális kérdésválaszolás és a részletes képelemzés.

Linkek

ChatGPT Visionnel

Ha nem túl nagy képadathalmazt kell leírnia, használhatja az Image Describer eszközt a ChatGPT-ben. Nagy képtömegekhez nem alkalmas, de kisebb képhalmazokhoz tökéletes, mert abszolút a legjobb leírásokat nyújtja természetes nyelven. Az ebből az eszközből származó leírások nagyon pontosak és részletesek. Ez nem csak címkék, hanem koherens és informatív szöveg, amely figyelembe veszi a képen lévő objektumok közötti kapcsolatokat is.

Példa:

Teszt képkészlet:

Az Image Describer kimenete ehhez a 3 képhez:

Három képet töltött fel. Íme mindegyik leírása:

  1. Az első képen egy imádnivaló, stilizált rajzfilm cica látható nagy, kifejező szemekkel. Főleg narancssárga, fehér akcentusokkal az arcán, a mellkasán és a mancsán. A cica egy tollat tart a kezében, ami majdnem akkora, mint ő maga, és egy vidám arcot rajzol egy élénksárga labdára. A művészeti stílus nagyon kidolgozott és kissé fényes hatású. A háttér egy szeszélyes környezetet sugall színes, absztrakt formákkal és egy csillagos égbolt sugallatával.
  2. A második kép egy közösségi média platform chat- vagy hozzászólás szakaszának képernyőképe. Különböző felhasználók hagytak megjegyzéseket, amelyek közül sok nevetést vagy szórakozást jelez olyan rövidítésekkel, mint az „LMAO” és emojik. A felhasználónevek és a profilképek pixelesítve vannak az adatvédelem érdekében, és a pixelizálásban különféle színek láthatók.
  3. A harmadik kép egy fiatal nő részletes és realisztikus illusztrációja barátságos arckifejezéssel. Hosszú fekete haja, világos bőre van, és lila kapucnis pulóvert visel. A nő fejhallgatót is visel, ami arra utal, hogy talán videojáték streamer vagy valamilyen online kommunikációban vesz részt. A helyszín egy lila árnyalattal megvilágított szoba, valószínűleg LED lámpákból, ami egy játékbeállításra utal.

Mindegyik képnek nagyon eltérő kontextusa és vizuális stílusa van, a szeszélyes illusztrációtól a digitális interakció képernyőképén át a realisztikusabb digitális festményig.

Összegzés

A CLIP, BLIP, WD 1.4, SigLIP 2 és az Image Describer közötti választás nagymértékben egy projekt specifikus igényeitől függ. Ha a pontosság és a részletesség a legfontosabb, a WD 1.4 meggyőző lehetőséget kínál fejlett konfigurációjával és részletes címkézési képességeivel. Egyszerűbb alkalmazásokhoz a BLIP egyszerű megközelítése lehet megfelelőbb. Eközben a CLIP egyensúlyt teremt a részletesség és az egyszerűség között, bár hajlamos a szóvirágosságra.

Az Image Describer nyújtja a legjobb eredményeket, de nem alkalmas nagy képhalmazok leírására vagy címkézésére.

Ahogy ezek a modellek folyamatosan fejlődnek és javulnak, ígéretes potenciált hordoznak az alkalmazások széles spektrumában, a tartalomkészítéstől az adatelemzésig. Különbségeik ellenére a CLIP, BLIP, WD 1.4, SigLIP 2 és a GPT-Vision modellek a kép-szöveg technológia gyors fejlődését bizonyítják, amelyek mindegyike egyedi erősségekkel járul hozzá ehhez az izgalmas területhez.

Hozzászólás

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük