Az automatizált címkézés, feliratozás vagy képleírás kritikus feladat számos alkalmazásban, különösen a gépi tanuláshoz szükséges adathalmazok előkészítése során. Ebben nyújtanak segítséget a kép-szöveg modellek. A vezető kép-szöveg modellek közé tartozik a CLIP, a BLIP, a WD 1.4 (más néven WD14 vagy Waifu Diffusion 1.4 Tagger), a SigLIP 2 és a ChatGPT Visionnel.
CLIP: Forradalmi ugrás
Az OpenAI Contrastive Language–Image Pretraining (CLIP) modelljét széles körben elismerik a képek értelmezésében és leírások generálásában alkalmazott forradalmi megközelítéséért. A CLIP hatalmas mennyiségű internetes szöveget és képanyagot használ fel, hogy vizuális fogalmak széles skáláját tanulja meg, és ezáltal leíró mondatokat generáljon a képekhez.
Azonban a felhasználói vélemények szerint a CLIP leíró mondatai néha redundánsak vagy túlságosan szóvirágosak lehetnek. Gyakori kritika a modell azon hajlama, hogy ugyanarra az objektumra hasonló leírásokat ismétel, vagy túlzottan hangsúlyoz bizonyos attribútumokat, például egy objektum színét.
BLIP: Egyszerűség és funkcionalitás találkozása
A BLIP modell, bár a CLIP-hez képest kevésbé részletes leírásokat generál, egyszerűbb és közvetlenebb megközelítést kínál a kép-szöveg feldolgozáshoz. Ahogy egy véleményező megjegyezte, a BLIP „tök jó meg minden, de elég alap”. Ennek a modellnek az egyszerűsége előnyt jelenthet olyan alkalmazásokban, amelyek egyszerű, kevésbé szóvirágos címkéket vagy leírásokat igényelnek.
Mindazonáltal néhány felhasználó úgy találta, hogy a BLIP kimenete gyakran hiányolja a WD14-hez hasonló modellek által nyújtott mélységet és részletességet. Bár kielégítő eredményeket tud generálni, a BLIP talán nem a legjobb választás olyan alkalmazásokhoz, amelyek részletes, összetett címkéket igényelnek.
Én azt tapasztaltam, hogy a WD14, bár anime-fókuszú, valódi emberfotókhoz is remekül működik. Általában BLIP-pel kombinálom, és az esetek többségében sokkal több részletet ragad meg, mint a BLIP.
Toni Corvera a YouTube hozzászólásoknál
A Blip tök jó meg minden, de elég alap.
A WD 1.4 (WD14) címkézés sokkal jobb – részletesebb, „szaftosabb” címkék.
OrphBean a GitHubon
WD 1.4 (azaz WD14): Precizitás a részletekben
A WD 1.4 modell (más néven WD14 vagy Waifu Diffusion 1.4 Tagger), amelyet eredetileg anime képekhez terveztek, meglepő sokoldalúságot mutatott, és fotókkal is jól teljesít. A felhasználók dicsérték a fejlett konfigurációs lehetőségeit és kötegelt feldolgozási képességeit, amelyek robusztus eszközzé teszik a kép-szöveg fordításához.
Ami a WD14-et megkülönbözteti, az a képessége, hogy részletes, „szaftosabb” címkéket generál, mélyebb leírásokat adva a képekről, mint versenytársai. Bár ez a modell kevésbé valószínű, hogy hamis címkéket generál, az anime-re való összpontosítása korlátozó tényező lehet bizonyos képtípusok esetében.
K: Jobb a WD14 tagger, mint az Automatic1111-be beépített BLIP vagy deepdanbooru?
V: A bővítmény jobb konfigurációs és kötegelt feldolgozási lehetőségeket biztosít, és azt tapasztaltam, hogy kevésbé valószínű, hogy teljesen hamis címkéket generál, mint a deepdanbooru.A CLIP/BLIP más, mivel leíró mondatokat generálnak, nem pedig címkelistákat, de az utóbbi általában jobban megfelel az igényeimnek. És a beépített CLIP interrogator hajlamos olyan dolgokat generálni, mint „egy kép (leírás) és egy kép (enyhén eltérő leírás ugyanarról a dologról)” vagy „(nagyrészt teljes leírás) és rózsaszín haj és rózsaszín haj és rózsaszín haj és (sokszor ismételve)”.
Annak ellenére, hogy anime-hez készült, a WD14 tagger meglehetősen jól működik fotókon is.
MorganTheDual a Reddit
SigLIP 2: Egy erőteljes kép-szöveg motor
A Google ingyenes és nyílt forráskódú SigLIP 2 modellje nem csupán egy látás-nyelv modell; ez egy erőteljes motor a képek értelmes szöveggé alakításához. Bár olyan feladatokban kiemelkedő, mint a kép-szöveg visszakeresés és a zero-shot osztályozás, architektúrája és képzési fejlesztései erős versenytárssá teszik a kép-szöveg generálás és értelmezés terén. Íme egy lebontás arról, hogyan működik a SigLIP 2 ebben a kontextusban:
Az alapok: Vision Transformer (ViT) és Sigmoid Loss
- Vision Transformer (ViT): A konvolúciós neurális hálózatokkal (CNN-ek) ellentétben a SigLIP 2 Vision Transformer (ViT) architektúrát használ. A ViT a képet patch-ek sorozataként kezeli, hasonlóan ahhoz, ahogyan a szavakat tokenekként kezelik a természetes nyelvfeldolgozásban. Minden patch vektoros reprezentációvá (embeddinggé) alakul át. Ez lehetővé teszi a modell számára, hogy a hatékony Transformer architektúrát használja, amely hosszú távú függőségek rögzítésére képes, hogy megértse a kép különböző részei közötti kapcsolatokat.
- Sigmoid Loss (Nem kontrasztív): A SigLIP (és a SigLIP 2) egyik legfontosabb megkülönböztető jegye a sigmoid loss függvény használata a gyakoribb kontrasztív loss helyett (amelyet olyan modellekben használnak, mint a CLIP). A kontrasztív tanulás megköveteli, hogy egy képet több szöveges opcióhoz hasonlítsanak. A sigmoid loss viszont a kép-szöveg egyeztetést bináris osztályozási problémaként kezeli minden egyes kép-szöveg pár esetében. Ez a látszólag apró változás nagy hatással van: stabilabb képzést és jobb teljesítményt tesz lehetővé, különösen nagyobb kötegstoronyok esetén. Az egyes kép-szöveg pár egyeztetésekre összpontosít.
Továbbfejlesztett képzés a szöveggeneráláshoz
A SigLIP 2 a SigLIP alapjaira építve számos kulcsfontosságú fejlesztést ad hozzá, amelyek közvetlenül javítják kép-szöveg képességeit:
- Feliratozáson alapuló előképzés: Ez egy hatalmas lépés. A SigLIP 2 a feliratozást is beépíti az előképzési folyamatába. Ez azt jelenti, hogy kifejezetten képleírások szöveges generálására képzik ki. Ez ellentétben áll az eredeti CLIP-hez hasonló modellekkel, amelyeket elsősorban kép-szöveg egyeztetésre képeztek ki, nem generálásra.
- Önfelügyelt tanulás ihlette: A SigLIP 2 hatékony technikákat használ:
- Ön-desztilláció: A modell saját előrejelzéseiből tanul, idővel finomítva a megértését.
- Maszkolt előrejelzés: A bemenet egyes részeit (vagy kép-patcheket vagy szöveges tokeneket) elrejtik, és a modell megtanulja megjósolni a hiányzó részeket. Ez mélyebb megértést kényszerít ki mindkét modalitásról.
- LocCa Loss és Decoder: A SigLIP 2 integrálja a LocCa losst, amely egy Transformer dekódert ad hozzá cross-attentionnel. Ezt a dekódert kifejezetten olyan feladatokra képzik ki, mint a képleírás, a referáló kifejezés előrejelzése (régiók azonosítása szöveg alapján) és a grounded captioning. Ez fokozza a finom részletességű lokalizációt és a részletes funkciókinyerést.
Hogyan áll össze az egész (Kép -> Szöveg)
- Képbemenet: Egy képet betáplálnak a ViT kódolóba.
- Patch Embedding: A képet patch-ekre osztják, és minden patch-et embedding vektorrá alakítanak.
- Transformer kódolás: A Transformer rétegek feldolgozzák ezeket a patch embeddingeket, rögzítve a kép különböző részei közötti kapcsolatokat. A tanult pozíció embeddingek információt nyújtanak az egyes patch-ek helyéről.
- Attention Pooling: Egy figyelem alapú pooling mechanizmus (MAP head) összesíti a patch embeddingekből származó információkat egyetlen, átfogó képreprezentációvá.
- Szövegdekóder (Kulcsfontosságú a kép-szöveghez): Itt lépnek működésbe a SigLIP 2 feliratozási képességei. A kódolóból származó képreprezentációt a Transformer dekóderbe táplálják (amelyet a LocCa loss ad hozzá). A dekóder cross-attentiont használ, hogy a képreprezentáció releváns részeire összpontosítson a szöveg generálása közben.
- Szövegkimenet: A dekóder szöveges tokenek sorozatát generálja, képezve a kép feliratát vagy leírását.
Többnyelvű erő
A SigLIP 2 nem korlátozódik az angolra. Egy többnyelvű adathalmazon (WebLI) képzik ki, amely képessé teszi arra, hogy több nyelven is megértsen és generáljon szöveget, így egy valóban globális kép-szöveg eszközzé válik.
Összefoglalva
A SigLIP 2 erős ViT-alapú architektúrájának, sigmoid loss-ának és, ami kulcsfontosságú, a dekóderen alapuló előképzésnek feliratozással és ön-desztillációval való kombinációja rendkívül hatékony modellt eredményez kép-szöveg feladatokhoz. Túllép a puszta kép-szöveg egyeztetésen, és aktívan generál leíró szöveget, lehetőségeket nyitva meg olyan alkalmazások számára, mint az automatikus képleírás, a vizuális kérdésválaszolás és a részletes képelemzés.
Linkek
ChatGPT Visionnel
Ha nem túl nagy képadathalmazt kell leírnia, használhatja az Image Describer eszközt a ChatGPT-ben. Nagy képtömegekhez nem alkalmas, de kisebb képhalmazokhoz tökéletes, mert abszolút a legjobb leírásokat nyújtja természetes nyelven. Az ebből az eszközből származó leírások nagyon pontosak és részletesek. Ez nem csak címkék, hanem koherens és informatív szöveg, amely figyelembe veszi a képen lévő objektumok közötti kapcsolatokat is.
Példa:
Teszt képkészlet:



Az Image Describer kimenete ehhez a 3 képhez:
Három képet töltött fel. Íme mindegyik leírása:
- Az első képen egy imádnivaló, stilizált rajzfilm cica látható nagy, kifejező szemekkel. Főleg narancssárga, fehér akcentusokkal az arcán, a mellkasán és a mancsán. A cica egy tollat tart a kezében, ami majdnem akkora, mint ő maga, és egy vidám arcot rajzol egy élénksárga labdára. A művészeti stílus nagyon kidolgozott és kissé fényes hatású. A háttér egy szeszélyes környezetet sugall színes, absztrakt formákkal és egy csillagos égbolt sugallatával.
- A második kép egy közösségi média platform chat- vagy hozzászólás szakaszának képernyőképe. Különböző felhasználók hagytak megjegyzéseket, amelyek közül sok nevetést vagy szórakozást jelez olyan rövidítésekkel, mint az „LMAO” és emojik. A felhasználónevek és a profilképek pixelesítve vannak az adatvédelem érdekében, és a pixelizálásban különféle színek láthatók.
- A harmadik kép egy fiatal nő részletes és realisztikus illusztrációja barátságos arckifejezéssel. Hosszú fekete haja, világos bőre van, és lila kapucnis pulóvert visel. A nő fejhallgatót is visel, ami arra utal, hogy talán videojáték streamer vagy valamilyen online kommunikációban vesz részt. A helyszín egy lila árnyalattal megvilágított szoba, valószínűleg LED lámpákból, ami egy játékbeállításra utal.
Mindegyik képnek nagyon eltérő kontextusa és vizuális stílusa van, a szeszélyes illusztrációtól a digitális interakció képernyőképén át a realisztikusabb digitális festményig.
Összegzés
A CLIP, BLIP, WD 1.4, SigLIP 2 és az Image Describer közötti választás nagymértékben egy projekt specifikus igényeitől függ. Ha a pontosság és a részletesség a legfontosabb, a WD 1.4 meggyőző lehetőséget kínál fejlett konfigurációjával és részletes címkézési képességeivel. Egyszerűbb alkalmazásokhoz a BLIP egyszerű megközelítése lehet megfelelőbb. Eközben a CLIP egyensúlyt teremt a részletesség és az egyszerűség között, bár hajlamos a szóvirágosságra.
Az Image Describer nyújtja a legjobb eredményeket, de nem alkalmas nagy képhalmazok leírására vagy címkézésére.
Ahogy ezek a modellek folyamatosan fejlődnek és javulnak, ígéretes potenciált hordoznak az alkalmazások széles spektrumában, a tartalomkészítéstől az adatelemzésig. Különbségeik ellenére a CLIP, BLIP, WD 1.4, SigLIP 2 és a GPT-Vision modellek a kép-szöveg technológia gyors fejlődését bizonyítják, amelyek mindegyike egyedi erősségekkel járul hozzá ehhez az izgalmas területhez.