Bild-till-text AI-modeller: CLIP, BLIP, WD 1.4 (även känd som WD14), SigLIP 2 och ChatGPT med Vision

Kategoriserat som AI/ML, Art, Open Source Märkt , , ,
Save and Share:

Automatisk taggning, märkning eller beskrivning av bilder är en avgörande uppgift inom många områden, särskilt vid förberedelse av dataset för maskininlärning. Det är här bild-till-text-modeller kommer in i bilden. Bland de ledande bild-till-text-modellerna finns CLIP, BLIP, WD 1.4 (även känd som WD14 eller Waifu Diffusion 1.4 Tagger), SigLIP 2 och ChatGPT med Vision.

CLIP: Ett revolutionerande steg framåt

OpenAIs modell Contrastive Language–Image Pretraining (CLIP) har blivit allmänt erkänd för sitt revolutionerande tillvägagångssätt för att förstå och generera beskrivningar av bilder. CLIP utnyttjar stora mängder text- och bilddata från internet för att lära sig en mängd visuella koncept, och på så sätt producera beskrivande meningar för bilder.

Enligt användarrecensioner kan dock CLIP:s beskrivande meningar ibland vara redundanta eller alltför ordrika. En vanlig kritikpunkt är modellens tendens att upprepa liknande beskrivningar för samma objekt eller överbetona vissa attribut, som till exempel färgen på ett objekt.

BLIP: Enkelhet möter funktionalitet

BLIP-modellen, som ger mindre detaljerade beskrivningar jämfört med CLIP, erbjuder ett enklare och mer direkt tillvägagångssätt för bild-till-text-bearbetning. Som en recensent noterade är BLIP ”coolt och så, men ganska basic”. Modellens enkelhet kan vara en fördel för applikationer som kräver okomplicerade, mindre ordrika taggar eller beskrivningar.

Trots detta har vissa användare upptäckt att BLIP:s utdata ofta saknar det djup och den detaljrikedom som modeller som WD14 erbjuder. Även om den kan generera tillfredsställande resultat är BLIP kanske inte det bästa valet för applikationer som kräver detaljerade och komplexa taggar.

Jag har upptäckt att WD14, trots att den är anime-fokuserad, fungerar utmärkt även för vanliga foton av människor. Jag brukar kombinera den med BLIP och för det mesta fångar den upp mycket mer detaljer än BLIP.

Toni Corvera på YouTube comments

Blip är coolt och så, men ganska basic.

WD 1.4 (WD14) taggning är mycket bättre – mer detaljer, saftigare taggar.

OrphBean på GitHub

WD 1.4 (även känd som WD14): Precision i detalj

WD 1.4-modellen (även känd som WD14 eller Waifu Diffusion 1.4 Tagger), som ursprungligen utformades för animebilder, har visat sig vara förvånansvärt mångsidig och presterar bra även med foton. Användare har lovordat dess avancerade konfigurationsalternativ och batchbearbetningsfunktioner, vilket gör den till ett robust verktyg för bild-till-text-översättning.

Det som särskiljer WD14 är dess förmåga att generera detaljerade, ”saftigare” taggar, vilket ger mer djupgående beskrivningar av bilder jämfört med dess motsvarigheter. Även om modellen är mindre benägen att producera falska taggar kan dess fokus på anime vara en begränsning för vissa typer av bilder.

F: Är WD14-taggaren bättre än BLIP eller deepdanbooru som är inbyggda i Automatic1111?

S: Tillägget ger bättre konfigurations- och batchbearbetningsalternativ, och jag har upptäckt att det är mindre benäget att producera helt falska taggar än deepdanbooru.

CLIP/BLIP är annorlunda eftersom de producerar beskrivande meningar snarare än listor med taggar, men det senare är vanligtvis mer i linje med mina behov. Och den inbyggda CLIP-interrogatorn är benägen att spottar ur sig saker som ”en bild av (beskrivning) och en bild av (något annorlunda beskrivning av samma sak)” eller ”(mestadels komplett beskrivning) och rosa hår och rosa hår och rosa hår och (upprepas många gånger)”

Trots att WD14-taggaren är gjord för anime fungerar den ganska bra på foton.

MorganTheDual på Reddit

SigLIP 2: En kraftfull motor för bild-till-text

Den kostnadsfria och öppna modellen SigLIP 2 från Google är inte bara en modell för syn och språk; det är en kraftfull motor för att omvandla bilder till meningsfull text. Även om den utmärker sig i uppgifter som bild-text-hämtning och nollskottsklassificering gör dess arkitektur och förbättringar i träningen den till en stark kandidat för bild-till-text-generering och förståelse. Här följer en genomgång av hur SigLIP 2 fungerar i detta sammanhang:

Grunden: Vision Transformer (ViT) och Sigmoid-förlust

  • Vision Transformer (ViT): Till skillnad från faltningsnätverk (CNN) använder SigLIP 2 en Vision Transformer-arkitektur (ViT). ViT behandlar en bild som en sekvens av rutor, på samma sätt som ord behandlas som tokens inom naturlig språkbehandling. Varje ruta omvandlas till en vektorrepresentation (en inbäddning). Detta gör det möjligt för modellen att använda den kraftfulla Transformer-arkitekturen, som är känd för sin förmåga att fånga långväga beroenden, för att förstå relationerna mellan olika delar av bilden.
  • Sigmoid-förlust (Icke-kontrastiv): En viktig skillnad mellan SigLIP (och SigLIP 2) är användningen av en sigmoid-förlustfunktion istället för den vanligare kontrastiva förlusten (som används i modeller som CLIP). Kontrastiv inlärning kräver att man jämför en bild med flera textalternativ. Sigmoid-förlust behandlar å andra sidan bild-text-matchning som ett binärt klassificeringsproblem för varje bild-text-par. Denna till synes lilla förändring har stor inverkan: den möjliggör stabilare träning och bättre prestanda, särskilt med större batchstorlekar. Den fokuserar på de individuella bild-text-parmatchningarna.

Förbättrad träning för textgenerering

SigLIP 2 tar grunden från SigLIP och lägger till flera avgörande förbättringar som direkt gynnar dess bild-till-text-kapacitet:

  • Bildtextbaserad förträning: Detta är ett stort steg. SigLIP 2 införlivar bildtextning som en del av sin förträningsprocess. Det innebär att den är explicit tränad att generera textbeskrivningar av bilder. Detta står i kontrast till modeller som den ursprungliga CLIP, som främst tränades på bild-text-matchning, inte generering.
  • Inspirerad av självövervakad inlärning: SigLIP 2 utnyttjar kraftfulla tekniker:
    • Självdestillation: Modellen lär sig av sina egna förutsägelser och förfinar sin förståelse över tid.
    • Maskerad förutsägelse: Delar av indatan (antingen bildrutor eller texttokens) döljs, och modellen lär sig att förutsäga de saknade bitarna. Detta tvingar den att utveckla en djupare förståelse för båda modaliteterna.
  • LocCa-förlust och dekoder: SigLIP 2 integrerar LocCa-förlusten, som lägger till en Transformer-dekoder med korsuppmärksamhet. Denna dekoder är specifikt tränad på uppgifter som bildtextning, förutsägelse av refererande uttryck (identifiering av regioner baserat på text) och grundad bildtextning. Detta förbättrar finkornig lokalisering och detaljerad extrahering av funktioner.

Hur allt hänger ihop (Bild -> Text)

  1. Bildinmatning: En bild matas in i ViT-kodaren.
  2. Rutinbäddning: Bilden delas in i rutor, och varje ruta omvandlas till en inbäddningsvektor.
  3. Transformer-kodning: Transformer-lagren bearbetar dessa rutinbäddningar och fångar relationer mellan olika delar av bilden. Inlärda positionsinbäddningar ger information om platsen för varje ruta.
  4. Uppmärksamhetspoolning: En uppmärksamhetsbaserad poolningsmekanism (MAP-huvud) aggregerar informationen från rutinbäddningarna till en enda, omfattande bildrepresentation.
  5. Textdekoder (Avgörande för bild-till-text): Det är här SigLIP 2:s bildtextningsfunktioner kommer in i bilden. Bildrepresentationen från kodaren matas in i Transformer-dekodern (som lagts till av LocCa-förlusten). Dekodern använder korsuppmärksamhet för att fokusera på relevanta delar av bildrepresentationen medan den genererar text.
  6. Textutdata: Dekodern genererar en sekvens av texttokens som bildar en bildtext eller beskrivning av bilden.

Flerspråkig kraft

SigLIP 2 är inte begränsad till engelska. Den är tränad på en flerspråkig dataset (WebLI), vilket ger den förmågan att förstå och generera text på flera språk, vilket gör den till ett verkligt globalt bild-till-text-verktyg.

Sammanfattningsvis

SigLIP 2:s kombination av en stark ViT-baserad arkitektur, sigmoid-förlust och, avgörande, dekoderbaserad förträning med bildtextning och självdestillation, gör den till en mycket effektiv modell för bild-till-text-uppgifter. Den går längre än enkel bild-text-matchning för att aktivt generera beskrivande text, vilket öppnar upp möjligheter för applikationer som automatisk bildtextning, visuell frågebesvarande och detaljerad bildanalys.

Länkar

ChatGPT med Vision

Om du behöver beskriva en inte alltför stor dataset med bilder kan du använda verktyget Image Describer i ChatGPT. Det är inte lämpligt för stora batcher av bilder, men det är perfekt för mindre bildsamlingar eftersom det ger absolut de bästa beskrivningarna på naturligt språk. Beskrivningarna från detta verktyg är mycket precisa och detaljerade. Det är inte bara taggar, utan sammanhängande och informativ text som också tar hänsyn till relationerna mellan objekt i bilden.

Exempel:

Testbildsamling:

Image Describer-utdata för dessa 3 bilder:

Du har laddat upp tre bilder. Här är en beskrivning av var och en:

  1. Den första bilden föreställer en bedårande, stiliserad tecknad kattunge med stora, uttrycksfulla ögon. Den är huvudsakligen orange med vita detaljer i ansiktet, på bröstet och tassarna. Kattungen håller i en penna, som nästan är lika stor som den själv, och ritar ett glatt ansikte på en ljusgul boll. Konststilen är mycket polerad och har en slags glansig finish. Bakgrunden antyder en fantasifull miljö med färgglada, abstrakta former och en antydan till en stjärnklar himmel.
  2. Den andra bilden verkar vara en skärmdump av en chatt eller kommentarsfält från en social medieplattform. Flera användare har lämnat kommentarer, varav många innehåller skratt eller munterhet som indikeras av akronymer som ”LMAO” och emojis. Användarnamnen och profilbilderna är pixlade för att skydda privatlivet, med en mängd olika färger som visas i pixlarna.
  3. Den tredje bilden är en mycket detaljerad och realistisk illustration av en ung kvinna med ett vänligt uttryck. Hon har långt svart hår, ljus hy och bär en lila hoodie. Kvinnan bär också ett headset, vilket tyder på att hon kan vara en videospelstreamer eller involverad i någon form av onlinekommunikation. Miljön verkar vara ett rum som är upplyst med en lila nyans, möjligen från LED-lampor, vilket tyder på en speluppsättning.

Varje bild har ett mycket annorlunda sammanhang och visuell stil, från fantasifull illustration till en skärmdump av en digital interaktion, till en mer realistisk digital målning.

Avslutningsvis

Valet mellan CLIP, BLIP, WD 1.4, SigLIP 2 och Image Describer beror till stor del på de specifika behoven i ett projekt. Om precision och detaljer är av största vikt erbjuder WD 1.4 och SigLIP 2 ett övertygande alternativ med sina avancerade konfigurations- och detaljerade taggningsfunktioner. För enklare applikationer kan BLIP:s okomplicerade tillvägagångssätt vara mer lämpligt. CLIP erbjuder å andra sidan en balans mellan detaljer och enkelhet, men med en tendens till ordrikedom.

Image Describer ger de bästa resultaten men är inte lämpligt för att beskriva eller tagga stora bildsamlingar.

I takt med att dessa modeller fortsätter att utvecklas och förbättras har de en lovande potential för ett brett spektrum av applikationer, från innehållsskapande till dataanalys. Trots sina skillnader är CLIP-, BLIP-, WD 1.4-, SigLIP 2- och GPT-Vision-modellerna ett bevis på de snabba framstegen inom bild-till-text-teknik, där var och en bidrar med unika styrkor till detta spännande område.

Lämna en kommentar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *