Bilde-til-tekst AI-modeller: CLIP, BLIP, WD 1.4 (aka WD14), SigLIP 2 og ChatGPT med Vision

Kategorisert som AI/ML, Art, Open Source Merket , , ,
Save and Share:

Automatisk merking, kategorisering eller beskrivelse av bilder er en avgjørende oppgave i mange applikasjoner, spesielt i forberedelsen av datasett for maskinlæring. Det er her bilde-til-tekst-modeller kommer til unnsetning. Blant de ledende bilde-til-tekst-modellene finner vi CLIP, BLIP, WD 1.4 (også kjent som WD14 eller Waifu Diffusion 1.4 Tagger), SigLIP 2 og ChatGPT med Vision.

CLIP: Et revolusjonerende sprang

OpenAIs Contrastive Language–Image Pretraining (CLIP)-modell har blitt anerkjent for sin revolusjonerende tilnærming til å forstå og generere beskrivelser for bilder. CLIP bruker store mengder tekst- og bildedata fra internett for å lære et mangfold av visuelle konsepter, og dermed produsere beskrivende setninger for bilder.

Ifølge brukeranmeldelser kan imidlertid CLIPs beskrivende setninger noen ganger væreRepetitive eller unødvendig ordrike. En vanlig kritikk går på modellens tendens til å gjenta lignende beskrivelser for samme objekt eller overfokusere på visse egenskaper, som for eksempel fargen på et objekt.

BLIP: Enkelhet møter funksjonalitet

BLIP-modellen, selv om den gir mindre detaljerte beskrivelser sammenlignet med CLIP, tilbyr en enklere og mer direkte tilnærming til bilde-til-tekst-prosessering. Som en anmelder bemerket, er BLIP «kul og sånn, men ganske basic». Denne modellens enkelhet kan være en fordel for applikasjoner som krever enkle, mindre ordrike merkelapper eller beskrivelser.

Likevel opplevde noen brukere at BLIPs output ofte mangler dybden og detaljrikdommen som modeller som WD14 tilbyr. Selv om den kan generere tilfredsstillende resultater, er BLIP kanskje ikke det beste valget for applikasjoner som krever detaljerte, komplekse merkelapper.

Jeg har funnet ut at WD14, til tross for at den er anime-fokusert, fungerer utmerket også for faktiske bilder av mennesker. Jeg kombinerer den vanligvis med BLIP, og som oftest fanger den opp mye flere detaljer enn BLIP.

Toni Corvera på YouTube comments

Blip er kul og sånn, men den er ganske basic.

WD 1.4 (WD14) tagging er mye bedre – mer detaljert, saftigere merkelapper.

OrphBean på GitHub

WD 1.4 (aka WD14): Presisjon i detalj

WD 1.4-modellen (også kjent som WD14 eller Waifu Diffusion 1.4 Tagger), som opprinnelig ble designet for anime-bilder, har vist overraskende allsidighet og fungerer godt selv med fotografier. Brukere har rost dens avanserte konfigurasjonsmuligheter og batchbehandlingskapasitet, noe som gjør den til et robust verktøy for bilde-til-tekst-oversettelse.

Det som skiller WD14 ut er dens evne til å generere detaljerte, «saftigere» merkelapper, og gi mer dyptgående beskrivelser av bilder sammenlignet med sine konkurrenter. Selv om denne modellen er mindre tilbøyelig til å produsere falske merkelapper, kan dens fokus på anime være en begrensning for visse typer bilder.

Spørsmål: Er WD14-taggeren bedre enn BLIP eller deepdanbooru som er innebygd i Automatic1111?

Svar: Utvidelsen gir bedre alternativer for konfigurasjon og batchbehandling, og jeg har funnet ut at den er mindre tilbøyelig til å produsere fullstendig falske merkelapper enn deepdanbooru.

CLIP/BLIP er annerledes siden de produserer beskrivende setninger i stedet for lister med merkelapper, men sistnevnte er vanligvis mer i tråd med mine behov. Og den innebygde CLIP-interrogatoren er tilbøyelig til å spy ut ting som «et bilde av (beskrivelse) og et bilde av (litt annen beskrivelse av det samme)» eller «(stort sett fullstendig beskrivelse) og rosa hår og rosa hår og rosa hår og (gjenta mange ganger)»

Til tross for at den er laget for anime, fungerer WD14-taggeren ganske bra på fotografier.

MorganTheDual på Reddit

SigLIP 2: En kraftig bilde-til-tekst-motor

Gratis og åpen modell SigLIP 2 fra Google er ikke bare en visjon-språkmodell; det er en kraftig motor for å gjøre bilder om til meningsfull tekst. Selv om den utmerker seg i oppgaver som henting av bilde-tekst og null-skudds-klassifisering, gjør arkitekturen og treningsforbedringene den til en sterk kandidat for generering og forståelse av bilde-til-tekst. Her er en oversikt over hvordan SigLIP 2 fungerer i denne sammenhengen:

Grunnlaget: Vision Transformer (ViT) og Sigmoid Loss

  • Vision Transformer (ViT): I motsetning til konvolusjonelle nevrale nettverk (CNN-er), bruker SigLIP 2 en Vision Transformer (ViT)-arkitektur. ViT behandler et bilde som en sekvens av «patches», på samme måte som ord behandles som «tokens» i naturlig språkprosessering. Hver «patch» konverteres til en vektorrepresentasjon (en «embedding»). Dette gjør at modellen kan bruke den kraftige Transformer-arkitekturen, kjent for sin evne til å fange opp langsiktige avhengigheter, for å forstå forholdet mellom forskjellige deler av bildet.
  • Sigmoid Loss (Ikke kontrastiv): En viktig forskjell ved SigLIP (og SigLIP 2) er bruken av en sigmoid tapfunksjon i stedet for den mer vanlige kontrastive tapfunksjonen (brukt i modeller som CLIP). Kontrastiv læring krever sammenligning av et bilde med flere tekstalternativer. Sigmoid tapfunksjon, derimot, behandler bilde-tekst-matching som et binært klassifiseringsproblem for hvert bilde-tekst-par. Denne tilsynelatende lille endringen har stor innvirkning: den gir mer stabil trening og bedre ytelse, spesielt med større «batch sizes». Den fokuserer på de individuelle bilde-tekst-par-treffene.

Forbedret trening for tekstgenerering

SigLIP 2 tar utgangspunkt i grunnlaget fra SigLIP og legger til flere viktige forbedringer som direkte gagner dens bilde-til-tekst-evner:

  • Teksting-basert pretrening: Dette er et stort steg. SigLIP 2 inkluderer teksting som en del av sin pretreningprosess. Dette betyr at den er eksplisitt trent til å generere tekstbeskrivelser av bilder. Dette er i motsetning til modeller som den originale CLIP, som primært ble trent på matching av bilde og tekst, ikke generering.
  • Inspirert av selvovervåket læring: SigLIP 2 benytter seg av kraftige teknikker:
    • Selv-destillasjon: Modellen lærer av sine egne prediksjoner, og forbedrer sin forståelse over tid.
    • Maskert prediksjon: Deler av inputen (enten bildepatcher eller teksttokens) skjules, og modellen lærer å forutsi de manglende delene. Dette tvinger den til å utvikle en dypere forståelse av begge modalitetene.
  • LocCa Loss og Dekoder: SigLIP 2 integrerer LocCa tapfunksjon, som legger til en Transformer-dekoder med kryss-oppmerksomhet. Denne dekoderen er spesifikt trent på oppgaver som bildeteksting, prediksjon av refererende uttrykk (identifisere regioner basert på tekst) og forankret teksting. Dette forbedrer finkornet lokalisering og detaljert funksjonsuttrekk.

Hvordan alt henger sammen (Bilde -> Tekst)

  1. Bildeinput: Et bilde mates inn i ViT-enkoderen.
  2. Patch Embedding: Bildet deles inn i patches, og hver patch transformeres til en embeddingvektor.
  3. Transformer-enkoding: Transformer-lagene prosesserer disse patchembbedingene, og fanger opp forhold mellom forskjellige deler av bildet. Lærte posisjons-embeddings gir informasjon om plasseringen til hver patch.
  4. Oppmerksomhetspooling: En oppmerksomhetsbasert poolingmekanisme (MAP-hode) aggregerer informasjonen fra patchembbedingene til en enkelt, omfattende bilderepresentasjon.
  5. Tekstdekoder (Avgjørende for bilde-til-tekst): Det er her SigLIP 2s tekstingsevner kommer inn i bildet. Bilderepresentasjonen fra enkoderen mates inn i Transformer-dekoderen (lagt til av LocCa tapfunksjon). Dekoderen bruker kryss-oppmerksomhet for å fokusere på relevante deler av bilderepresentasjonen mens den genererer tekst.
  6. Tekstoutput: Dekoderen genererer en sekvens av teksttokens, og former en bildetekst eller beskrivelse av bildet.

Flerspråklig kraft

SigLIP 2 er ikke begrenset til engelsk. Den er trent på et flerspråklig datasett (WebLI), noe som gir den evnen til å forstå og generere tekst på flere språk, og gjør den til et virkelig globalt bilde-til-tekst-verktøy.

Oppsummert

SigLIP 2s kombinasjon av en sterk ViT-basert arkitektur, sigmoid tapfunksjon, og, avgjørende, dekoderbasert pretrening med teksting og selv-destillasjon, gjør den til en svært effektiv modell for bilde-til-tekst-oppgaver. Den går utover enkel matching av bilde og tekst for aktivt å generere beskrivende tekst, noe som åpner for muligheter for applikasjoner som automatisk bildeteksting, visuell spørsmålsbesvarelse og detaljert bildeanalyse.

Lenker

ChatGPT med Vision

Hvis du trenger å beskrive et ikke veldig stort datasett med bilder, kan du bruke Image Describer-verktøyet i ChatGPT. Det er ikke egnet for store batcher med bilder, men det er perfekt for mindre bildesett fordi det gir absolutt de beste beskrivelsene på naturlig språk. Beskrivelser fra dette verktøyet er svært presise og detaljerte. Det er ikke bare merkelapper, men sammenhengende og informativ tekst som også tar hensyn til forholdet mellom objekter i bildet.

Eksempel:

Testbildesett:

Image Describer output for disse 3 bildene:

Du har lastet opp tre bilder. Her er en beskrivelse av hvert:

  1. Det første bildet viser en bedårende, stilisert tegneseriekattunge med store, uttrykksfulle øyne. Den er hovedsakelig oransje med hvite detaljer i ansiktet, på brystet og potene. Kattungen holder en penn, som nesten er like stor som den selv, og tegner en smilefjes på en lys gul ball. Kunststilen er veldig polert og har en slags blank overflate. Bakgrunnen antyder en fantasifull setting med fargerike, abstrakte former og en antydning til en stjernehimmel.
  2. Det andre bildet ser ut til å være et skjermbilde av en chat- eller kommentarfelt fra en sosial medieplattform. Ulike brukere har lagt igjen kommentarer, hvorav mange inkluderer latter eller moro indikert med akronymer som «LMAO» og emojier. Brukernavnene og profilbildene er pikselerte av personvernhensyn, med en rekke farger som vises i pikseleringen.
  3. Det tredje bildet er en svært detaljert og realistisk illustrasjon av en ung kvinne med et vennlig uttrykk. Hun har langt svart hår, lys hud og har på seg en lilla hettegenser. Kvinnen har også på seg et headset, noe som antyder at hun kan være en videospillstreamer eller involvert i en form for online kommunikasjon. Omgivelsene ser ut til å være et rom opplyst med en lilla fargetone, muligens fra LED-lys, noe som indikerer et gaming-oppsett.

Hvert bilde har en veldig forskjellig kontekst og visuell stil, fra fantasifull illustrasjon til et skjermbilde av en digital interaksjon, til et mer realistisk digitalt maleri.

Oppsummering

Valget mellom CLIP, BLIP, WD 1.4, SigLIP 2 og Image Describer avhenger i stor grad av de spesifikke behovene til et prosjekt. Hvis presisjon og detalj er avgjørende, tilbyr WD 1.4 og SigLIP 2 et overbevisende alternativ med sine avanserte konfigurasjons- og detaljerte taggingmuligheter. For enklere applikasjoner kan BLIPs enkle tilnærming være mer passende. I mellomtiden gir CLIP en balanse mellom detalj og enkelhet, om enn med en tendens til ordrikdom.

Image Describer gir de beste resultatene, men er ikke egnet for å beskrive eller merke store sett med bilder.

Etter hvert som disse modellene fortsetter å utvikle seg og forbedre seg, har de et lovende potensial for et bredt spekter av applikasjoner, fra innholdsproduksjon til dataanalyse. Til tross for forskjellene deres, er CLIP, BLIP, WD 1.4, SigLIP 2 og GPT-Vision-modeller et bevis på den raske utviklingen innen bilde-til-tekst-teknologi, der hver modell bidrar med unike styrker til dette spennende feltet.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *