Automatisk tagning, mærkning eller beskrivelse af billeder er en afgørende opgave i mange applikationer, især i forberedelsen af datasæt til maskinlæring. Det er her, image-to-text-modeller kommer ind i billedet. Blandt de førende image-to-text-modeller er CLIP, BLIP, WD 1.4 (også kendt som WD14 eller Waifu Diffusion 1.4 Tagger), SigLIP 2 og ChatGPT med Vision.
CLIP: Et revolutionerende spring
OpenAI’s Contrastive Language–Image Pretraining (CLIP) model er bredt anerkendt for sin revolutionerende tilgang til at forstå og generere beskrivelser af billeder. CLIP udnytter en stor mængde internettekst og billeddata til at lære et utal af visuelle koncepter og derved producere beskrivende sætninger for billeder.
Ifølge brugeranmeldelser kan CLIP’s beskrivende sætninger dog nogle gange være redundante eller overdrevent ordrige. En almindelig kritik drejer sig om modellens tendens til at gentage lignende beskrivelser for det samme objekt eller overbetone visse egenskaber, såsom farven på et objekt.
BLIP: Simplicitet møder funktionalitet
BLIP-modellen, der er mindre detaljeret i sine beskrivelser sammenlignet med CLIP, tilbyder en enklere og mere direkte tilgang til image-to-text-behandling. Som en anmelder bemærkede, er BLIP “cool nok, men ret basal.” Modellens simplicitet kan være en fordel for applikationer, der kræver ligefremme, mindre ordrige tags eller beskrivelser.
Ikke desto mindre fandt nogle brugere, at BLIP’s output ofte mangler den dybde og detaljeringsgrad, som modeller som WD14 leverer. Selvom den kan generere tilfredsstillende resultater, er BLIP måske ikke det bedste valg til applikationer, der kræver detaljerede, komplekse tags.
Jeg har fundet ud af, at WD14, på trods af at være anime-fokuseret, også fungerer fantastisk til faktiske billeder af mennesker. Jeg kombinerer det normalt med BLIP, og for det meste opfanger det mange flere detaljer end BLIP.
Toni Corvera på YouTube comments
Blip er cool nok, men ret basal.
WD 1.4 (WD14) tagging er meget bedre – mere detaljeret, mere saftige tags.
OrphBean på GitHub
WD 1.4 (aka WD14): Præcision i detaljen
WD 1.4-modellen (også kendt som WD14 eller Waifu Diffusion 1.4 Tagger), der oprindeligt blev designet til anime-billeder, har demonstreret overraskende alsidighed og præsterer godt selv med fotos. Brugere har rost dens avancerede konfigurationsmuligheder og batchbehandlingskapacitet, hvilket gør den til et robust værktøj til image-to-text-oversættelse.
Det, der adskiller WD14, er dens evne til at generere detaljerede, “mere saftige” tags, der giver mere dybdegående beskrivelser af billeder sammenlignet med dens modparter. Selvom denne model er mindre tilbøjelig til at producere falske tags, kan dens fokus på anime være en begrænsning for visse typer billeder.
Spørgsmål: Er WD14 taggeren bedre end BLIP eller deepdanbooru indbygget i Automatic1111?
Svar: Udvidelsen giver bedre muligheder for konfiguration og batchbehandling, og jeg har fundet den mindre tilbøjelig til at producere fuldstændig falske tags end deepdanbooru.CLIP/BLIP er anderledes, da de producerer beskrivende sætninger i stedet for lister over tags, men sidstnævnte er normalt mere i tråd med mine behov. Og den indbyggede CLIP interrogator er tilbøjelig til at spytte ting ud som “et billede af (beskrivelse) og et billede af (lidt anderledes beskrivelse af det samme)” eller “(næsten komplet beskrivelse) og pink hår og pink hår og pink hår og (gentag mange gange)”
På trods af at være lavet til anime, fungerer WD14 taggeren ret godt på fotos.
MorganTheDual på Reddit
SigLIP 2: En kraftfuld Image-to-Text-motor
Gratis og åben model SigLIP 2 fra Google er ikke bare en vision-sprogmodel; det er en kraftfuld motor til at omdanne billeder til meningsfuld tekst. Selvom den udmærker sig ved opgaver som billed-tekst-hentning og zero-shot-klassificering, gør dens arkitektur og træningsforbedringer den til en stærk kandidat til image-to-text-generering og -forståelse. Her er en oversigt over, hvordan SigLIP 2 fungerer i denne sammenhæng:
Grundlaget: Vision Transformer (ViT) og Sigmoid Loss
- Vision Transformer (ViT): I modsætning til convolutional neural networks (CNN’er) bruger SigLIP 2 en Vision Transformer (ViT) arkitektur. ViT behandler et billede som en sekvens af patches, svarende til hvordan ord behandles som tokens i naturlig sprogbehandling. Hver patch konverteres til en vektorrepræsentation (en embedding). Dette gør det muligt for modellen at bruge Transformer-arkitekturen, der er kendt for sin evne til at fange langtrækkende afhængigheder, til at forstå relationerne mellem forskellige dele af billedet.
- Sigmoid Loss (Ikke Kontrastiv): En vigtig forskel ved SigLIP (og SigLIP 2) er brugen af en sigmoid loss-funktion i stedet for den mere almindelige kontrastive loss (der bruges i modeller som CLIP). Kontrastiv læring kræver sammenligning af et billede med flere tekstmuligheder. Sigmoid loss behandler derimod billed-tekst-matchning som et binært klassifikationsproblem for hvert billed-tekst-par. Denne tilsyneladende lille ændring har stor betydning: den muliggør mere stabil træning og bedre ydeevne, især med større batchstørrelser. Den fokuserer på de individuelle billed-tekst-par-matchninger.
Forbedret træning til tekstgenerering
SigLIP 2 tager udgangspunkt i SigLIP’s grundlag og tilføjer flere afgørende forbedringer, der direkte gavner dens image-to-text-kapaciteter:
- Captioning-baseret prætræning: Dette er et kæmpe skridt. SigLIP 2 inkorporerer captioning som en del af sin prætræningsproces. Det betyder, at den eksplicit er trænet til at generere tekstbeskrivelser af billeder. Dette er i modsætning til modeller som den originale CLIP, der primært blev trænet i billed-tekst-matchning, ikke generering.
- Inspireret af selvovervåget læring: SigLIP 2 udnytter kraftfulde teknikker:
- Selv-destillation: Modellen lærer af sine egne forudsigelser og forfiner sin forståelse over tid.
- Maskeret forudsigelse: Dele af inputtet (enten billedpatches eller teksttokens) er skjult, og modellen lærer at forudsige de manglende stykker. Dette tvinger den til at udvikle en dybere forståelse af begge modaliteter.
- LocCa Loss og Dekoder: SigLIP 2 integrerer LocCa loss, som tilføjer en Transformer dekoder med cross-attention. Denne dekoder er specifikt trænet på opgaver som billedtekstning, henvisningsudtryksforudsigelse (identificering af regioner baseret på tekst) og grounded captioning. Dette forbedrer finkornet lokalisering og detaljeret feature-ekstraktion.
Hvordan det hele hænger sammen (Billede -> Tekst)
- Billedinput: Et billede føres ind i ViT-encoderen.
- Patch Embedding: Billedet opdeles i patches, og hver patch transformeres til en embeddingvektor.
- Transformer-kodning: Transformer-lagene behandler disse patch-embeddings og fanger relationer mellem forskellige dele af billedet. Indlærte positionelle embeddings giver information om placeringen af hver patch.
- Attention Pooling: En attention-baseret pooling-mekanisme (MAP head) aggregerer informationen fra patch-embeddings til en enkelt, omfattende billedrepræsentation.
- Tekstdekoder (Afgørende for Image-to-Text): Det er her, SigLIP 2’s captioning-kapaciteter kommer i spil. Billedrepræsentationen fra encoderen føres ind i Transformer-dekoderen (tilføjet af LocCa loss). Dekoderen bruger cross-attention til at fokusere på relevante dele af billedrepræsentationen, mens den genererer tekst.
- Tekstoutput: Dekoderen genererer en sekvens af teksttokens, der danner en billedtekst eller beskrivelse af billedet.
Flersproget kraft
SigLIP 2 er ikke begrænset til engelsk. Den er trænet på et flersproget datasæt (WebLI), hvilket giver den evnen til at forstå og generere tekst på flere sprog, hvilket gør den til et ægte globalt image-to-text-værktøj.
Opsummering
SigLIP 2’s kombination af en stærk ViT-baseret arkitektur, sigmoid loss og, afgørende, dekoder-baseret prætræning med captioning og selv-destillation, gør den til en yderst effektiv model til image-to-text-opgaver. Den går ud over simpel billed-tekst-matchning for aktivt at generere beskrivende tekst, hvilket åbner op for muligheder for applikationer som automatisk billedtekstning, visuel spørgsmålsbesvarelse og detaljeret billedanalyse.
Links
ChatGPT med Vision
Hvis du har brug for at beskrive et ikke særlig stort datasæt af billeder, kan du bruge Image Describer-værktøjet i ChatGPT. Det er ikke egnet til store batches af billeder, men det er perfekt til mindre billedsæt, fordi det giver absolut de bedste beskrivelser på naturligt sprog. Beskrivelser fra dette værktøj er meget præcise og detaljerede. Det er ikke bare tags, men sammenhængende og informativ tekst, der også tager højde for relationerne mellem objekter i billedet.
Eksempel:
Testsæt af billeder:



Image Describer output for disse 3 billeder:
Du har uploadet tre billeder. Her er en beskrivelse af hvert:
- Det første billede viser en yndig, stiliseret tegneseriekilling med store, udtryksfulde øjne. Den er overvejende orange med hvide detaljer på ansigt, bryst og poter. Killingen holder en kuglepen, som næsten er lige så stor som den selv, og tegner et glad ansigt på en lys gul bold. Kunststilen er meget poleret og har en slags blank finish. Baggrunden antyder en finurlig setting med farverige, abstrakte former og en antydning af en stjerneklar himmel.
- Det andet billede ser ud til at være et skærmbillede af en chat- eller kommentarsektion fra en social medieplatform. Forskellige brugere har efterladt kommentarer, hvoraf mange inkluderer latter eller morskab angivet med forkortelser som “LMAO” og emojis. Brugernavnene og profilbillederne er pixelerede af hensyn til privatlivets fred, med en række farver vist i pixeleringen.
- Det tredje billede er en meget detaljeret og realistisk illustration af en ung kvinde med et venligt udtryk. Hun har langt sort hår, lys hud og bærer en lilla hættetrøje. Kvinden bærer også et headset, hvilket antyder, at hun måske er en videospilstremer eller involveret i en form for online kommunikation. Settingen ser ud til at være et rum oplyst med en lilla nuance, muligvis fra LED-lys, hvilket indikerer et gaming setup.
Hvert billede har en meget forskellig kontekst og visuel stil, der spænder fra finurlig illustration til et skærmbillede af en digital interaktion til et mere realistisk digitalt maleri.
Afrunding
Valget mellem CLIP, BLIP, WD 1.4, SigLIP 2 og Image Describer afhænger i høj grad af de specifikke behov i et projekt. Hvis præcision og detaljer er altafgørende, tilbyder WD 1.4 en overbevisende mulighed med sine avancerede konfigurations- og detaljerede taggingkapaciteter. Til enklere applikationer kan BLIP’s ligefremme tilgang være mere passende. I mellemtiden giver CLIP en balance mellem detaljer og simplicitet, dog med en tendens til ordrighed.
Image Describer giver de bedste resultater, men er ikke egnet til at beskrive eller tagge store sæt af billeder.
Efterhånden som disse modeller fortsætter med at udvikle sig og forbedre sig, rummer de lovende potentiale for et bredt spektrum af applikationer, fra indholdsskabelse til dataanalyse. På trods af deres forskelle er CLIP, BLIP, WD 1.4, SigLIP 2 og GPT-Vision-modeller et bevis på de hurtige fremskridt inden for image-to-text-teknologi, hvor hver især bidrager med unikke styrker til dette spændende felt.