Image-to-Text-KI-Modelle: CLIP, BLIP, WD 1.4 (aka WD14), SigLIP 2 und ChatGPT mit Vision

Kategorisiert in AI/ML, Art, Open Source Verschlagwortet mit , , ,
Save and Share:

Die automatisierte Verschlagwortung, Beschriftung oder Beschreibung von Bildern ist eine entscheidende Aufgabe in vielen Anwendungsbereichen, insbesondere bei der Erstellung von Datensätzen für maschinelles Lernen. Hier kommen Bild-zu-Text-Modelle ins Spiel. Zu den führenden Bild-zu-Text-Modellen gehören CLIP, BLIP, WD 1.4 (auch bekannt als WD14 oder Waifu Diffusion 1.4 Tagger), SigLIP 2 und ChatGPT mit Vision.

CLIP: Ein revolutionärer Sprung nach vorn

Das Contrastive Language–Image Pretraining (CLIP)-Modell von OpenAI hat breite Anerkennung für seinen revolutionären Ansatz zum Verständnis und zur Generierung von Bildbeschreibungen gefunden. CLIP nutzt eine große Menge an Internettext- und Bilddaten, um eine Vielzahl visueller Konzepte zu erlernen und so beschreibende Sätze für Bilder zu erstellen.

Laut Nutzerrezensionen können CLIPs beschreibende Sätze jedoch manchmal redundant oder übermäßig ausführlich sein. Ein häufiger Kritikpunkt ist die Neigung des Modells, ähnliche Beschreibungen für dasselbe Objekt zu wiederholen oder bestimmte Attribute, wie z. B. die Farbe eines Objekts, übermäßig zu betonen.

BLIP: Schlichtheit trifft Funktionalität

Das BLIP-Modell bietet zwar weniger detaillierte Beschreibungen als CLIP, aber einen einfacheren und direkteren Ansatz für die Bild-zu-Text-Verarbeitung. Ein Rezensent bemerkte, BLIP sei zwar „cool und so, aber ziemlich einfach gestrickt“. Diese Einfachheit des Modells kann ein Vorteil für Anwendungen sein, die unkomplizierte, weniger wortreiche Tags oder Beschreibungen erfordern.

Dennoch stellten einige Benutzer fest, dass es der Ausgabe von BLIP oft an der Tiefe und Detailgenauigkeit mangelt, die Modelle wie WD14 bieten. BLIP kann zwar zufriedenstellende Ergebnisse liefern, ist aber möglicherweise nicht die beste Wahl für Anwendungen, die detaillierte, komplexe Tags erfordern.

Ich habe festgestellt, dass WD14, obwohl es auf Anime ausgerichtet ist, auch bei echten Fotos von Personen hervorragend funktioniert. Ich kombiniere es normalerweise mit BLIP, und meistens erfasst es viel mehr Details als BLIP.

Toni Corvera in den YouTube-Kommentaren

Blip ist zwar cool und so, aber ziemlich einfach gestrickt.

WD 1.4 (WD14) Tagging ist viel besser – detaillierter, gehaltvollere Tags.

OrphBean auf GitHub

WD 1.4 (aka WD14): Präzision im Detail

Das WD 1.4-Modell (auch bekannt als WD14 oder Waifu Diffusion 1.4 Tagger), das ursprünglich für Anime-Bilder entwickelt wurde, hat eine überraschende Vielseitigkeit bewiesen und funktioniert auch bei Fotos gut. Benutzer loben seine erweiterten Konfigurationsoptionen und Batch-Verarbeitungsfunktionen, die es zu einem robusten Werkzeug für die Bild-zu-Text-Übersetzung machen.

Was WD14 auszeichnet, ist seine Fähigkeit, detaillierte, „gehaltvollere“ Tags zu generieren und so im Vergleich zu seinen Konkurrenten detailliertere Beschreibungen von Bildern zu liefern. Dieses Modell erzeugt zwar weniger wahrscheinlich falsche Tags, aber sein Fokus auf Anime könnte für bestimmte Arten von Bildern eine Einschränkung darstellen.

F: Ist der WD14-Tagger besser als der in Automatic1111 integrierte BLIP oder deepdanbooru?

A: Die Erweiterung bietet bessere Konfigurations- und Batch-Verarbeitungsoptionen, und ich habe festgestellt, dass sie weniger wahrscheinlich völlig falsche Tags erzeugt als deepdanbooru.

CLIP/BLIP ist anders, da diese beschreibende Sätze anstelle von Tag-Listen erzeugen, aber Letzteres entspricht normalerweise eher meinen Bedürfnissen. Und der integrierte CLIP-Interrogator neigt dazu, Dinge wie „ein Bild von (Beschreibung) und ein Bild von (leicht unterschiedliche Beschreibung desselben Dings)“ oder „(größtenteils vollständige Beschreibung) und pinke Haare und pinke Haare und pinke Haare und (viele Wiederholungen)“ auszuspucken.

Obwohl der WD14-Tagger für Anime entwickelt wurde, funktioniert er recht gut bei Fotos.

MorganTheDual auf Reddit

SigLIP 2: Eine leistungsstarke Bild-zu-Text-Engine

Das kostenlose Open-Source-Modell SigLIP 2 von Google ist nicht nur ein Vision-Language-Modell; es ist eine leistungsstarke Engine, um Bilder in aussagekräftigen Text umzuwandeln. Während es sich bei Aufgaben wie dem Abrufen von Bild-Text-Paaren und der Zero-Shot-Klassifizierung auszeichnet, machen seine Architektur und Trainingsverbesserungen es zu einem starken Kandidaten für die Bild-zu-Text-Generierung und das -Verständnis. Hier ist eine Aufschlüsselung der Funktionsweise von SigLIP 2 in diesem Kontext:

Die Grundlage: Vision Transformer (ViT) und Sigmoid-Loss

  • Vision Transformer (ViT): Im Gegensatz zu Convolutional Neural Networks (CNNs) verwendet SigLIP 2 eine Vision Transformer (ViT)-Architektur. Der ViT behandelt ein Bild wie eine Sequenz von Patches, ähnlich wie Wörter in der natürlichen Sprachverarbeitung als Tokens behandelt werden. Jeder Patch wird in eine Vektordarstellung (ein Embedding) umgewandelt. Dies ermöglicht es dem Modell, die leistungsstarke Transformer-Architektur zu nutzen, die für ihre Fähigkeit bekannt ist, langfristige Abhängigkeiten zu erfassen, um die Beziehungen zwischen verschiedenen Teilen des Bildes zu verstehen.
  • Sigmoid-Loss (nicht kontrastiv): Ein wesentliches Unterscheidungsmerkmal von SigLIP (und SigLIP 2) ist die Verwendung einer Sigmoid-Loss-Funktion anstelle des häufigeren kontrastiven Loss (der in Modellen wie CLIP verwendet wird). Kontrastives Lernen erfordert den Vergleich eines Bildes mit mehreren Textoptionen. Sigmoid-Loss hingegen behandelt die Bild-Text-Zuordnung als ein binäres Klassifizierungsproblem für jedes Bild-Text-Paar. Diese scheinbar kleine Änderung hat eine große Auswirkung: Sie ermöglicht ein stabileres Training und eine bessere Leistung, insbesondere bei größeren Batch-Größen. Sie konzentriert sich auf die einzelnen Bild-Text-Paar-Übereinstimmungen.

Verbessertes Training für die Textgenerierung

SigLIP 2 baut auf der Grundlage von SigLIP auf und fügt mehrere entscheidende Verbesserungen hinzu, die seine Bild-zu-Text-Fähigkeiten direkt verbessern:

  • Captioning-basiertes Pretraining: Dies ist ein enormer Schritt. SigLIP 2 integriert Captioning als Teil seines Pretraining-Prozesses. Das bedeutet, dass es explizit darauf trainiert wird, Textbeschreibungen von Bildern zu generieren. Dies steht im Gegensatz zu Modellen wie dem ursprünglichen CLIP, die hauptsächlich auf das Matching von Bild und Text trainiert wurden, nicht auf die Generierung.
  • Inspiriert von selbstüberwachtem Lernen: SigLIP 2 nutzt leistungsstarke Techniken:
    • Selbst-Destillation: Das Modell lernt aus seinen eigenen Vorhersagen und verfeinert so im Laufe der Zeit sein Verständnis.
    • Maskierte Vorhersage: Teile des Inputs (entweder Bild-Patches oder Text-Tokens) werden ausgeblendet, und das Modell lernt, die fehlenden Teile vorherzusagen. Dies zwingt es, ein tieferes Verständnis beider Modalitäten zu entwickeln.
  • LocCa-Loss und Decoder: SigLIP 2 integriert den LocCa-Loss, der einen Transformer-Decoder mit Cross-Attention hinzufügt. Dieser Decoder ist speziell für Aufgaben wie Bildunterschriftung, Referring-Expression-Vorhersage (Identifizierung von Regionen basierend auf Text) und Grounded Captioning trainiert. Dies verbessert die feinkörnige Lokalisierung und detaillierte Feature-Extraktion.

Wie alles zusammenkommt (Bild -> Text)

  1. Bildeingabe: Ein Bild wird in den ViT-Encoder eingespeist.
  2. Patch-Embedding: Das Bild wird in Patches unterteilt, und jeder Patch wird in einen Embedding-Vektor umgewandelt.
  3. Transformer-Encoding: Die Transformer-Schichten verarbeiten diese Patch-Embeddings und erfassen Beziehungen zwischen verschiedenen Teilen des Bildes. Erlernte Positions-Embeddings liefern Informationen über die Position jedes Patches.
  4. Attention-Pooling: Ein Attention-basiertes Pooling-Mechanismus (MAP-Head) aggregiert die Informationen aus den Patch-Embeddings zu einer einzigen, umfassenden Bilddarstellung.
  5. Text-Decoder (entscheidend für Bild-zu-Text): Hier kommen die Captioning-Fähigkeiten von SigLIP 2 ins Spiel. Die Bilddarstellung aus dem Encoder wird in den Transformer-Decoder eingespeist (der durch den LocCa-Loss hinzugefügt wurde). Der Decoder verwendet Cross-Attention, um sich auf relevante Teile der Bilddarstellung zu konzentrieren, während er Text generiert.
  6. Textausgabe: Der Decoder generiert eine Sequenz von Text-Tokens, die eine Bildunterschrift oder Beschreibung des Bildes bilden.

Multilinguale Leistungsfähigkeit

SigLIP 2 ist nicht auf Englisch beschränkt. Es ist auf einem multilingualen Datensatz (WebLI) trainiert, wodurch es Text in mehreren Sprachen verstehen und generieren kann, was es zu einem wirklich globalen Bild-zu-Text-Tool macht.

Zusammenfassend

SigLIP 2s Kombination aus einer starken ViT-basierten Architektur, Sigmoid-Loss und, entscheidend, Decoder-basiertem Pretraining mit Captioning und Selbst-Destillation macht es zu einem hocheffektiven Modell für Bild-zu-Text-Aufgaben. Es geht über einfaches Bild-Text-Matching hinaus und generiert aktiv beschreibenden Text, was Möglichkeiten für Anwendungen wie automatische Bildunterschriftung, visuelle Fragebeantwortung und detaillierte Bildanalyse eröffnet.

Links

ChatGPT mit Vision

Wenn Sie einen nicht sehr großen Datensatz von Bildern beschreiben müssen, können Sie das Tool Image Describer in ChatGPT verwenden. Es eignet sich nicht für große Bildstapel, ist aber perfekt für kleinere Bildsätze, da es absolut die besten Beschreibungen in natürlicher Sprache liefert. Die Beschreibungen dieses Tools sind sehr präzise und detailliert. Es handelt sich nicht nur um Tags, sondern um kohärenten und informativen Text, der auch die Beziehungen zwischen Objekten im Bild berücksichtigt.

Beispiel:

Testbildsatz:

Image Describer Ausgabe für diese 3 Bilder:

Sie haben drei Bilder hochgeladen. Hier ist eine Beschreibung von jedem Bild:

  1. Das erste Bild zeigt ein entzückendes, stilisiertes Cartoon-Kätzchen mit großen, ausdrucksstarken Augen. Es ist überwiegend orange mit weißen Akzenten im Gesicht, auf der Brust und an den Pfoten. Das Kätzchen hält einen Stift, der fast so groß ist wie es selbst, und malt ein fröhliches Gesicht auf einen leuchtend gelben Ball. Der Kunststil ist sehr ausgefeilt und hat eine Art glänzendes Finish. Der Hintergrund deutet eine skurrile Umgebung mit bunten, abstrakten Formen und einem Hauch von Sternenhimmel an.
  2. Das zweite Bild scheint ein Screenshot eines Chat- oder Kommentarbereichs von einer Social-Media-Plattform zu sein. Verschiedene Nutzer haben Kommentare hinterlassen, von denen viele Gelächter oder Belustigung durch Akronyme wie „LMAO“ und Emojis anzeigen. Die Nutzernamen und Profilbilder sind aus Datenschutzgründen verpixelt und zeigen eine Vielzahl von Farben in der Verpixelung.
  3. Das dritte Bild ist eine sehr detaillierte und realistische Illustration einer jungen Frau mit einem freundlichen Gesichtsausdruck. Sie hat lange schwarze Haare, helle Haut und trägt einen violetten Hoodie. Die Frau trägt auch ein Headset, was darauf hindeutet, dass sie möglicherweise eine Videospiel-Streamerin ist oder in irgendeiner Form von Online-Kommunikation tätig ist. Der Hintergrund scheint ein Raum zu sein, der in violettes Licht getaucht ist, möglicherweise von LED-Leuchten, was auf ein Gaming-Setup hindeutet.

Jedes Bild hat einen sehr unterschiedlichen Kontext und visuellen Stil, von einer skurrilen Illustration über einen Screenshot einer digitalen Interaktion bis hin zu einem realistischeren digitalen Gemälde.

Fazit

Die Wahl zwischen CLIP, BLIP, WD 1.4, SigLIP 2 und Image Describer hängt stark von den spezifischen Bedürfnissen eines Projekts ab. Wenn Präzision und Detailgenauigkeit von größter Bedeutung sind, bietet WD 1.4 mit seinen erweiterten Konfigurationsmöglichkeiten und detaillierten Tagging-Funktionen eine überzeugende Option. Für einfachere Anwendungen ist der unkomplizierte Ansatz von BLIP möglicherweise besser geeignet. CLIP bietet unterdessen ein Gleichgewicht zwischen Detailgenauigkeit und Einfachheit, wenn auch mit einer Tendenz zur Weitschweifigkeit.

Image Describer liefert die besten Ergebnisse, ist aber nicht für die Beschreibung oder das Tagging großer Bildsätze geeignet.

Da sich diese Modelle ständig weiterentwickeln und verbessern, bergen sie ein vielversprechendes Potenzial für ein breites Spektrum von Anwendungen, von der Inhaltserstellung bis zur Datenanalyse. Trotz ihrer Unterschiede sind CLIP-, BLIP-, WD 1.4-, SigLIP 2- und GPT-Vision-Modelle ein Beweis für die rasanten Fortschritte in der Bild-zu-Text-Technologie, wobei jedes Modell einzigartige Stärken zu diesem spannenden Feld beiträgt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert