Modèles IA image-texte : CLIP, BLIP, WD 1.4 (alias WD14), SigLIP 2 et ChatGPT avec Vision

Catégorisé comme AI/ML, Art, Open Source Étiqueté , , ,
Save and Share:

L’étiquetage, le marquage ou la description automatisés d’images sont des tâches cruciales dans de nombreuses applications, en particulier pour la préparation d’ensembles de données pour l’apprentissage machine. C’est là que les modèles image-texte viennent à la rescousse. Parmi les principaux modèles image-texte, on trouve CLIP, BLIP, WD 1.4 (également connu sous le nom de WD14 ou Waifu Diffusion 1.4 Tagger), SigLIP 2 et ChatGPT avec Vision.

CLIP : Un bond révolutionnaire

Le modèle Contrastive Language–Image Pretraining (CLIP) d’OpenAI est largement reconnu pour son approche révolutionnaire de la compréhension et de la génération de descriptions d’images. CLIP exploite une grande quantité de données textuelles et d’images provenant d’Internet pour apprendre une multitude de concepts visuels, produisant ainsi des phrases descriptives pour les images.

Cependant, selon les avis des utilisateurs, les phrases descriptives de CLIP peuvent parfois être redondantes ou excessivement verbeuses. Une critique fréquente concerne la propension du modèle à répéter des descriptions similaires pour le même objet ou à trop insister sur certains attributs, comme la couleur d’un objet.

BLIP : La simplicité au service de la fonctionnalité

Le modèle BLIP, bien que moins détaillé dans ses descriptions que CLIP, offre une approche plus simple et plus directe du traitement image-texte. Comme l’a noté un critique, BLIP est « cool et tout, mais c’est assez basique ». La simplicité de ce modèle peut être un avantage pour les applications qui nécessitent des étiquettes ou des descriptions simples et moins verbeuses.

Néanmoins, certains utilisateurs ont constaté que la sortie de BLIP manque souvent de la profondeur et de la granularité offertes par des modèles comme WD14. Bien qu’il puisse générer des résultats satisfaisants, BLIP n’est peut-être pas le meilleur choix pour les applications qui exigent des étiquettes détaillées et complexes.

J’ai trouvé que WD14, bien qu’étant axé sur l’anime, fonctionne très bien aussi pour les photos de personnes réelles. Je le combine généralement avec BLIP et la plupart du temps, il capte beaucoup plus de détails que BLIP.

Toni Corvera dans les commentaires YouTube

Blip c’est cool et tout, mais c’est plutôt basique.

L’étiquetage WD 1.4 (WD14) est bien meilleur : plus de détails, des étiquettes plus « juteuses ».

OrphBean sur GitHub

WD 1.4 (alias WD14) : La précision dans le détail

Le modèle WD 1.4 (également connu sous le nom de WD14 ou Waifu Diffusion 1.4 Tagger), initialement conçu pour les images d’anime, a démontré une polyvalence surprenante, fonctionnant bien même avec des photos. Les utilisateurs ont salué ses options de configuration avancées et ses capacités de traitement par lots, qui en font un outil robuste pour la traduction image-texte.

Ce qui distingue WD14, c’est sa capacité à générer des étiquettes détaillées, plus « juteuses », fournissant des descriptions d’images plus approfondies que ses homologues. Bien que ce modèle soit moins susceptible de produire des étiquettes erronées, son orientation vers l’anime pourrait être une limite pour certains types d’images.

Q : L’outil d’étiquetage WD14 est-il meilleur que BLIP ou deepdanbooru intégrés à Automatic1111 ?

R : L’extension offre de meilleures options de configuration et de traitement par lots, et j’ai trouvé qu’elle était moins susceptible de produire des étiquettes complètement erronées que deepdanbooru.

CLIP/BLIP est différent car ils produisent des phrases descriptives plutôt que des listes d’étiquettes, mais ces dernières correspondent généralement mieux à mes besoins. Et l’interrogateur CLIP intégré a tendance à sortir des choses comme « une image de (description) et une image de (description légèrement différente de la même chose) » ou « (description presque complète) et cheveux roses et cheveux roses et cheveux roses et (répéter plusieurs fois) »

Bien qu’il soit conçu pour l’anime, l’outil d’étiquetage WD14 fonctionne plutôt bien sur les photos.

MorganTheDual sur Reddit

SigLIP 2 : Un moteur image-texte puissant

Le modèle gratuit et open source SigLIP 2 de Google n’est pas seulement un modèle vision-langage ; c’est un moteur puissant pour transformer les images en texte significatif. Bien qu’il excelle dans des tâches telles que la récupération image-texte et la classification zéro-shot, son architecture et ses améliorations d’entraînement en font un concurrent sérieux pour la génération et la compréhension image-texte. Voici une analyse du fonctionnement de SigLIP 2 dans ce contexte :

Les fondations : Vision Transformer (ViT) et perte sigmoïde

  • Vision Transformer (ViT) : Contrairement aux réseaux neuronaux convolutifs (CNN), SigLIP 2 utilise une architecture Vision Transformer (ViT). Le ViT traite une image comme une séquence de patchs, de la même manière que les mots sont traités comme des jetons dans le traitement du langage naturel. Chaque patch est converti en une représentation vectorielle (un embedding). Cela permet au modèle d’utiliser la puissante architecture Transformer, connue pour sa capacité à capturer les dépendances à longue portée, afin de comprendre les relations entre les différentes parties de l’image.
  • Perte sigmoïde (non contrastive) : Un différenciateur clé de SigLIP (et SigLIP 2) est l’utilisation d’une fonction de perte sigmoïde au lieu de la perte contrastive plus courante (utilisée dans des modèles comme CLIP). L’apprentissage contrastif nécessite de comparer une image à plusieurs options de texte. La perte sigmoïde, en revanche, traite la correspondance image-texte comme un problème de classification binaire pour chaque paire image-texte. Ce changement apparemment mineur a un impact important : il permet un entraînement plus stable et de meilleures performances, en particulier avec des tailles de lots plus importantes. Il se concentre sur les correspondances individuelles de paires image-texte.

Entraînement amélioré pour la génération de texte

SigLIP 2 reprend les bases de SigLIP et ajoute plusieurs améliorations cruciales qui profitent directement à ses capacités image-texte :

  • Pré-entraînement basé sur le légendage : C’est une étape énorme. SigLIP 2 intègre le légendage dans son processus de pré-entraînement. Cela signifie qu’il est explicitement entraîné à générer des descriptions textuelles d’images. Ceci contraste avec des modèles comme le CLIP original, qui étaient principalement entraînés à la correspondance image-texte, et non à la génération.
  • Inspiré de l’apprentissage auto-supervisé : SigLIP 2 exploite des techniques puissantes :
    • Auto-distillation : Le modèle apprend de ses propres prédictions, affinant sa compréhension au fil du temps.
    • Prédiction masquée : Des parties de l’entrée (patchs d’image ou jetons de texte) sont masquées, et le modèle apprend à prédire les éléments manquants. Cela le force à développer une compréhension plus approfondie des deux modalités.
  • Perte LocCa et décodeur : SigLIP 2 intègre la perte LocCa, qui ajoute un décodeur Transformer avec attention croisée. Ce décodeur est spécifiquement entraîné sur des tâches telles que le légendage d’images, la prédiction d’expressions référentielles (identification de régions basée sur du texte) et le légendage ancré. Cela améliore la localisation fine et l’extraction détaillée de caractéristiques.

Comment tout cela s’assemble (Image -> Texte)

  1. Entrée image : Une image est introduite dans l’encodeur ViT.
  2. Embedding de patchs : L’image est divisée en patchs, et chaque patch est transformé en un vecteur d’embedding.
  3. Encodage Transformer : Les couches Transformer traitent ces embeddings de patchs, capturant les relations entre les différentes parties de l’image. Les embeddings positionnels appris fournissent des informations sur l’emplacement de chaque patch.
  4. Pooling d’attention : Un mécanisme de pooling basé sur l’attention (tête MAP) agrège les informations des embeddings de patchs en une représentation unique et complète de l’image.
  5. Décodeur de texte (crucial pour image-texte) : C’est là que les capacités de légendage de SigLIP 2 entrent en jeu. La représentation de l’image provenant de l’encodeur est introduite dans le décodeur Transformer (ajouté par la perte LocCa). Le décodeur utilise l’attention croisée pour se concentrer sur les parties pertinentes de la représentation de l’image tout en générant du texte.
  6. Sortie texte : Le décodeur génère une séquence de jetons de texte, formant une légende ou une description de l’image.

Puissance multilingue

SigLIP 2 ne se limite pas à l’anglais. Il est entraîné sur un ensemble de données multilingue (WebLI), ce qui lui donne la capacité de comprendre et de générer du texte dans plusieurs langues, ce qui en fait un outil image-texte véritablement mondial.

En résumé

La combinaison par SigLIP 2 d’une architecture solide basée sur ViT, d’une perte sigmoïde et, surtout, d’un pré-entraînement basé sur un décodeur avec légendage et auto-distillation, en fait un modèle très efficace pour les tâches image-texte. Il va au-delà de la simple correspondance image-texte pour générer activement du texte descriptif, ouvrant des possibilités pour des applications telles que le légendage automatique d’images, la réponse à des questions visuelles et l’analyse détaillée d’images.

Liens

ChatGPT avec Vision

Si vous avez besoin de décrire un ensemble de données d’images pas très volumineux, vous pouvez utiliser l’outil Image Describer dans ChatGPT. Il ne convient pas aux grands lots d’images, mais il est parfait pour les petits ensembles d’images car il fournit absolument les meilleures descriptions en langage naturel. Les descriptions de cet outil sont très précises et détaillées. Ce ne sont pas seulement des étiquettes, mais un texte cohérent et informatif qui prend également en compte les relations entre les objets de l’image.

Exemple :

Ensemble d’images de test :

Sortie de Image Describer pour ces 3 images :

Vous avez téléchargé trois images. Voici une description de chacune :

  1. La première image présente un adorable chaton de dessin animé stylisé avec de grands yeux expressifs. Il est principalement orange avec des touches de blanc sur son visage, sa poitrine et ses pattes. Le chaton tient un stylo, qui est presque aussi grand que lui, et dessine un visage heureux sur une balle jaune vif. Le style artistique est très soigné et a une sorte de finition brillante. L’arrière-plan suggère un cadre fantaisiste avec des formes abstraites colorées et une suggestion de ciel étoilé.
  2. La deuxième image semble être une capture d’écran d’une section de chat ou de commentaires d’une plateforme de médias sociaux. Divers utilisateurs ont laissé des commentaires, dont beaucoup incluent des rires ou de l’amusement indiqués par des acronymes comme « LMAO » et des emojis. Les noms d’utilisateur et les photos de profil sont pixellisés pour des raisons de confidentialité, avec une variété de couleurs affichées dans la pixellisation.
  3. La troisième image est une illustration très détaillée et réaliste d’une jeune femme avec une expression amicale. Elle a de longs cheveux noirs, la peau claire et porte un sweat à capuche violet. La femme porte également un casque, ce qui suggère qu’elle pourrait être une streameuse de jeux vidéo ou impliquée dans une forme de communication en ligne. Le décor semble être une pièce illuminée d’une teinte violette, probablement due à des lumières LED, ce qui indique une configuration de jeu.

Chaque image a un contexte et un style visuel très différents, allant de l’illustration fantaisiste à une capture d’écran d’une interaction numérique, en passant par une peinture numérique plus réaliste.

Conclusion

Le choix entre CLIP, BLIP, WD 1.4, SigLIP 2 et Image Describer dépend largement des besoins spécifiques d’un projet. Si la précision et le détail sont primordiaux, WD 1.4 offre une option intéressante avec sa configuration avancée et ses capacités d’étiquetage détaillé. Pour des applications plus simples, l’approche directe de BLIP pourrait être plus appropriée. Pendant ce temps, CLIP offre un équilibre entre détail et simplicité, bien qu’avec une tendance à la verbosité.

Image Describer fournit les meilleurs résultats, mais ne convient pas à la description ou à l’étiquetage de grands ensembles d’images.

À mesure que ces modèles continuent d’évoluer et de s’améliorer, ils offrent un potentiel prometteur pour un large éventail d’applications, de la création de contenu à l’analyse de données. Malgré leurs différences, les modèles CLIP, BLIP, WD 1.4, SigLIP 2 et GPT-Vision témoignent des avancées rapides de la technologie image-texte, chacun contribuant des points forts uniques à ce domaine passionnant.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *