Modelos de IA de imagen a texto: CLIP, BLIP, WD 1.4 (también conocido como WD14), SigLIP 2 y ChatGPT con Vision

Categorizado como AI/ML, Art, Código abierto Etiquetado como , , ,
Save and Share:

El etiquetado, rotulado o descripción automatizados de imágenes es una tarea crucial en muchas aplicaciones, particularmente en la preparación de conjuntos de datos para el aprendizaje automático. Aquí es donde los modelos de imagen a texto vienen al rescate. Entre los principales modelos de imagen a texto se encuentran CLIP, BLIP, WD 1.4 (también conocido como WD14 o Waifu Diffusion 1.4 Tagger), SigLIP 2 y ChatGPT con Vision.

CLIP: Un salto revolucionario

El modelo Contrastive Language–Image Pretraining (CLIP) de OpenAI ha sido ampliamente reconocido por su enfoque revolucionario para comprender y generar descripciones de imágenes. CLIP aprovecha una gran cantidad de texto de internet y datos de imágenes para aprender multitud de conceptos visuales, produciendo así frases descriptivas para imágenes.

Sin embargo, según las reseñas de los usuarios, las frases descriptivas de CLIP a veces pueden ser redundantes o excesivamente verbosas. Una crítica común gira en torno a la propensión del modelo a repetir descripciones similares para el mismo objeto o a enfatizar en exceso ciertos atributos, como el color de un objeto.

BLIP: La simplicidad se une a la funcionalidad

El modelo BLIP, aunque menos detallado en sus descripciones en comparación con CLIP, ofrece un enfoque más simple y directo para el procesamiento de imagen a texto. Como señaló un revisor, BLIP es «guay y todo, pero es bastante básico». La simplicidad de este modelo puede ser una ventaja para aplicaciones que requieren etiquetas o descripciones sencillas y menos verbosas.

No obstante, algunos usuarios encontraron que la salida de BLIP a menudo carece de la profundidad y granularidad proporcionadas por modelos como WD14. Si bien puede generar resultados satisfactorios, BLIP puede no ser la mejor opción para aplicaciones que demandan etiquetas detalladas y complejas.

He descubierto que WD14, a pesar de estar enfocado en anime, funciona muy bien también para fotos reales de personas. Normalmente lo combino con BLIP y la mayoría de las veces capta muchos más detalles que BLIP.

Toni Corvera en Comentarios de YouTube

Blip es guay y todo, pero es bastante básico.

El etiquetado de WD 1.4 (WD14) es mucho mejor: más detalle, etiquetas más jugosas.

OrphBean en GitHub

WD 1.4 (también conocido como WD14): Precisión en el detalle

El modelo WD 1.4 (también conocido como WD14 o Waifu Diffusion 1.4 Tagger), diseñado inicialmente para imágenes de anime, ha demostrado una versatilidad sorprendente, funcionando bien incluso con fotos. Los usuarios han elogiado sus opciones de configuración avanzada y capacidades de procesamiento por lotes, lo que lo convierte en una herramienta robusta para la traducción de imagen a texto.

Lo que distingue a WD14 es su capacidad para generar etiquetas detalladas y «más jugosas», proporcionando descripciones más profundas de las imágenes en comparación con sus contrapartes. Si bien es menos probable que este modelo produzca etiquetas espurias, su enfoque en el anime podría ser una limitación para ciertos tipos de imágenes.

P: ¿Es el etiquetador WD14 mejor que BLIP o deepdanbooru integrados en Automatic1111?

R: La extensión ofrece mejores opciones para la configuración y el procesamiento por lotes, y he descubierto que es menos probable que produzca etiquetas completamente espurias que deepdanbooru.

CLIP/BLIP es diferente, ya que producen frases descriptivas en lugar de listas de etiquetas, pero esto último suele estar más en línea con mis necesidades. Y el interrogador CLIP integrado es propenso a soltar cosas como «una imagen de (descripción) y una imagen de (descripción ligeramente diferente de lo mismo)» o «(descripción casi completa) y pelo rosa y pelo rosa y pelo rosa y (repetir muchas veces)»

A pesar de estar hecho para anime, el etiquetador WD14 funciona bastante bien en fotos.

MorganTheDual en Reddit

SigLIP 2: Un potente motor de imagen a texto

El modelo gratuito y abierto SigLIP 2 de Google, no es solo un modelo de visión-lenguaje; es un potente motor para convertir imágenes en texto significativo. Si bien sobresale en tareas como la recuperación de imagen-texto y la clasificación zero-shot, su arquitectura y mejoras de entrenamiento lo convierten en un fuerte contendiente para la generación y comprensión de imagen a texto. Aquí hay un desglose de cómo funciona SigLIP 2 en este contexto:

La base: Vision Transformer (ViT) y pérdida sigmoide

  • Vision Transformer (ViT): A diferencia de las redes neuronales convolucionales (CNN), SigLIP 2 utiliza una arquitectura Vision Transformer (ViT). ViT trata una imagen como una secuencia de parches, similar a cómo las palabras se tratan como tokens en el procesamiento del lenguaje natural. Cada parche se convierte en una representación vectorial (un embedding). Esto permite que el modelo utilice la potente arquitectura Transformer, conocida por su capacidad para capturar dependencias de largo alcance, para comprender las relaciones entre diferentes partes de la imagen.
  • Pérdida sigmoide (no contrastiva): Un diferenciador clave de SigLIP (y SigLIP 2) es el uso de una función de pérdida sigmoide en lugar de la pérdida contrastiva más común (utilizada en modelos como CLIP). El aprendizaje contrastivo requiere comparar una imagen con múltiples opciones de texto. La pérdida sigmoide, por otro lado, trata la coincidencia imagen-texto como un problema de clasificación binaria para cada par imagen-texto. Este cambio aparentemente pequeño tiene un gran impacto: permite un entrenamiento más estable y un mejor rendimiento, especialmente con tamaños de lote más grandes. Se centra en las coincidencias individuales de pares imagen-texto.

Entrenamiento mejorado para la generación de texto

SigLIP 2 toma la base de SigLIP y añade varias mejoras cruciales que benefician directamente sus capacidades de imagen a texto:

  • Preentrenamiento basado en subtítulos: Este es un paso enorme. SigLIP 2 incorpora el subtitulado como parte de su proceso de preentrenamiento. Esto significa que está explícitamente entrenado para generar descripciones de texto de imágenes. Esto contrasta con modelos como el CLIP original, que se entrenaron principalmente en la coincidencia imagen-texto, no en la generación.
  • Inspirado en el aprendizaje autosupervisado: SigLIP 2 aprovecha técnicas potentes:
    • Autodestilación: El modelo aprende de sus propias predicciones, refinando su comprensión con el tiempo.
    • Predicción enmascarada: Se ocultan partes de la entrada (ya sean parches de imagen o tokens de texto), y el modelo aprende a predecir las piezas faltantes. Esto le obliga a desarrollar una comprensión más profunda de ambas modalidades.
  • Pérdida LocCa y decodificador: SigLIP 2 integra la pérdida LocCa, que añade un decodificador Transformer con atención cruzada. Este decodificador está específicamente entrenado en tareas como el subtitulado de imágenes, la predicción de expresiones referenciales (identificación de regiones basadas en texto) y el subtitulado fundamentado. Esto mejora la localización de grano fino y la extracción detallada de características.

Cómo se junta todo (Imagen -> Texto)

  1. Entrada de imagen: Se introduce una imagen en el codificador ViT.
  2. Embedding de parches: La imagen se divide en parches, y cada parche se transforma en un vector de embedding.
  3. Codificación Transformer: Las capas Transformer procesan estos embeddings de parches, capturando las relaciones entre diferentes partes de la imagen. Los embeddings posicionales aprendidos proporcionan información sobre la ubicación de cada parche.
  4. Agrupación de atención: Un mecanismo de agrupación basado en la atención (cabezal MAP) agrega la información de los embeddings de parches en una única representación de imagen completa.
  5. Decodificador de texto (Crucial para imagen a texto): Aquí es donde entran en juego las capacidades de subtitulado de SigLIP 2. La representación de la imagen del codificador se introduce en el decodificador Transformer (añadido por la pérdida LocCa). El decodificador utiliza la atención cruzada para centrarse en partes relevantes de la representación de la imagen mientras genera texto.
  6. Salida de texto: El decodificador genera una secuencia de tokens de texto, formando un subtítulo o descripción de la imagen.

Potencia multilingüe

SigLIP 2 no se limita al inglés. Está entrenado en un conjunto de datos multilingüe (WebLI), lo que le da la capacidad de entender y generar texto en múltiples idiomas, convirtiéndolo en una herramienta de imagen a texto verdaderamente global.

En resumen

La combinación de SigLIP 2 de una arquitectura sólida basada en ViT, pérdida sigmoide y, crucialmente, preentrenamiento basado en decodificador con subtitulado y autodestilación, lo convierte en un modelo altamente eficaz para tareas de imagen a texto. Va más allá de la simple coincidencia imagen-texto para generar activamente texto descriptivo, abriendo posibilidades para aplicaciones como el subtitulado automático de imágenes, el preguntas y respuestas visuales y el análisis detallado de imágenes.

Enlaces

ChatGPT con Vision

Si necesitas describir un conjunto de datos de imágenes no muy grande, puedes utilizar la herramienta Image Describer en ChatGPT. No es adecuado para grandes lotes de imágenes, pero es perfecto para conjuntos de imágenes más pequeños porque proporciona absolutamente las mejores descripciones en lenguaje natural. Las descripciones de esta herramienta son muy precisas y detalladas. No son solo etiquetas, sino un texto coherente e informativo que también tiene en cuenta las relaciones entre los objetos de la imagen.

Ejemplo:

Conjunto de imágenes de prueba:

Salida de Image Describer para estas 3 imágenes:

Has subido tres imágenes. Aquí tienes una descripción de cada una:

  1. La primera imagen muestra un adorable gatito de dibujos animados estilizado con grandes ojos expresivos. Es predominantemente naranja con detalles blancos en la cara, el pecho y las patas. El gatito está sujetando un bolígrafo, que es casi tan grande como él, y está dibujando una cara feliz en una pelota amarilla brillante. El estilo artístico es muy pulido y tiene una especie de acabado brillante. El fondo sugiere un entorno caprichoso con formas abstractas y coloridas y una sugerencia de un cielo estrellado.
  2. La segunda imagen parece ser una captura de pantalla de una sección de chat o comentarios de una plataforma de redes sociales. Varios usuarios han dejado comentarios, muchos de los cuales incluyen risas o diversión indicadas por acrónimos como «LMAO» y emojis. Los nombres de usuario y las fotos de perfil están pixelados por privacidad, con una variedad de colores mostrados en la pixelación.
  3. La tercera imagen es una ilustración muy detallada y realista de una mujer joven con una expresión amistosa. Tiene el pelo largo y negro, la piel clara y lleva una sudadera con capucha morada. La mujer también lleva unos auriculares, lo que sugiere que podría ser una streamer de videojuegos o estar involucrada en alguna forma de comunicación en línea. El entorno parece ser una habitación iluminada con un tono púrpura, posiblemente de luces LED, indicativo de una configuración de juego.

Cada imagen tiene un contexto y un estilo visual muy diferentes, que van desde una ilustración caprichosa hasta una captura de pantalla de una interacción digital, pasando por una pintura digital más realista.

Conclusión

Elegir entre CLIP, BLIP, WD 1.4, SigLIP 2 e Image Describer depende en gran medida de las necesidades específicas de un proyecto. Si la precisión y el detalle son primordiales, WD 1.4 ofrece una opción convincente con su configuración avanzada y capacidades de etiquetado detallado. Para aplicaciones más simples, el enfoque directo de BLIP podría ser más adecuado. Mientras tanto, CLIP proporciona un equilibrio entre detalle y simplicidad, aunque con una tendencia a la verbosidad.

Image Describer proporciona los mejores resultados, pero no es adecuado para describir o etiquetar grandes conjuntos de imágenes.

A medida que estos modelos continúan evolucionando y mejorando, encierran un potencial prometedor para un amplio espectro de aplicaciones, desde la creación de contenido hasta el análisis de datos. A pesar de sus diferencias, los modelos CLIP, BLIP, WD 1.4, SigLIP 2 y GPT-Vision son un testimonio de los rápidos avances en la tecnología de imagen a texto, y cada uno contribuye con fortalezas únicas a este emocionante campo.

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *