Stability AI ha lanzado su último modelo de IA de texto a imagen, Stable Diffusion 3, lo que marca un avance significativo en el campo de la IA generativa, que evoluciona rápidamente. Este nuevo modelo presume de mejoras impresionantes en la calidad de la imagen, la representación del texto y la capacidad de comprender instrucciones complejas, todo ello siendo más eficiente en cuanto a recursos.
Stable Diffusion 3 no es solo una mejora incremental. Introduce una arquitectura innovadora llamada Multimodal Diffusion Transformer (MMDiT), que representa un cambio de paradigma en la forma en que la IA procesa y genera imágenes a partir de texto.
¿Qué hay de nuevo en Stable Diffusion 3?
- Calidad de imagen mejorada: Stable Diffusion 3 produce imágenes que son más atractivas visualmente y realistas, rivalizando con la calidad de las creadas por artistas profesionales.
- Tipografía superior: Una de las mejoras más llamativas es la capacidad del modelo para generar texto claro y legible dentro de las imágenes, una tarea notoriamente difícil para los modelos de IA anteriores.
- Comprensión más profunda de las instrucciones: Los usuarios ahora pueden elaborar instrucciones muy específicas y matizadas, y Stable Diffusion 3 traducirá con precisión su visión en imágenes impresionantes.
- Eficiencia de recursos: A pesar de sus capacidades mejoradas, Stable Diffusion 3 está diseñado para ser más eficiente, requiriendo menos potencia de procesamiento y memoria, lo que lo hace más accesible a un público más amplio.
¿Cómo funciona Stable Diffusion 3?
La magia detrás de Stable Diffusion 3 reside en su innovadora arquitectura MMDiT. Este nuevo sistema emplea conjuntos separados de pesos para los datos de imagen y lenguaje, lo que permite a la IA comprender y procesar mejor tanto el texto como la información visual de forma independiente. Esta separación de responsabilidades permite una interacción más sofisticada entre los dos, lo que resulta en imágenes que no solo son visualmente impresionantes, sino que también reflejan con precisión el texto de entrada.
Stable Diffusion 3: Superando a la competencia

Stability AI ha llevado a cabo extensas evaluaciones de preferencia humana, enfrentando a Stable Diffusion 3 con otros modelos líderes de texto a imagen como DALL·E 3, Midjourney v6 e Ideogram v1. Los resultados hablan por sí solos: Stable Diffusion 3 se clasifica consistentemente como igual o mejor que la competencia en calidad de imagen, cumplimiento de las instrucciones y tipografía.
Stable Diffusion 3: Ejemplos de generación




Escalando para el futuro
Stability AI también ha llevado a cabo estudios exhaustivos de escalado, entrenando modelos de Stable Diffusion 3 con diferentes cantidades de parámetros. Los resultados muestran una mejora clara y constante en el rendimiento con tamaños de modelo más grandes, lo que sugiere un potencial aún mayor para el futuro de esta tecnología.
Licencias y disponibilidad
Stable Diffusion 3 se publica actualmente bajo la Stability Non-Commercial Research Community License, lo que lo hace gratuito para usos no comerciales como la investigación académica y los proyectos personales. Las licencias comerciales están disponibles a través de Stability AI para artistas, diseñadores y empresas profesionales.
Stable Diffusion 3: Tamaños y variantes
Lanzado públicamente y disponible para su descarga:
- SD3 Medium: el modelo de 2000 millones de parámetros, disponible para su descarga en https://huggingface.co/stabilityai/stable-diffusion-3-medium
Disponible solo a través de la API de Stability AI
- SD3 Large: el modelo de 8000 millones de parámetros
- SD3 Large Turbo: el modelo de 8000 millones de parámetros con un tiempo de inferencia más rápido
El futuro de la generación de imágenes por IA
Stable Diffusion 3 no es solo un avance tecnológico; es una visión del futuro de la creatividad. Con sus capacidades avanzadas y su diseño fácil de usar, este modelo tiene el potencial de revolucionar la forma en que creamos e interactuamos con el contenido visual. Desde artistas profesionales que superan los límites de su oficio hasta personas que dan vida a sus imaginaciones más salvajes, Stable Diffusion 3 está a punto de democratizar y redefinir el panorama de la generación de imágenes.
Recursos
- Repositorio de Stable Diffusion 3 Medium: https://huggingface.co/stabilityai/stable-diffusion-3-medium
- Artículo de investigación: https://arxiv.org/pdf/2403.03206