Stability AI a lancé son dernier modèle d’IA de conversion texte-image, Stable Diffusion 3, marquant une avancée significative dans le domaine en pleine évolution de l’IA générative. Ce nouveau modèle se targue d’améliorations impressionnantes en matière de qualité d’image, de rendu de texte et de capacité à comprendre des invites complexes, tout en étant plus économe en ressources.
Stable Diffusion 3 n’est pas qu’une simple mise à niveau progressive. Il introduit une architecture révolutionnaire appelée Multimodal Diffusion Transformer (MMDiT), qui représente un changement de paradigme dans la façon dont l’IA traite et génère des images à partir de texte.
Quoi de neuf dans Stable Diffusion 3 ?
- Qualité d’image améliorée : Stable Diffusion 3 produit des images plus attrayantes visuellement et plus réalistes, rivalisant avec la qualité de celles créées par des artistes professionnels.
- Typographie supérieure : L’une des améliorations les plus frappantes est la capacité du modèle à générer du texte clair et lisible dans les images, une tâche notoirement difficile pour les modèles d’IA précédents.
- Compréhension plus approfondie des invites : Les utilisateurs peuvent désormais créer des invites très spécifiques et nuancées, et Stable Diffusion 3 traduira fidèlement leur vision en visuels époustouflants.
- Efficacité des ressources : Malgré ses capacités améliorées, Stable Diffusion 3 est conçu pour être plus efficace, nécessitant moins de puissance de traitement et de mémoire, ce qui le rend plus accessible à un public plus large.
Comment fonctionne Stable Diffusion 3 ?
La magie derrière Stable Diffusion 3 réside dans son architecture MMDiT innovante. Ce nouveau système utilise des ensembles de poids distincts pour les données d’image et de langage, ce qui permet à l’IA de mieux comprendre et traiter les informations textuelles et visuelles de manière indépendante. Cette séparation des préoccupations permet une interaction plus sophistiquée entre les deux, ce qui donne des images non seulement visuellement époustouflantes, mais aussi reflétant fidèlement le texte saisi.
Stable Diffusion 3 : surpasse la concurrence

Stability AI a mené des évaluations approfondies des préférences humaines, en comparant Stable Diffusion 3 à d’autres modèles texte-image de premier plan comme DALL·E 3, Midjourney v6 et Ideogram v1. Les résultats parlent d’eux-mêmes : Stable Diffusion 3 se classe systématiquement aussi bien, voire mieux que la concurrence en termes de qualité d’image, d’adhérence aux invites et de typographie.
Stable Diffusion 3 : exemples de génération




Évolutivité pour l’avenir
Stability AI a également mené des études d’évolutivité approfondies, en entraînant des modèles Stable Diffusion 3 avec un nombre variable de paramètres. Les résultats montrent une amélioration claire et constante des performances avec des modèles de plus grande taille, ce qui suggère un potentiel encore plus grand pour l’avenir de cette technologie.
Licences et disponibilité
Stable Diffusion 3 est actuellement publié sous la licence Stability Non-Commercial Research Community License, ce qui le rend gratuit pour les utilisations non commerciales comme la recherche universitaire et les projets personnels. Des licences commerciales sont disponibles auprès de Stability AI pour les artistes professionnels, les concepteurs et les entreprises.
Stable Diffusion 3 : tailles et versions
Publiés publiquement et disponibles au téléchargement :
- SD3 Medium : le modèle de 2 milliards de paramètres, disponible au téléchargement sur https://huggingface.co/stabilityai/stable-diffusion-3-medium
Disponible uniquement via l’API Stability AI
- SD3 Large : le modèle de 8 milliards de paramètres
- SD3 Large Turbo : le modèle de 8 milliards de paramètres avec un temps d’inférence plus rapide
L’avenir de la génération d’images par l’IA
Stable Diffusion 3 n’est pas seulement une avancée technologique, c’est un aperçu de l’avenir de la créativité. Grâce à ses capacités avancées et à sa conception conviviale, ce modèle a le potentiel de révolutionner la façon dont nous créons et interagissons avec le contenu visuel. Qu’il s’agisse d’artistes professionnels repoussant les limites de leur art ou de personnes donnant vie à leurs imaginations les plus folles, Stable Diffusion 3 est sur le point de démocratiser et de redéfinir le paysage de la génération d’images.
Ressources
- Répertoire Stable Diffusion 3 Medium : https://huggingface.co/stabilityai/stable-diffusion-3-medium
- Document de recherche : https://arxiv.org/pdf/2403.03206