Stability AI ha rilasciato il suo ultimo modello di IA text-to-image, Stable Diffusion 3, segnando un progresso significativo nel campo in rapida evoluzione dell’IA generativa. Questo nuovo modello vanta notevoli miglioramenti nella qualità dell’immagine, nel rendering del testo e nella capacità di comprendere prompt complessi, il tutto pur essendo più efficiente in termini di risorse.
Stable Diffusion 3 non è solo un aggiornamento incrementale. Introduce un’architettura rivoluzionaria chiamata Multimodal Diffusion Transformer (MMDiT), che rappresenta un cambio di paradigma nel modo in cui l’IA elabora e genera immagini dal testo.
Cosa c’è di nuovo in Stable Diffusion 3?
- Qualità dell’immagine migliorata: Stable Diffusion 3 produce immagini più accattivanti e realistiche, rivaleggiando con la qualità di quelle create da artisti professionisti.
- Tipografia superiore: Uno dei miglioramenti più evidenti è la capacità del modello di generare testo chiaro e leggibile all’interno delle immagini, un compito notoriamente difficile per i precedenti modelli di IA.
- Comprensione più approfondita dei prompt: Gli utenti possono ora creare prompt altamente specifici e sfumati e Stable Diffusion 3 tradurrà accuratamente la loro visione in immagini straordinarie.
- Efficienza delle risorse: Nonostante le sue maggiori capacità, Stable Diffusion 3 è progettato per essere più efficiente, richiedendo meno potenza di elaborazione e memoria, rendendolo più accessibile a un pubblico più ampio.
Come funziona Stable Diffusion 3?
La magia di Stable Diffusion 3 risiede nella sua innovativa architettura MMDiT. Questo nuovo sistema impiega set di pesi separati per i dati di immagine e di linguaggio, consentendo all’IA di comprendere ed elaborare meglio sia il testo che le informazioni visive in modo indipendente. Questa separazione delle competenze consente un’interazione più sofisticata tra i due, risultando in immagini che non sono solo visivamente sbalorditive, ma riflettono anche accuratamente il testo di input.
Stable Diffusion 3: Supera la concorrenza

Stability AI ha condotto ampie valutazioni delle preferenze umane, mettendo Stable Diffusion 3 contro altri modelli text-to-image leader come DALL·E 3, Midjourney v6 e Ideogram v1. I risultati parlano da soli: Stable Diffusion 3 si classifica costantemente come buono o migliore della concorrenza in termini di qualità dell’immagine, aderenza al prompt e tipografia.
Stable Diffusion 3: Esempi di generazione




Scalabilità per il futuro
Stability AI ha anche condotto approfonditi studi di scalabilità, addestrando modelli Stable Diffusion 3 con un numero variabile di parametri. I risultati mostrano un miglioramento chiaro e coerente delle prestazioni con modelli di dimensioni maggiori, suggerendo un potenziale ancora maggiore per il futuro di questa tecnologia.
Licenze e disponibilità
Stable Diffusion 3 è attualmente rilasciato con la Stability Non-Commercial Research Community License, che lo rende gratuito per usi non commerciali come la ricerca accademica e i progetti personali. Le licenze commerciali sono disponibili tramite Stability AI per artisti, designer e aziende professionisti.
Stable Diffusion 3: Dimensioni e versioni
Rilasciato pubblicamente e disponibile per il download:
- SD3 Medium – il modello da 2 miliardi di parametri, disponibile per il download su https://huggingface.co/stabilityai/stable-diffusion-3-medium
Disponibile solo tramite la API di Stability AI
- SD3 Large – il modello da 8 miliardi di parametri
- SD3 Large Turbo – il modello da 8 miliardi di parametri con un tempo di inferenza più veloce
Il futuro della generazione di immagini tramite IA
Stable Diffusion 3 non è solo una svolta tecnologica; è uno sguardo al futuro della creatività. Con le sue capacità avanzate e il design intuitivo, questo modello ha il potenziale per rivoluzionare il modo in cui creiamo e interagiamo con i contenuti visivi. Dagli artisti professionisti che spingono i confini del loro mestiere agli individui che danno vita alle loro più sfrenate fantasie, Stable Diffusion 3 è destinato a democratizzare e ridefinire il panorama della generazione di immagini.
Risorse
- Repository di Stable Diffusion 3 Medium: https://huggingface.co/stabilityai/stable-diffusion-3-medium
- Articolo di ricerca: https://arxiv.org/pdf/2403.03206