Stability AI objavio je svoj najnoviji model umjetne inteligencije za generiranje slika iz teksta, Stable Diffusion 3, što predstavlja značajan napredak u području generativne umjetne inteligencije koje se brzo razvija. Ovaj se novi model može pohvaliti impresivnim poboljšanjima u kvaliteti slike, prikazu teksta i sposobnosti razumijevanja složenih upita, a sve to uz veću učinkovitost resursa.
Stable Diffusion 3 nije samo postupna nadogradnja. Uvodi revolucionarnu arhitekturu pod nazivom Multimodal Diffusion Transformer (MMDiT), koja predstavlja pomak paradigme u načinu na koji umjetna inteligencija obrađuje i generira slike iz teksta.
Što je novo u Stable Diffusion 3?
- Poboljšana kvaliteta slike: Stable Diffusion 3 proizvodi slike koje su vizualno privlačnije i realističnije, parirajući kvaliteti onih koje su stvorili profesionalni umjetnici.
- Vrhunska tipografija: Jedno od najupečatljivijih poboljšanja je sposobnost modela da generira jasan, čitljiv tekst unutar slika, što je bio notorno težak zadatak za prethodne modele umjetne inteligencije.
- Dublje razumijevanje upita: Korisnici sada mogu izraditi vrlo specifične i nijansirane upite, a Stable Diffusion 3 točno će prevesti njihovu viziju u zadivljujuće vizuale.
- Učinkovitost resursa: Unatoč svojim poboljšanim mogućnostima, Stable Diffusion 3 dizajniran je da bude učinkovitiji, zahtijevajući manje procesorske snage i memorije, što ga čini dostupnijim široj publici.
Kako funkcionira Stable Diffusion 3?
Čarolija iza Stable Diffusion 3 leži u njegovoj inovativnoj MMDiT arhitekturi. Ovaj novi sustav koristi odvojene skupove težina za slikovne i jezične podatke, omogućujući umjetnoj inteligenciji da bolje razumije i obrađuje tekstualne i vizualne informacije neovisno. To odvajanje briga omogućuje sofisticiraniju međuigru između to dvoje, što rezultira slikama koje nisu samo vizualno zadivljujuće, već i točno odražavaju uneseni tekst.
Stable Diffusion 3: Nadmašuje konkurenciju

Stability AI proveo je opsežne evaluacije ljudskih preferencija, suprotstavljajući Stable Diffusion 3 drugim vodećim modelima za generiranje slika iz teksta kao što su DALL·E 3, Midjourney v6 i Ideogram v1. Rezultati govore sami za sebe: Stable Diffusion 3 dosljedno se rangira kao jednako dobar ili bolji od konkurencije u kvaliteti slike, pridržavanju upita i tipografiji.
Stable Diffusion 3: Primjeri generiranja




Širenje mogućnosti za budućnost
Stability AI također je proveo temeljite studije širenja mogućnosti, trenirajući modele Stable Diffusion 3 s različitim brojem parametara. Rezultati pokazuju jasno i dosljedno poboljšanje performansi s većim veličinama modela, što sugerira još veći potencijal za budućnost ove tehnologije.
Licenciranje i dostupnost
Stable Diffusion 3 trenutno je objavljen pod licencom Stability Non-Commercial Research Community License, što ga čini besplatnim za nekomercijalne svrhe kao što su akademsko istraživanje i osobni projekti. Komercijalne licence dostupne su putem Stability AI za profesionalne umjetnike, dizajnere i tvrtke.
Stable Diffusion 3: Veličine i varijante
Javno objavljeno i dostupno za preuzimanje:
- SD3 Medium – model s 2 milijarde parametara, dostupan za preuzimanje na: https://huggingface.co/stabilityai/stable-diffusion-3-medium
Dostupno samo putem Stability AI API-ja
- SD3 Large – model s 8 milijardi parametara
- SD3 Large Turbo – model s 8 milijardi parametara s bržim vremenom zaključivanja
Budućnost generiranja slika pomoću umjetne inteligencije
Stable Diffusion 3 nije samo tehnološki proboj; to je uvid u budućnost kreativnosti. Sa svojim naprednim mogućnostima i dizajnom prilagođenim korisniku, ovaj model ima potencijal revolucionirati način na koji stvaramo i stupamo u interakciju s vizualnim sadržajem. Od profesionalnih umjetnika koji pomiču granice svoje umjetnosti do pojedinaca koji oživljavaju svoje najluđe maštarije, Stable Diffusion 3 spreman je demokratizirati i redefinirati krajolik generiranja slika.
Resursi
- Spremište Stable Diffusion 3 Medium: https://huggingface.co/stabilityai/stable-diffusion-3-medium
- Istraživački rad: https://arxiv.org/pdf/2403.03206