Stability AI je objavio svoj najnoviji model veštačke inteligencije za generisanje slika iz teksta, Stable Diffusion 3, što predstavlja značajan napredak u oblasti generativne veštačke inteligencije koja se rapidno razvija. Ovaj novi model se diči impresivnim poboljšanjima u kvalitetu slike, renderovanju teksta i sposobnosti razumevanja složenih upita, a uz sve to je i efikasniji u pogledu korišćenja resursa.
Stable Diffusion 3 nije samo inkrementalna nadogradnja. On uvodi revolucionarnu arhitekturu pod nazivom Multimodal Diffusion Transformer (MMDiT), koja predstavlja promenu paradigme u načinu na koji veštačka inteligencija obrađuje i generiše slike iz teksta.
Šta je novo u Stable Diffusion 3?
- Poboljšan kvalitet slike: Stable Diffusion 3 proizvodi slike koje su vizuelno privlačnije i realističnije, parirajući kvalitetu onih koje kreiraju profesionalni umetnici.
- Superiorna tipografija: Jedno od najupečatljivijih poboljšanja je sposobnost modela da generiše jasan, čitljiv tekst unutar slika, što je bio notorno težak zadatak za prethodne modele veštačke inteligencije.
- Dublje razumevanje upita: Korisnici sada mogu da kreiraju veoma specifične i nijansirane upite, a Stable Diffusion 3 će precizno prevesti njihovu viziju u zadivljujuće vizuale.
- Efikasnost resursa: Uprkos svojim poboljšanim mogućnostima, Stable Diffusion 3 je dizajniran da bude efikasniji, zahtevajući manje procesorske snage i memorije, što ga čini dostupnijim široj publici.
Kako funkcioniše Stable Diffusion 3?
Magija iza Stable Diffusion 3 leži u njegovoj inovativnoj MMDiT arhitekturi. Ovaj novi sistem koristi odvojene skupove težina za podatke o slici i jeziku, omogućavajući veštačkoj inteligenciji da bolje razume i obrađuje i tekstualne i vizuelne informacije nezavisno. Ovo razdvajanje nadležnosti omogućava sofisticiraniju interakciju između to dvoje, što rezultira slikama koje nisu samo vizuelno zapanjujuće, već i precizno odražavaju uneseni tekst.
Stable Diffusion 3: Nadmašuje konkurenciju

Stability AI je sproveo opsežne evaluacije ljudskih preferencija, suprotstavljajući Stable Diffusion 3 drugim vodećim modelima za generisanje slika iz teksta, kao što su DALL·E 3, Midjourney v6 i Ideogram v1. Rezultati govore sami za sebe: Stable Diffusion 3 dosledno se rangira kao dobar ili bolji od konkurencije u pogledu kvaliteta slike, poštovanja upita i tipografije.
Stable Diffusion 3: Primeri generisanja




Širenje za budućnost
Stability AI je takođe sproveo temeljne studije širenja, trenirajući modele Stable Diffusion 3 sa različitim brojem parametara. Rezultati pokazuju jasno i dosledno poboljšanje performansi sa većim veličinama modela, što sugeriše još veći potencijal za budućnost ove tehnologije.
Licenciranje i dostupnost
Stable Diffusion 3 je trenutno objavljen pod licencom Stability Non-Commercial Research Community License, što ga čini besplatnim za nekomercijalne upotrebe kao što su akademska istraživanja i lični projekti. Komercijalne licence su dostupne preko Stability AI za profesionalne umetnike, dizajnere i preduzeća.
Stable Diffusion 3: Veličine i varijante
Javno objavljen i dostupan za preuzimanje:
- SD3 Medium – model sa 2 milijarde parametara, dostupan za preuzimanje na: https://huggingface.co/stabilityai/stable-diffusion-3-medium
Dostupno samo preko Stability AI API-ja
- SD3 Large – model sa 8 milijardi parametara
- SD3 Large Turbo – model sa 8 milijardi parametara sa bržim vremenom zaključivanja
Budućnost generisanja slika pomoću veštačke inteligencije
Stable Diffusion 3 nije samo tehnološki proboj; to je pogled u budućnost kreativnosti. Sa svojim naprednim mogućnostima i dizajnom prilagođenim korisniku, ovaj model ima potencijal da revolucionizuje način na koji kreiramo i interagujemo sa vizuelnim sadržajem. Od profesionalnih umetnika koji pomeraju granice svog zanata do pojedinaca koji oživljavaju svoje najluđe maštarije, Stable Diffusion 3 je spreman da demokratizuje i redefiniše pejzaž generisanja slika.
Resursi
- Stable Diffusion 3 Medium repozitorijum: https://huggingface.co/stabilityai/stable-diffusion-3-medium
- Istraživački rad: https://arxiv.org/pdf/2403.03206