„Stability AI“ išleido naujausią teksto pagrindu vaizdus generuojantį AI modelį „Stable Diffusion 3“, kuris žymi reikšmingą pažangą sparčiai besivystančioje generatyvaus AI srityje. Šis naujas modelis pasižymi įspūdingais vaizdo kokybės, teksto atvaizdavimo ir gebėjimo suprasti sudėtingas užklausas patobulinimais, be to, jis yra efektyvesnis išteklių atžvilgiu.
„Stable Diffusion 3“ yra ne tik nuoseklus atnaujinimas. Jame pristatoma novatoriška architektūra, vadinama „Multimodal Diffusion Transformer“ (MMDiT), kuri iš esmės keičia tai, kaip AI apdoroja ir generuoja vaizdus iš teksto.
Kas naujo „Stable Diffusion 3“?
- Patobulinta vaizdo kokybė: „Stable Diffusion 3“ sukuria vizualiai patrauklesnius ir tikroviškesnius vaizdus, kurie prilygsta profesionalių menininkų sukurtiems vaizdams.
- Puiki tipografija: Vienas ryškiausių patobulinimų – modelio gebėjimas generuoti aiškų, įskaitomą tekstą vaizduose, o tai ankstesniems AI modeliams buvo itin sudėtinga užduotis.
- Gilesnis užklausų supratimas: Vartotojai dabar gali kurti labai konkrečias ir niuansuotas užklausas, o „Stable Diffusion 3“ tiksliai pavers jų viziją stulbinančiais vaizdais.
- Efektyvus išteklių naudojimas: Nepaisant patobulintų galimybių, „Stable Diffusion 3“ sukurtas taip, kad būtų efektyvesnis, reikalautų mažiau apdorojimo galios ir atminties, todėl būtų prieinamesnis platesnei auditorijai.
Kaip veikia „Stable Diffusion 3“?
„Stable Diffusion 3“ magija slypi novatoriškoje MMDiT architektūroje. Ši nauja sistema naudoja atskirus svorių rinkinius vaizdo ir kalbos duomenims, todėl AI gali geriau suprasti ir apdoroti tiek tekstinę, tiek vaizdinę informaciją atskirai. Šis atskyrimas leidžia sudėtingiau sąveikauti tarp jų, todėl vaizdai ne tik vizualiai stulbinantys, bet ir tiksliai atspindi įvestą tekstą.
„Stable Diffusion 3“: pranašesnis už konkurentus

„Stability AI“ atliko išsamius žmonių preferencijų vertinimus, lygindama „Stable Diffusion 3“ su kitais pirmaujančiais teksto pagrindu vaizdus generuojančiais modeliais, tokiais kaip DALL·E 3, Midjourney v6 ir Ideogram v1. Rezultatai kalba patys už save: „Stable Diffusion 3“ nuolat vertinamas kaip toks pat geras arba geresnis už konkurentus vaizdo kokybės, užklausų laikymosi ir tipografijos atžvilgiu.
„Stable Diffusion 3“: generavimo pavyzdžiai




Mastelio keitimas ateičiai
„Stability AI“ taip pat atliko išsamius mastelio keitimo tyrimus, apmokydama „Stable Diffusion 3“ modelius su skirtingu parametrų skaičiumi. Rezultatai rodo aiškų ir nuoseklų našumo pagerėjimą su didesniais modelio dydžiais, o tai rodo dar didesnį šios technologijos potencialą ateityje.
Licencijavimas ir prieinamumas
Šiuo metu „Stable Diffusion 3“ išleistas pagal „Stability Non-Commercial Research Community License“ licenciją, todėl jį galima nemokamai naudoti nekomerciniais tikslais, pavyzdžiui, akademiniams tyrimams ir asmeniniams projektams. Komercines licencijas galima įsigyti per „Stability AI“ profesionaliems menininkams, dizaineriams ir įmonėms.
„Stable Diffusion 3“: dydžiai ir variantai
Viešai išleista ir prieinama atsisiųsti:
- SD3 Medium – 2 milijardų parametrų modelis, kurį galima atsisiųsti adresu https://huggingface.co/stabilityai/stable-diffusion-3-medium
Galima tik per „Stability AI API“
- SD3 Large – 8 milijardų parametrų modelis
- SD3 Large Turbo – 8 milijardų parametrų modelis su greitesniu išvadų gavimo laiku
AI vaizdų generavimo ateitis
„Stable Diffusion 3“ yra ne tik technologinis proveržis; tai žvilgsnis į kūrybiškumo ateitį. Dėl savo pažangių galimybių ir patogaus dizaino šis modelis gali iš esmės pakeisti tai, kaip kuriame ir sąveikaujame su vaizdiniu turiniu. Nuo profesionalių menininkų, perkeliančių savo amato ribas, iki asmenų, įgyvendinančių savo beprotiškiausias fantazijas, „Stable Diffusion 3“ yra pasirengęs demokratizuoti ir iš naujo apibrėžti vaizdų generavimo kraštovaizdį.
Šaltiniai
- „Stable Diffusion 3 Medium“ saugykla: https://huggingface.co/stabilityai/stable-diffusion-3-medium
- Mokslinis straipsnis: https://arxiv.org/pdf/2403.03206