Spoločnosť Stability AI vydala svoj najnovší model AI na generovanie obrázkov z textu, Stable Diffusion 3, čo predstavuje významný pokrok v rýchlo sa rozvíjajúcej oblasti generatívnej AI. Tento nový model sa môže pochváliť pôsobivým zlepšením kvality obrazu, vykresľovania textu a schopnosti porozumieť komplexným podnetom, a to všetko pri efektívnejšom využívaní zdrojov.
Stable Diffusion 3 nie je len prírastková aktualizácia. Predstavuje prelomovú architektúru s názvom Multimodal Diffusion Transformer (MMDiT), ktorá predstavuje zmenu paradigmy v spôsobe, akým AI spracováva a generuje obrázky z textu.
Čo je nové v Stable Diffusion 3?
- Vylepšená kvalita obrazu: Stable Diffusion 3 vytvára vizuálne príťažlivejšie a realistickejšie obrázky, ktoré konkurujú kvalite tých, ktoré vytvorili profesionálni umelci.
- Vynikajúca typografia: Jedným z najvýraznejších vylepšení je schopnosť modelu generovať jasný, čitateľný text v obrázkoch, čo bola pre predchádzajúce modely AI notoricky náročná úloha.
- Hlbšie porozumenie podnetom: Používatelia teraz môžu vytvárať vysoko špecifické a nuansované podnety a Stable Diffusion 3 presne prenesie ich víziu do úžasných vizuálov.
- Efektívnosť zdrojov: Napriek svojim vylepšeným možnostiam je Stable Diffusion 3 navrhnutý tak, aby bol efektívnejší, vyžadoval menej výpočtového výkonu a pamäte, čím sa stáva prístupnejším pre širšie publikum.
Ako funguje Stable Diffusion 3?
Kúzlo Stable Diffusion 3 spočíva v jeho inovatívnej architektúre MMDiT. Tento nový systém využíva samostatné sady váh pre obrazové a jazykové dáta, čo umožňuje AI lepšie porozumieť a spracovávať textové aj vizuálne informácie nezávisle. Toto oddelenie záujmov umožňuje sofistikovanejšiu súhru medzi nimi, výsledkom čoho sú obrázky, ktoré sú nielen vizuálne ohromujúce, ale aj presne odrážajú vstupný text.
Stable Diffusion 3: Prekonáva konkurenciu

Spoločnosť Stability AI vykonala rozsiahle hodnotenia preferencií ľudí, v ktorých porovnávala Stable Diffusion 3 s ďalšími poprednými modelmi na generovanie obrázkov z textu, ako sú DALL·E 3, Midjourney v6 a Ideogram v1. Výsledky hovoria samy za seba: Stable Diffusion 3 sa trvalo umiestňuje rovnako dobre alebo lepšie ako konkurencia v kvalite obrazu, dodržiavaní podnetov a typografii.
Stable Diffusion 3: Príklady generovania




Škálovanie pre budúcnosť
Spoločnosť Stability AI tiež vykonala dôkladné štúdie škálovania, pričom trénovala modely Stable Diffusion 3 s rôznym počtom parametrov. Výsledky ukazujú jasné a konzistentné zlepšenie výkonu s väčšími veľkosťami modelov, čo naznačuje ešte väčší potenciál pre budúcnosť tejto technológie.
Licencovanie a dostupnosť
Stable Diffusion 3 je v súčasnosti vydávaný pod licenciou Stability Non-Commercial Research Community License, vďaka čomu je bezplatný na nekomerčné použitie, ako je akademický výskum a osobné projekty. Komerčné licencie sú k dispozícii prostredníctvom Stability AI pre profesionálnych umelcov, dizajnérov a podniky.
Stable Diffusion 3: Veľkosti a varianty
Zverejnené a dostupné na stiahnutie:
- SD3 Medium – model s 2 miliardami parametrov, ktorý je k dispozícii na stiahnutie na https://huggingface.co/stabilityai/stable-diffusion-3-medium
K dispozícii len prostredníctvom Stability AI API
- SD3 Large – model s 8 miliardami parametrov
- SD3 Large Turbo – model s 8 miliardami parametrov s rýchlejším časom inferencie
Budúcnosť generovania obrázkov pomocou AI
Stable Diffusion 3 nie je len technologický prelom; je to pohľad do budúcnosti kreativity. Vďaka svojim pokročilým možnostiam a užívateľsky prívetivému dizajnu má tento model potenciál spôsobiť revolúciu v spôsobe, akým vytvárame vizuálny obsah a interagujeme s ním. Od profesionálnych umelcov, ktorí posúvajú hranice svojho remesla, až po jednotlivcov, ktorí oživujú svoje najdivokejšie predstavy, Stable Diffusion 3 je pripravený demokratizovať a predefinovať oblasť generovania obrázkov.
Zdroje
- Úložisko Stable Diffusion 3 Medium: https://huggingface.co/stabilityai/stable-diffusion-3-medium
- Výskumná práca: https://arxiv.org/pdf/2403.03206