Firma Stability AI udostępniła swój najnowszy model AI do generowania obrazów z tekstu, Stable Diffusion 3, który stanowi znaczący postęp w dynamicznie rozwijającej się dziedzinie generatywnej AI. Nowy model charakteryzuje się imponującą poprawą jakości obrazu, renderowania tekstu i zdolnością do rozumienia złożonych zapytań, a wszystko to przy większej efektywności zasobów.
Stable Diffusion 3 to coś więcej niż tylko stopniowa aktualizacja. Wprowadza przełomową architekturę o nazwie Multimodal Diffusion Transformer (MMDiT), która reprezentuje zmianę paradygmatu w sposobie, w jaki AI przetwarza i generuje obrazy z tekstu.
Co nowego w Stable Diffusion 3?
- Ulepszona jakość obrazu: Stable Diffusion 3 generuje obrazy, które są bardziej atrakcyjne wizualnie i realistyczne, dorównując jakością tym tworzonym przez profesjonalnych artystów.
- Doskonała typografia: Jedną z najbardziej uderzających zmian jest zdolność modelu do generowania wyraźnego, czytelnego tekstu w obrazach, co było notorycznie trudnym zadaniem dla poprzednich modeli AI.
- Głębsze zrozumienie zapytań: Użytkownicy mogą teraz tworzyć bardzo szczegółowe i zniuansowane zapytania, a Stable Diffusion 3 dokładnie przetłumaczy ich wizję na oszałamiające efekty wizualne.
- Efektywność zasobów: Pomimo swoich ulepszonych możliwości, Stable Diffusion 3 został zaprojektowany tak, aby był bardziej wydajny, wymagając mniej mocy obliczeniowej i pamięci, co czyni go bardziej dostępnym dla szerszego grona odbiorców.
Jak działa Stable Diffusion 3?
Magia Stable Diffusion 3 tkwi w jego innowacyjnej architekturze MMDiT. Ten nowy system wykorzystuje oddzielne zestawy wag dla danych obrazu i języka, co pozwala AI lepiej rozumieć i przetwarzać zarówno tekst, jak i informacje wizualne niezależnie. To rozdzielenie zadań pozwala na bardziej wyrafinowaną interakcję między nimi, co skutkuje obrazami, które są nie tylko oszałamiające wizualnie, ale także dokładnie odzwierciedlają wprowadzony tekst.
Stable Diffusion 3: Przewyższanie konkurencji

Stability AI przeprowadziło obszerne oceny preferencji użytkowników, porównując Stable Diffusion 3 z innymi wiodącymi modelami do generowania obrazów z tekstu, takimi jak DALL·E 3, Midjourney v6 i Ideogram v1. Wyniki mówią same za siebie: Stable Diffusion 3 konsekwentnie plasuje się na poziomie co najmniej tak dobrym, jak konkurencja, pod względem jakości obrazu, zgodności z zapytaniem i typografii.
Stable Diffusion 3: Przykłady generowania




Skalowanie na przyszłość
Stability AI przeprowadziło również dokładne badania skalowania, trenując modele Stable Diffusion 3 z różną liczbą parametrów. Wyniki pokazują wyraźną i spójną poprawę wydajności wraz z większymi rozmiarami modeli, co sugeruje jeszcze większy potencjał na przyszłość tej technologii.
Licencjonowanie i dostępność
Stable Diffusion 3 jest obecnie udostępniany na licencji Stability Non-Commercial Research Community License, dzięki czemu jest bezpłatny do użytku niekomercyjnego, takiego jak badania akademickie i projekty osobiste. Licencje komercyjne są dostępne za pośrednictwem Stability AI dla profesjonalnych artystów, projektantów i firm.
Stable Diffusion 3: Rozmiary i wersje
Udostępniony publicznie i dostępny do pobrania:
- SD3 Medium – model z 2 miliardami parametrów, dostępny do pobrania na stronie https://huggingface.co/stabilityai/stable-diffusion-3-medium
Dostępny tylko przez Stability AI API
- SD3 Large – model z 8 miliardami parametrów
- SD3 Large Turbo – model z 8 miliardami parametrów z szybszym czasem wnioskowania
Przyszłość generowania obrazów przez AI
Stable Diffusion 3 to nie tylko przełom technologiczny; to wgląd w przyszłość kreatywności. Dzięki zaawansowanym możliwościom i przyjaznej dla użytkownika konstrukcji, model ten ma potencjał zrewolucjonizowania sposobu, w jaki tworzymy i wchodzimy w interakcje z treściami wizualnymi. Od profesjonalnych artystów przesuwających granice swojego rzemiosła po osoby urzeczywistniające swoje najśmielsze wyobrażenia, Stable Diffusion 3 ma szansę zdemokratyzować i na nowo zdefiniować krajobraz generowania obrazów.
Zasoby
- Repozytorium Stable Diffusion 3 Medium: https://huggingface.co/stabilityai/stable-diffusion-3-medium
- Artykuł naukowy: https://arxiv.org/pdf/2403.03206