Компания Stability AI выпустила свою новейшую модель искусственного интеллекта для преобразования текста в изображение – Stable Diffusion 3, что ознаменовало значительный прогресс в быстро развивающейся области генеративного ИИ. Новая модель может похвастаться впечатляющими улучшениями в качестве изображений, рендеринге текста и способности понимать сложные запросы, и при этом она более эффективна с точки зрения использования ресурсов.
Stable Diffusion 3 – это не просто постепенное обновление. В ней представлена революционная архитектура под названием Multimodal Diffusion Transformer (MMDiT), представляющая собой сдвиг парадигмы в том, как ИИ обрабатывает и генерирует изображения из текста.
Что нового в Stable Diffusion 3?
- Улучшенное качество изображения: Stable Diffusion 3 создает изображения, которые более визуально привлекательны и реалистичны, соперничая по качеству с работами профессиональных художников.
- Превосходная типографика: Одним из самых ярких улучшений является способность модели генерировать четкий, разборчивый текст в изображениях, что было заведомо сложной задачей для предыдущих моделей ИИ.
- Более глубокое понимание запросов: Теперь пользователи могут создавать очень специфические и детализированные запросы, и Stable Diffusion 3 точно преобразует их видение в потрясающие визуальные образы.
- Эффективность использования ресурсов: Несмотря на расширенные возможности, Stable Diffusion 3 разработана так, чтобы быть более эффективной, требуя меньше вычислительной мощности и памяти, что делает ее более доступной для широкой аудитории.
Как работает Stable Diffusion 3?
Магия Stable Diffusion 3 заключается в ее инновационной архитектуре MMDiT. Эта новая система использует отдельные наборы весов для данных изображений и языка, что позволяет ИИ лучше понимать и обрабатывать как текст, так и визуальную информацию независимо друг от друга. Такое разделение задач обеспечивает более сложное взаимодействие между ними, в результате чего получаются изображения, которые не только визуально потрясающие, но и точно отражают введенный текст.
Stable Diffusion 3: Превосходит конкурентов

Компания Stability AI провела масштабные оценки предпочтений пользователей, сравнивая Stable Diffusion 3 с другими ведущими моделями преобразования текста в изображение, такими как DALL·E 3, Midjourney v6 и Ideogram v1. Результаты говорят сами за себя: Stable Diffusion 3 неизменно оценивается как минимум наравне с конкурентами, а то и лучше их по качеству изображения, соответствию запросам и типографике.
Примеры генерации Stable Diffusion 3




Масштабирование для будущего
Компания Stability AI также провела тщательные исследования масштабирования, обучая модели Stable Diffusion 3 с различным количеством параметров. Результаты показывают четкое и последовательное улучшение производительности с увеличением размеров модели, что указывает на еще больший потенциал для будущего этой технологии.
Лицензирование и доступность
Stable Diffusion 3 в настоящее время выпущена под лицензией Stability Non-Commercial Research Community License, что делает ее бесплатной для некоммерческого использования, такого как академические исследования и личные проекты. Коммерческие лицензии доступны через Stability AI для профессиональных художников, дизайнеров и предприятий.
Stable Diffusion 3: Размеры и варианты
Выпущено в открытый доступ и доступно для скачивания:
- SD3 Medium – модель с 2 миллиардами параметров, доступная для скачивания по адресу https://huggingface.co/stabilityai/stable-diffusion-3-medium
Доступно только через Stability AI API
- SD3 Large – модель с 8 миллиардами параметров
- SD3 Large Turbo – модель с 8 миллиардами параметров и более быстрым временем вывода
Будущее создания изображений с помощью ИИ
Stable Diffusion 3 – это не просто технологический прорыв, это взгляд в будущее творчества. Благодаря своим расширенным возможностям и удобному дизайну эта модель имеет потенциал революционизировать то, как мы создаем визуальный контент и взаимодействуем с ним. От профессиональных художников, расширяющих границы своего мастерства, до людей, воплощающих в жизнь свои самые смелые фантазии, Stable Diffusion 3 готова демократизировать и переосмыслить ландшафт генерации изображений.
Ресурсы
- Репозиторий Stable Diffusion 3 Medium: https://huggingface.co/stabilityai/stable-diffusion-3-medium
- Научная статья: https://arxiv.org/pdf/2403.03206