استیبل اِیآی (Stability AI) جدیدترین مدل هوش مصنوعی خود را برای تولید تصویر از متن، با نام استیبل دیفیوژن 3، منتشر کرده است که نشاندهندهی پیشرفتی چشمگیر در عرصهی به سرعت در حال تکامل هوش مصنوعی مولد است. این مدل جدید از بهبودهای چشمگیری در کیفیت تصویر، رندر متن و توانایی درک دستورات پیچیده برخوردار است و در عین حال، از نظر مصرف منابع نیز کارآمدتر است.
استیبل دیفیوژن 3 صرفاً یک ارتقاء تدریجی نیست. این مدل، معماری نوآورانهای به نام Multimodal Diffusion Transformer (MMDiT) را معرفی میکند که نمایانگر تغییری اساسی در نحوهی پردازش و تولید تصاویر از متن توسط هوش مصنوعی است.
چه چیزهایی در استیبل دیفیوژن 3 جدید است؟
- کیفیت تصویر بهبود یافته: استیبل دیفیوژن 3 تصاویری تولید میکند که از نظر بصری جذابتر و واقعیتر هستند و با کیفیت آثار هنرمندان حرفهای رقابت میکنند.
- تایپوگرافی برتر: یکی از بارزترین پیشرفتها، توانایی مدل در تولید متن واضح و خوانا در تصاویر است، که وظیفهای بهشدت دشوار برای مدلهای هوش مصنوعی قبلی بود.
- درک عمیقتر دستورات: اکنون کاربران میتوانند دستورات بسیار دقیق و ظریفی را ایجاد کنند و استیبل دیفیوژن 3 دیدگاه آنها را به طور دقیق به تصاویر خیرهکننده تبدیل میکند.
- بهرهوری منابع: با وجود قابلیتهای پیشرفته، استیبل دیفیوژن 3 به گونهای طراحی شده است که کارآمدتر باشد و به قدرت پردازش و حافظهی کمتری نیاز داشته باشد، که آن را برای مخاطبان گستردهتری در دسترس قرار میدهد.
استیبل دیفیوژن 3 چگونه کار میکند؟
جادوی استیبل دیفیوژن 3 در معماری نوآورانه MMDiT آن نهفته است. این سیستم جدید از مجموعههای جداگانهای از وزنها برای دادههای تصویر و زبان استفاده میکند و هوش مصنوعی را قادر میسازد تا اطلاعات متنی و بصری را به طور مستقل بهتر درک و پردازش کند. این جداسازی دغدغهها، امکان تعامل پیچیدهتری بین این دو را فراهم میکند و منجر به تصاویری میشود که نه تنها از نظر بصری خیرهکننده هستند، بلکه به طور دقیق متن ورودی را منعکس میکنند.
استیبل دیفیوژن 3: عملکرد بهتر از رقبا

استیبل اِیآی ارزیابیهای گستردهای را بر اساس ترجیحات انسانی انجام داده است و استیبل دیفیوژن 3 را در برابر سایر مدلهای برجسته تولید تصویر از متن مانند DALL·E 3، Midjourney v6 و Ideogram v1 قرار داده است. نتایج گویای همه چیز هستند: استیبل دیفیوژن 3 به طور مداوم در کیفیت تصویر، تبعیت از دستور و تایپوگرافی، به اندازهی رقبای خود خوب یا بهتر از آنها رتبهبندی میشود.
نمونههای تولید شده توسط استیبل دیفیوژن 3




مقیاسپذیری برای آینده
استیبل اِیآی همچنین مطالعات مقیاسبندی دقیقی را انجام داده است و مدلهای استیبل دیفیوژن 3 را با تعداد پارامترهای مختلف آموزش داده است. نتایج نشاندهندهی بهبود واضح و مداوم در عملکرد با اندازههای بزرگتر مدل است که نشاندهندهی پتانسیل حتی بیشتر برای آیندهی این فناوری است.
مجوز و دسترسی
استیبل دیفیوژن 3 در حال حاضر تحت مجوز انجمن تحقیقات غیرتجاری استیبل منتشر شده است، که استفاده از آن را برای اهداف غیرتجاری مانند تحقیقات دانشگاهی و پروژههای شخصی رایگان میکند. مجوزهای تجاری از طریق استیبل اِیآی برای هنرمندان، طراحان و مشاغل حرفهای در دسترس است.
استیبل دیفیوژن 3: اندازهها و طعمها
به طور عمومی منتشر شده و برای دانلود در دسترس است:
- SD3 Medium – مدل 2 میلیارد پارامتری، برای دانلود در آدرس https://huggingface.co/stabilityai/stable-diffusion-3-medium در دسترس است.
فقط از طریق API استیبل اِیآی در دسترس است
- SD3 Large – مدل 8 میلیارد پارامتری
- SD3 Large Turbo – مدل 8 میلیارد پارامتری با زمان استنتاج سریعتر
آیندهی تولید تصویر با هوش مصنوعی
استیبل دیفیوژن 3 فقط یک پیشرفت تکنولوژیکی نیست. این مدل، نگاهی اجمالی به آیندهی خلاقیت است. با قابلیتهای پیشرفته و طراحی کاربرپسند، این مدل این پتانسیل را دارد که نحوهی ایجاد و تعامل ما با محتوای بصری را متحول کند. از هنرمندان حرفهای که مرزهای هنر خود را جابجا میکنند تا افرادی که وحشیانهترین تخیلات خود را زنده میکنند، استیبل دیفیوژن 3 آماده است تا چشمانداز تولید تصویر را دموکراتیزه و بازتعریف کند.
منابع
- مخزن استیبل دیفیوژن 3 مدیوم: https://huggingface.co/stabilityai/stable-diffusion-3-medium
- مقاله تحقیقاتی: https://arxiv.org/pdf/2403.03206