أطلقت Stability AI أحدث نماذجها للذكاء الاصطناعي لتحويل النصوص إلى صور، وهو Stable Diffusion 3، مما يمثل تطوراً كبيراً في المجال سريع التطور للذكاء الاصطناعي التوليدي. يتميز هذا النموذج الجديد بتحسينات رائعة في جودة الصورة، وعرض النصوص، والقدرة على فهم المطالبات المعقدة، مع كونه أكثر كفاءة في استخدام الموارد.
إن Stable Diffusion 3 ليس مجرد ترقية تدريجية. إنه يقدم بنية رائدة تسمى Multimodal Diffusion Transformer (MMDiT)، والتي تمثل نقلة نوعية في كيفية معالجة الذكاء الاصطناعي للصور وتوليدها من النصوص.
ما الجديد في Stable Diffusion 3؟
- جودة صورة محسنة: ينتج Stable Diffusion 3 صوراً أكثر جاذبية وواقعية من الناحية المرئية، تنافس جودة الصور التي يتم إنشاؤها بواسطة فنانين محترفين.
- طباعة فائقة: أحد أبرز التحسينات هو قدرة النموذج على إنشاء نص واضح ومقروء داخل الصور، وهي مهمة صعبة بشكل خاص لنماذج الذكاء الاصطناعي السابقة.
- فهم أعمق للمطالبات: يمكن للمستخدمين الآن صياغة مطالبات محددة ودقيقة للغاية، وسيقوم Stable Diffusion 3 بترجمة رؤيتهم بدقة إلى صور مذهلة.
- كفاءة في استخدام الموارد: على الرغم من قدراته المحسنة، فقد تم تصميم Stable Diffusion 3 ليكون أكثر كفاءة، ويتطلب طاقة معالجة وذاكرة أقل، مما يجعله أكثر سهولة للوصول إلى جمهور أوسع.
كيف يعمل Stable Diffusion 3؟
يكمن السحر وراء Stable Diffusion 3 في بنية MMDiT المبتكرة الخاصة به. يستخدم هذا النظام الجديد مجموعات منفصلة من الأوزان لبيانات الصور واللغة، مما يمكن الذكاء الاصطناعي من فهم ومعالجة كل من النص والمعلومات المرئية بشكل مستقل بشكل أفضل. يسمح هذا الفصل بين الاهتمامات بتفاعل أكثر تطوراً بين الاثنين، مما ينتج عنه صور ليست مذهلة بصرياً فحسب، بل تعكس أيضاً النص المدخل بدقة.
Stable Diffusion 3: التفوق على المنافسة

أجرت Stability AI تقييمات تفضيلية بشرية واسعة النطاق، حيث قارنت Stable Diffusion 3 بنماذج أخرى رائدة لتحويل النصوص إلى صور مثل DALL·E 3 و Midjourney v6 و Ideogram v1. النتائج تتحدث عن نفسها: يحتل Stable Diffusion 3 باستمرار مرتبة جيدة مثل المنافسة أو أفضل منها في جودة الصورة والالتزام بالمطالبات والطباعة.
Stable Diffusion 3: أمثلة على الإنشاء




توسيع النطاق للمستقبل
أجرت Stability AI أيضاً دراسات موسعة شاملة، وقامت بتدريب نماذج Stable Diffusion 3 بأعداد متفاوتة من المعلمات. تظهر النتائج تحسناً واضحاً ومتسقاً في الأداء مع أحجام النماذج الأكبر، مما يشير إلى إمكانات أكبر في مستقبل هذه التكنولوجيا.
الترخيص والتوافر
تم إصدار Stable Diffusion 3 حالياً بموجب ترخيص Stability Non-Commercial Research Community License، مما يجعله مجانياً للاستخدامات غير التجارية مثل البحث الأكاديمي والمشاريع الشخصية. تتوفر التراخيص التجارية من خلال Stability AI للفنانين والمصممين والشركات المحترفين.
Stable Diffusion 3: الأحجام والنكهات
تم إصداره علناً ومتاح للتنزيل:
- SD3 Medium – نموذج المعلمات 2 مليار، متاح للتنزيل على https://huggingface.co/stabilityai/stable-diffusion-3-medium
متاح فقط عبر Stability AI API
- SD3 Large – نموذج المعلمات 8 مليار
- SD3 Large Turbo – نموذج المعلمات 8 مليار مع وقت استدلال أسرع
مستقبل توليد الصور بالذكاء الاصطناعي
إن Stable Diffusion 3 ليس مجرد اختراق تكنولوجي؛ إنه لمحة عن مستقبل الإبداع. بفضل قدراته المتقدمة وتصميمه سهل الاستخدام، يتمتع هذا النموذج بالقدرة على إحداث ثورة في الطريقة التي ننشئ بها المحتوى المرئي ونتفاعل معه. من الفنانين المحترفين الذين يدفعون حدود حرفتهم إلى الأفراد الذين يجلبون أعنف تخيلاتهم إلى الحياة، فإن Stable Diffusion 3 مهيأ لإضفاء الطابع الديمقراطي على مشهد إنشاء الصور وإعادة تعريفه.
المصادر
- مستودع Stable Diffusion 3 Medium: https://huggingface.co/stabilityai/stable-diffusion-3-medium
- ورقة بحثية: https://arxiv.org/pdf/2403.03206