חברת Stability AI השיקה את מודל הבינה המלאכותית החדש שלה ליצירת תמונות מטקסט, Stable Diffusion 3, המהווה התקדמות משמעותית בתחום המתפתח במהירות של בינה מלאכותית יוצרת. המודל החדש מתגאה בשיפורים מרשימים באיכות התמונה, בעיבוד טקסט וביכולת להבין הנחיות מורכבות, וכל זאת תוך שהוא יעיל יותר מבחינת משאבים.
Stable Diffusion 3 הוא לא רק שדרוג מצטבר. הוא מציג ארכיטקטורה פורצת דרך בשם Multimodal Diffusion Transformer (MMDiT), המייצגת שינוי פרדיגמה באופן שבו הבינה המלאכותית מעבדת ומייצרת תמונות מטקסט.
מה חדש ב-Stable Diffusion 3?
- איכות תמונה משופרת: Stable Diffusion 3 מייצר תמונות מושכות ויזואלית ומציאותיות יותר, המתחרות באיכות של תמונות שנוצרו על ידי אמנים מקצועיים.
- טיפוגרפיה מעולה: אחד השיפורים הבולטים ביותר הוא היכולת של המודל ליצור טקסט ברור וקריא בתוך תמונות, משימה שהייתה קשה במיוחד עבור מודלים קודמים של בינה מלאכותית.
- הבנה מעמיקה יותר של הנחיות: משתמשים יכולים כעת ליצור הנחיות מפורטות ומדויקות, ו-Stable Diffusion 3 יתרגם את החזון שלהם לחזותיות מדהימה.
- יעילות משאבים: למרות היכולות המשופרות שלו, Stable Diffusion 3 תוכנן להיות יעיל יותר, לדרוש פחות כוח עיבוד וזיכרון, מה שהופך אותו לנגיש יותר לקהל רחב יותר.
איך Stable Diffusion 3 עובד?
הקסם מאחורי Stable Diffusion 3 טמון בארכיטקטורת ה-MMDiT החדשנית שלו. מערכת חדשה זו משתמשת בסטים נפרדים של משקלים עבור נתוני תמונה ושפה, מה שמאפשר לבינה המלאכותית להבין ולעבד טוב יותר הן טקסט והן מידע חזותי באופן עצמאי. הפרדה זו של תחומים מאפשרת משחק גומלין מתוחכם יותר בין השניים, וכתוצאה מכך תמונות שהן לא רק מדהימות מבחינה ויזואלית אלא גם משקפות במדויק את טקסט הקלט.
Stable Diffusion 3: ביצועים טובים יותר מהמתחרים

Stability AI ערכה הערכות העדפה אנושית מקיפות, והשוותה את Stable Diffusion 3 למודלים מובילים אחרים ליצירת תמונות מטקסט כמו DALL·E 3, Midjourney v6 ו-Ideogram v1. התוצאות מדברות בעד עצמן: Stable Diffusion 3 מדורג באופן עקבי כטוב או טוב יותר מהמתחרים באיכות התמונה, בהיענות להנחיות ובטיפוגרפיה.
Stable Diffusion 3: דוגמאות ליצירה




התאמה לעתיד
Stability AI ערכה גם מחקרי התאמה יסודיים, והכשירה מודלים של Stable Diffusion 3 עם מספרים שונים של פרמטרים. התוצאות מראות שיפור ברור ועקבי בביצועים עם גדלים גדולים יותר של מודלים, מה שמצביע על פוטנציאל גדול עוד יותר לעתיד הטכנולוגיה הזו.
רישוי וזמינות
Stable Diffusion 3 משוחרר כעת תחת רישיון קהילת המחקר הלא מסחרי של Stability, מה שהופך אותו לחופשי לשימושים לא מסחריים כמו מחקר אקדמי ופרויקטים אישיים. רישיונות מסחריים זמינים דרך Stability AI עבור אמנים מקצועיים, מעצבים ועסקים.
Stable Diffusion 3: גדלים וסוגים
שוחרר לציבור וזמין להורדה:
- SD3 Medium – מודל 2 מיליארד הפרמטרים, זמין להורדה בכתובת https://huggingface.co/stabilityai/stable-diffusion-3-medium
זמין רק דרך Stability AI API
- SD3 Large – מודל 8 מיליארד הפרמטרים
- SD3 Large Turbo – מודל 8 מיליארד הפרמטרים עם זמן הסקה מהיר יותר
העתיד של יצירת תמונות באמצעות בינה מלאכותית
Stable Diffusion 3 הוא לא רק פריצת דרך טכנולוגית; זוהי הצצה לעתיד היצירתיות. עם היכולות המתקדמות והעיצוב הידידותי למשתמש שלו, למודל הזה יש פוטנציאל לחולל מהפכה באופן שבו אנו יוצרים ומתקשרים עם תוכן חזותי. מאמנים מקצועיים שדוחפים את גבולות האומנות שלהם ועד לאנשים פרטיים שמגשימים את הדמיונות הפרועים ביותר שלהם, Stable Diffusion 3 עתיד להפוך את תחום יצירת התמונות לדמוקרטי ולהגדיר אותו מחדש.
מקורות
- מאגר Stable Diffusion 3 Medium: https://huggingface.co/stabilityai/stable-diffusion-3-medium
- מאמר מחקר: https://arxiv.org/pdf/2403.03206