Stability AI 發布了最新的文字生成圖像 AI 模型 Stable Diffusion 3,標誌著生成式 AI 領域快速發展的重大進展。這款新模型在圖像品質、文字渲染以及理解複雜提示詞的能力方面都有顯著提升,同時也更具備資源效率。
Stable Diffusion 3 不僅僅是漸進式的升級。它導入了一種突破性的架構,稱為 多模態擴散轉換器(Multimodal Diffusion Transformer, MMDiT),代表著 AI 如何從文字處理和生成圖像的典範轉移。
Stable Diffusion 3 的新功能?
- 提升的圖像品質: Stable Diffusion 3 生成的圖像在視覺上更具吸引力且更逼真,足以媲美專業藝術家創作的品質。
- 卓越的排版: 最引人注目的改進之一是該模型能夠在圖像中生成清晰易讀的文字,這對於先前的 AI 模型來說是一項出了名的困難任務。
- 更深入的提示詞理解: 使用者現在可以設計高度精確且細緻的提示詞,而 Stable Diffusion 3 會準確地將他們的願景轉化為令人驚豔的視覺效果。
- 資源效率: 儘管具備更強大的功能,Stable Diffusion 3 的設計更有效率,所需的處理能力和記憶體更少,使其更容易被廣大受眾使用。
Stable Diffusion 3 的運作方式?
Stable Diffusion 3 背後的魔法在於其創新的 MMDiT 架構。這個新系統為圖像和語言數據採用了獨立的權重集,使 AI 能夠更好地理解和獨立處理文字和視覺資訊。這種關注點分離允許兩者之間更複雜的相互作用,從而產生不僅在視覺上令人驚豔,而且準確反映輸入文字的圖像。
Stable Diffusion 3:超越競爭對手

Stability AI 進行了廣泛的人工偏好評估,將 Stable Diffusion 3 與其他領先的文字生成圖像模型(如 DALL·E 3、Midjourney v6 和 Ideogram v1)進行比較。結果不言自明:在圖像品質、提示詞遵循度和排版方面,Stable Diffusion 3 的排名始終與競爭對手一樣好或更好。
Stable Diffusion 3:生成範例




未來的擴展性
Stability AI 還進行了全面的擴展研究,使用不同數量的參數訓練 Stable Diffusion 3 模型。結果顯示,隨著模型尺寸的增大,性能會出現明顯且持續的提升,這表明該技術的未來具有更大的潛力。
授權與可用性
Stable Diffusion 3 目前以 Stability 非商業研究社群授權發布,可免費用於學術研究和個人專案等非商業用途。商業授權可透過 Stability AI 提供給專業藝術家、設計師和企業。
Stable Diffusion 3:尺寸和版本
公開發布並可供下載:
- SD3 Medium – 20 億參數模型,可從 https://huggingface.co/stabilityai/stable-diffusion-3-medium 下載
僅透過 Stability AI API 提供
- SD3 Large – 80 億參數模型
- SD3 Large Turbo – 80 億參數模型,具有更快的推理時間
AI 圖像生成的未來
Stable Diffusion 3 不僅僅是一項技術突破,更是對未來創造力的一瞥。憑藉其先進的功能和使用者友好的設計,該模型有潛力徹底改變我們創建和互動視覺內容的方式。從突破自身技藝界限的專業藝術家,到將他們最狂野的想像變為現實的個人,Stable Diffusion 3 都將能夠普及和重新定義圖像生成的格局。
資源
- Stable Diffusion 3 Medium 儲存庫:https://huggingface.co/stabilityai/stable-diffusion-3-medium
- 研究論文:https://arxiv.org/pdf/2403.03206