Stable Diffusion 3:AI 圖像生成的重大躍進

分類: AI/MLArtNews 標籤:
Save and Share:

Stability AI 發布了最新的文字生成圖像 AI 模型 Stable Diffusion 3,標誌著生成式 AI 領域快速發展的重大進展。這款新模型在圖像品質、文字渲染以及理解複雜提示詞的能力方面都有顯著提升,同時也更具備資源效率。

Stable Diffusion 3 不僅僅是漸進式的升級。它導入了一種突破性的架構,稱為 多模態擴散轉換器(Multimodal Diffusion Transformer, MMDiT),代表著 AI 如何從文字處理和生成圖像的典範轉移。

Stable Diffusion 3 的新功能?

  • 提升的圖像品質: Stable Diffusion 3 生成的圖像在視覺上更具吸引力且更逼真,足以媲美專業藝術家創作的品質。
  • 卓越的排版: 最引人注目的改進之一是該模型能夠在圖像中生成清晰易讀的文字,這對於先前的 AI 模型來說是一項出了名的困難任務。
  • 更深入的提示詞理解: 使用者現在可以設計高度精確且細緻的提示詞,而 Stable Diffusion 3 會準確地將他們的願景轉化為令人驚豔的視覺效果。
  • 資源效率: 儘管具備更強大的功能,Stable Diffusion 3 的設計更有效率,所需的處理能力和記憶體更少,使其更容易被廣大受眾使用。

Stable Diffusion 3 的運作方式?

Stable Diffusion 3 背後的魔法在於其創新的 MMDiT 架構。這個新系統為圖像和語言數據採用了獨立的權重集,使 AI 能夠更好地理解和獨立處理文字和視覺資訊。這種關注點分離允許兩者之間更複雜的相互作用,從而產生不僅在視覺上令人驚豔,而且準確反映輸入文字的圖像。

Stable Diffusion 3:超越競爭對手

Stability AI 進行了廣泛的人工偏好評估,將 Stable Diffusion 3 與其他領先的文字生成圖像模型(如 DALL·E 3、Midjourney v6 和 Ideogram v1)進行比較。結果不言自明:在圖像品質、提示詞遵循度和排版方面,Stable Diffusion 3 的排名始終與競爭對手一樣好或更好。

Stable Diffusion 3:生成範例

未來的擴展性

Stability AI 還進行了全面的擴展研究,使用不同數量的參數訓練 Stable Diffusion 3 模型。結果顯示,隨著模型尺寸的增大,性能會出現明顯且持續的提升,這表明該技術的未來具有更大的潛力。

授權與可用性

Stable Diffusion 3 目前以 Stability 非商業研究社群授權發布,可免費用於學術研究和個人專案等非商業用途。商業授權可透過 Stability AI 提供給專業藝術家、設計師和企業。

Stable Diffusion 3:尺寸和版本

公開發布並可供下載:

僅透過 Stability AI API 提供

  • SD3 Large – 80 億參數模型
  • SD3 Large Turbo – 80 億參數模型,具有更快的推理時間

AI 圖像生成的未來

Stable Diffusion 3 不僅僅是一項技術突破,更是對未來創造力的一瞥。憑藉其先進的功能和使用者友好的設計,該模型有潛力徹底改變我們創建和互動視覺內容的方式。從突破自身技藝界限的專業藝術家,到將他們最狂野的想像變為現實的個人,Stable Diffusion 3 都將能夠普及和重新定義圖像生成的格局。

資源

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *