Stability AIが最新のテキストから画像を生成するAIモデル、Stable Diffusion 3を発表しました。これは急速に進化する生成AIの分野において、大きな進歩となります。この新しいモデルは、画像品質、テキストレンダリング、複雑なプロンプトの理解において目覚ましい改善を誇り、しかもリソース効率も向上しています。
Stable Diffusion 3は単なる段階的なアップグレードではありません。Multimodal Diffusion Transformer (MMDiT)と呼ばれる画期的なアーキテクチャを導入し、AIがテキストから画像を処理し生成する方法にパラダイムシフトをもたらしています。
Stable Diffusion 3の新機能
- 強化された画像品質:Stable Diffusion 3は、プロのアーティストが作成した画像に匹敵する、視覚的に魅力的でリアルな画像を生成します。
- 優れたタイポグラフィ:最も顕著な改善点の1つは、画像内で明確で読みやすいテキストを生成するモデルの能力です。これは、以前のAIモデルでは非常に困難なタスクでした。
- より深いプロンプト理解:ユーザーは、非常に具体的でニュアンスのあるプロンプトを作成できるようになり、Stable Diffusion 3は彼らのビジョンを見事なビジュアルに正確に変換します。
- リソース効率:機能が強化されているにもかかわらず、Stable Diffusion 3はより効率的に設計されており、処理能力とメモリの消費量が削減され、より幅広いユーザーがアクセスできるようになります。
Stable Diffusion 3の仕組み
Stable Diffusion 3の背後にある魔法は、革新的なMMDiTアーキテクチャにあります。この新しいシステムは、画像データと言語データに別々の重みセットを使用しており、AIがテキストと視覚情報の両方をより良く理解し、個別に処理できるようにします。この懸念事項の分離により、両者間のより洗練された相互作用が可能になり、視覚的に美しいだけでなく、入力テキストを正確に反映する画像が生成されます。
Stable Diffusion 3:競合を凌駕する性能

Stability AIは、Stable Diffusion 3をDALL·E 3、Midjourney v6、Ideogram v1などの他の主要なテキストから画像へのモデルと比較する広範な人間の好みによる評価を実施しました。その結果は一目瞭然です。Stable Diffusion 3は、画像品質、プロンプトの遵守、およびタイポグラフィにおいて、競合製品と同等かそれ以上の評価を常に得ています。
Stable Diffusion 3:生成例




将来への拡張性
Stability AIはまた、さまざまな数のパラメータを持つStable Diffusion 3モデルをトレーニングする徹底的なスケーリング調査を実施しました。その結果、モデルサイズが大きいほどパフォーマンスが明確かつ一貫して向上することが示されており、このテクノロジーの将来にはさらに大きな可能性があることが示唆されています。
ライセンスと可用性
Stable Diffusion 3は現在、Stability Non-Commercial Research Community Licenseに基づいてリリースされており、学術研究や個人プロジェクトなどの非商用利用は無料です。商用ライセンスは、プロのアーティスト、デザイナー、および企業向けにStability AIを通じて入手できます。
Stable Diffusion 3:サイズと種類
一般公開され、ダウンロード可能:
- SD3 Medium – 20億パラメータモデル。次の場所からダウンロードできます:https://huggingface.co/stabilityai/stable-diffusion-3-medium
Stability AI API経由でのみ利用可能
- SD3 Large – 80億パラメータモデル
- SD3 Large Turbo – 推論時間が高速化された80億パラメータモデル
AI画像生成の未来
Stable Diffusion 3は単なる技術的な躍進ではありません。それは創造性の未来を垣間見せるものです。高度な機能とユーザーフレンドリーなデザインにより、このモデルはビジュアルコンテンツの作成方法と対話方法に革命をもたらす可能性を秘めています。プロのアーティストが自分の技術の限界を押し広げることから、個人が自分の最も奇抜な想像力を実現することまで、Stable Diffusion 3は画像生成の状況を民主化し、再定義する態勢を整えています。
リソース
- Stable Diffusion 3 Mediumリポジトリ:https://huggingface.co/stabilityai/stable-diffusion-3-medium
- 研究論文:https://arxiv.org/pdf/2403.03206