Stability AI telah merilis model AI text-to-image terbarunya, Stable Diffusion 3, menandai kemajuan signifikan dalam bidang AI generatif yang berkembang pesat. Model baru ini menawarkan peningkatan yang mengesankan dalam kualitas gambar, rendering teks, dan kemampuan untuk memahami perintah kompleks, sambil lebih efisien dalam penggunaan sumber daya.
Stable Diffusion 3 bukan sekadar peningkatan bertahap. Ia memperkenalkan arsitektur inovatif bernama Multimodal Diffusion Transformer (MMDiT), yang mewakili perubahan paradigma dalam cara AI memproses dan menghasilkan gambar dari teks.
Apa yang Baru di Stable Diffusion 3?
- Kualitas Gambar yang Ditingkatkan: Stable Diffusion 3 menghasilkan gambar yang lebih menarik secara visual dan realistis, menyaingi kualitas gambar yang dibuat oleh seniman profesional.
- Tipografi Unggul: Salah satu peningkatan paling mencolok adalah kemampuan model untuk menghasilkan teks yang jelas dan mudah dibaca di dalam gambar, tugas yang sangat sulit bagi model AI sebelumnya.
- Pemahaman Perintah yang Lebih Mendalam: Pengguna kini dapat membuat perintah yang sangat spesifik dan bernuansa, dan Stable Diffusion 3 akan secara akurat menerjemahkan visi mereka ke dalam visual yang menakjubkan.
- Efisiensi Sumber Daya: Terlepas dari kemampuannya yang ditingkatkan, Stable Diffusion 3 dirancang agar lebih efisien, membutuhkan lebih sedikit daya pemrosesan dan memori, sehingga lebih mudah diakses oleh audiens yang lebih luas.
Bagaimana Cara Kerja Stable Diffusion 3?
Keajaiban di balik Stable Diffusion 3 terletak pada arsitektur MMDiT yang inovatif. Sistem baru ini menggunakan set bobot terpisah untuk data gambar dan bahasa, memungkinkan AI untuk lebih memahami dan memproses informasi teks dan visual secara independen. Pemisahan tugas ini memungkinkan interaksi yang lebih canggih antara keduanya, menghasilkan gambar yang tidak hanya memukau secara visual tetapi juga secara akurat mencerminkan teks masukan.
Stable Diffusion 3: Mengungguli Kompetisi

Stability AI telah melakukan evaluasi preferensi manusia yang ekstensif, membandingkan Stable Diffusion 3 dengan model text-to-image terkemuka lainnya seperti DALL·E 3, Midjourney v6, dan Ideogram v1. Hasilnya berbicara sendiri: Stable Diffusion 3 secara konsisten menempati peringkat sama baiknya atau lebih baik daripada pesaing dalam kualitas gambar, kepatuhan pada perintah, dan tipografi.
Stable Diffusion 3: Contoh Generasi




Penskalaan untuk Masa Depan
Stability AI juga telah melakukan studi penskalaan menyeluruh, melatih model Stable Diffusion 3 dengan berbagai jumlah parameter. Hasilnya menunjukkan peningkatan kinerja yang jelas dan konsisten dengan ukuran model yang lebih besar, menunjukkan potensi yang lebih besar untuk masa depan teknologi ini.
Lisensi dan Ketersediaan
Stable Diffusion 3 saat ini dirilis di bawah Lisensi Komunitas Riset Non-Komersial Stability, sehingga gratis untuk penggunaan non-komersial seperti penelitian akademis dan proyek pribadi. Lisensi komersial tersedia melalui Stability AI untuk seniman profesional, desainer, dan bisnis.
Stable Diffusion 3: Ukuran dan Jenis
Dirilis secara publik dan tersedia untuk diunduh:
- SD3 Medium – model 2 miliar parameter, tersedia untuk diunduh di https://huggingface.co/stabilityai/stable-diffusion-3-medium
Hanya tersedia melalui Stability AI API
- SD3 Large – model 8 miliar parameter
- SD3 Large Turbo – model 8 miliar parameter dengan waktu inferensi yang lebih cepat
Masa Depan Generasi Gambar AI
Stable Diffusion 3 bukan hanya terobosan teknologi; ini adalah sekilas tentang masa depan kreativitas. Dengan kemampuan canggih dan desain yang mudah digunakan, model ini berpotensi merevolusi cara kita membuat dan berinteraksi dengan konten visual. Mulai dari seniman profesional yang mendorong batas-batas keahlian mereka hingga individu yang mewujudkan imajinasi terliar mereka, Stable Diffusion 3 siap untuk mendemokratisasi dan mendefinisikan ulang lanskap pembuatan gambar.
Sumber Daya
- Repositori Stable Diffusion 3 Medium: https://huggingface.co/stabilityai/stable-diffusion-3-medium
- Makalah penelitian: https://arxiv.org/pdf/2403.03206