Stability AI ได้เปิดตัว Stable Diffusion 3 ซึ่งเป็นโมเดล AI สร้างภาพจากข้อความรุ่นล่าสุด ซึ่งถือเป็นความก้าวหน้าครั้งสำคัญในแวดวง Generative AI ที่กำลังเติบโตอย่างรวดเร็ว โมเดลใหม่นี้มาพร้อมกับการปรับปรุงที่น่าประทับใจในด้านคุณภาพของภาพ การแสดงผลข้อความ และความสามารถในการทำความเข้าใจ Prompt ที่ซับซ้อน ทั้งหมดนี้มาพร้อมกับประสิทธิภาพในการใช้ทรัพยากรที่ดียิ่งขึ้น
Stable Diffusion 3 ไม่ได้เป็นเพียงแค่การอัปเกรดเล็กน้อย แต่เป็นการนำเสนอสถาปัตยกรรมที่ปฏิวัติวงการที่เรียกว่า Multimodal Diffusion Transformer (MMDiT) ซึ่งแสดงถึงการเปลี่ยนแปลงกระบวนทัศน์ (Paradigm Shift) ในวิธีการที่ AI ประมวลผลและสร้างภาพจากข้อความ
มีอะไรใหม่ใน Stable Diffusion 3?
- คุณภาพของภาพที่ดียิ่งขึ้น: Stable Diffusion 3 สร้างภาพที่ดึงดูดสายตาและสมจริงยิ่งขึ้น เทียบได้กับคุณภาพของภาพที่สร้างสรรค์โดยศิลปินมืออาชีพ
- Typography ที่เหนือกว่า: หนึ่งในการปรับปรุงที่โดดเด่นที่สุดคือความสามารถของโมเดลในการสร้างข้อความที่ชัดเจนและอ่านง่ายภายในภาพ ซึ่งเป็นงานที่ยากมากสำหรับโมเดล AI รุ่นก่อนๆ
- ความเข้าใจ Prompt ที่ลึกซึ้งยิ่งขึ้น: ตอนนี้ผู้ใช้สามารถสร้าง Prompt ที่มีความเฉพาะเจาะจงและมีรายละเอียดปลีกย่อยสูงได้แล้ว และ Stable Diffusion 3 จะแปลวิสัยทัศน์ของพวกเขาให้เป็นภาพที่น่าทึ่งได้อย่างแม่นยำ
- ประสิทธิภาพด้านทรัพยากร: แม้จะมีขีดความสามารถที่เพิ่มขึ้น แต่ Stable Diffusion 3 ได้รับการออกแบบมาให้มีประสิทธิภาพมากขึ้น โดยใช้พลังประมวลผลและหน่วยความจำน้อยลง ทำให้ผู้คนจำนวนมากขึ้นสามารถเข้าถึงได้
Stable Diffusion 3 ทำงานอย่างไร?
เบื้องหลังความมหัศจรรย์ของ Stable Diffusion 3 คือสถาปัตยกรรม MMDiT ที่เป็นนวัตกรรมใหม่ ระบบใหม่นี้ใช้ชุดน้ำหนัก (Weight) ที่แยกจากกันสำหรับข้อมูลภาพและภาษา ทำให้ AI เข้าใจและประมวลผลทั้งข้อความและข้อมูลภาพได้อย่างอิสระ การแยกส่วนที่เกี่ยวข้องนี้ทำให้เกิดปฏิสัมพันธ์ที่ซับซ้อนยิ่งขึ้นระหว่างทั้งสอง ส่งผลให้ภาพที่ได้ไม่เพียงแต่สวยงามเท่านั้น แต่ยังสะท้อนถึงข้อความที่ป้อนเข้าไปอย่างแม่นยำอีกด้วย
Stable Diffusion 3: เหนือกว่าคู่แข่ง

Stability AI ได้ทำการประเมินความพึงพอใจของมนุษย์อย่างกว้างขวาง โดยเปรียบเทียบ Stable Diffusion 3 กับโมเดลสร้างภาพจากข้อความชั้นนำอื่นๆ เช่น DALL·E 3, Midjourney v6 และ Ideogram v1 ผลลัพธ์ที่ได้บ่งบอกทุกสิ่ง: Stable Diffusion 3 ได้รับการจัดอันดับว่าดีเท่าเทียมหรือดีกว่าคู่แข่งอย่างสม่ำเสมอในด้านคุณภาพของภาพ การปฏิบัติตาม Prompt และ Typography
Stable Diffusion 3: ตัวอย่างการสร้างภาพ




การปรับขนาดเพื่ออนาคต
Stability AI ยังได้ทำการศึกษาการปรับขนาดอย่างละเอียด โดยฝึกฝนโมเดล Stable Diffusion 3 ด้วยจำนวนพารามิเตอร์ที่แตกต่างกัน ผลลัพธ์แสดงให้เห็นถึงการปรับปรุงประสิทธิภาพที่ชัดเจนและสม่ำเสมอเมื่อใช้โมเดลขนาดใหญ่ขึ้น ซึ่งบ่งบอกถึงศักยภาพที่ยิ่งใหญ่กว่าสำหรับอนาคตของเทคโนโลยีนี้
การอนุญาตให้ใช้สิทธิ์และการวางจำหน่าย
ขณะนี้ Stable Diffusion 3 ได้รับการเผยแพร่ภายใต้ Stability Non-Commercial Research Community License ซึ่งทำให้ใช้งานได้ฟรีสำหรับ用途ที่ไม่ใช่เชิงพาณิชย์ เช่น การวิจัยทางวิชาการและโครงการส่วนตัว ใบอนุญาตเชิงพาณิชย์มีให้ผ่าน Stability AI สำหรับศิลปิน นักออกแบบ และธุรกิจมืออาชีพ
Stable Diffusion 3: ขนาดและรูปแบบ
เปิดตัวสู่สาธารณะและพร้อมให้ดาวน์โหลด:
- SD3 Medium – โมเดลขนาด 2 พันล้านพารามิเตอร์ พร้อมให้ดาวน์โหลดที่ https://huggingface.co/stabilityai/stable-diffusion-3-medium
ใช้ได้เฉพาะผ่าน Stability AI API เท่านั้น
- SD3 Large – โมเดลขนาด 8 พันล้านพารามิเตอร์
- SD3 Large Turbo – โมเดลขนาด 8 พันล้านพารามิเตอร์ที่มีเวลาในการอนุมาน (Inference Time) ที่เร็วกว่า
อนาคตของการสร้างภาพด้วย AI
Stable Diffusion 3 ไม่ได้เป็นเพียงแค่ความก้าวหน้าทางเทคโนโลยีเท่านั้น แต่ยังเป็นการมองไปยังอนาคตแห่งความคิดสร้างสรรค์ ด้วยขีดความสามารถขั้นสูงและการออกแบบที่ใช้งานง่าย โมเดลนี้มีศักยภาพในการปฏิวัติวิธีการที่เราสร้างและโต้ตอบกับเนื้อหาภาพ ตั้งแต่ศิลปินมืออาชีพที่ผลักดันขอบเขตของงานฝีมือ ไปจนถึงบุคคลทั่วไปที่ทำให้จินตนาการอันโลดโผนของพวกเขามีชีวิตขึ้นมา Stable Diffusion 3 พร้อมที่จะทำให้การสร้างภาพเป็นประชาธิปไตยและกำหนดนิยามใหม่ให้กับภูมิทัศน์ของการสร้างภาพ
แหล่งข้อมูล
- คลังเก็บ Stable Diffusion 3 Medium: https://huggingface.co/stabilityai/stable-diffusion-3-medium
- เอกสารงานวิจัย: https://arxiv.org/pdf/2403.03206