สถาปัตยกรรม Mamba สำหรับโมเดล LLM/AI

Categorized as AI/ML Tagged ,
Save and Share:

Mamba คืออะไร?

Mamba เป็นสถาปัตยกรรม LLM ที่มีแนวโน้มที่ดี ซึ่งเป็นทางเลือกหนึ่งแทนสถาปัตยกรรม Transformer โดยมีจุดแข็งในด้านประสิทธิภาพของหน่วยความจำ ความสามารถในการปรับขนาด และความสามารถในการจัดการลำดับที่ยาวมาก

Mamba อิงตาม State Space Models (SSM) และกลไก Gated Multilayer Perceptron (MLP)

มันทำงานอย่างไร?

  1. Input Projection: เพิ่มมิติของลำดับอินพุต
  2. Convolutional Processing: ใช้ Convolution แบบหนึ่งมิติและฟังก์ชัน Activation
  3. Gating: นำข้อมูลอินพุตและผลลัพธ์การ Projection มาคูณกันทีละ Element
  4. Repetition: สามารถทำซ้ำขั้นตอนที่ 2-3 ได้หลายครั้ง

ข้อดีของสถาปัตยกรรม Mamba:

  • ประสิทธิภาพสูง: แสดงผลลัพธ์ที่ยอดเยี่ยมในการทดสอบ LAMBADA และ PIQA เหนือกว่าแม้แต่โมเดลที่มีขนาดใหญ่กว่าถึงสองเท่า
  • ประสิทธิภาพของหน่วยความจำ: ใช้ Recomputation ระหว่าง Backpropagation ช่วยประหยัดหน่วยความจำคล้ายกับ Flash Attention
  • ความสามารถในการปรับขนาด: ทำงานได้ดีกว่า Transformer++ ในลำดับที่ยาว โดยเฉพาะอย่างยิ่งเมื่อเพิ่มกำลังการประมวลผลและขนาดโมเดล
  • Long Context: สามารถประมวลผล Context ได้มากถึงหนึ่งล้าน Token
  • Efficient Text Copying: เก่งในการทำงานด้านการคัดลอกข้อความ

Leave a comment

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *