Save and Share:
Mamba คืออะไร?
Mamba เป็นสถาปัตยกรรม LLM ที่มีแนวโน้มที่ดี ซึ่งเป็นทางเลือกหนึ่งแทนสถาปัตยกรรม Transformer โดยมีจุดแข็งในด้านประสิทธิภาพของหน่วยความจำ ความสามารถในการปรับขนาด และความสามารถในการจัดการลำดับที่ยาวมาก
Mamba อิงตาม State Space Models (SSM) และกลไก Gated Multilayer Perceptron (MLP)
มันทำงานอย่างไร?
- Input Projection: เพิ่มมิติของลำดับอินพุต
- Convolutional Processing: ใช้ Convolution แบบหนึ่งมิติและฟังก์ชัน Activation
- Gating: นำข้อมูลอินพุตและผลลัพธ์การ Projection มาคูณกันทีละ Element
- Repetition: สามารถทำซ้ำขั้นตอนที่ 2-3 ได้หลายครั้ง
ข้อดีของสถาปัตยกรรม Mamba:
- ประสิทธิภาพสูง: แสดงผลลัพธ์ที่ยอดเยี่ยมในการทดสอบ LAMBADA และ PIQA เหนือกว่าแม้แต่โมเดลที่มีขนาดใหญ่กว่าถึงสองเท่า
- ประสิทธิภาพของหน่วยความจำ: ใช้ Recomputation ระหว่าง Backpropagation ช่วยประหยัดหน่วยความจำคล้ายกับ Flash Attention
- ความสามารถในการปรับขนาด: ทำงานได้ดีกว่า Transformer++ ในลำดับที่ยาว โดยเฉพาะอย่างยิ่งเมื่อเพิ่มกำลังการประมวลผลและขนาดโมเดล
- Long Context: สามารถประมวลผล Context ได้มากถึงหนึ่งล้าน Token
- Efficient Text Copying: เก่งในการทำงานด้านการคัดลอกข้อความ