Save and Share:
什麼是 Mamba?
Mamba 是一種很有潛力的 LLM 架構,為 Transformer 架構提供了一種替代方案。它的優勢在於記憶體效率、可擴展性以及處理極長序列的能力。
Mamba 基於狀態空間模型 (State Space Models, SSM) 和閘控多層感知器 (Gated Multilayer Perceptron, MLP) 機制。
運作方式
- 輸入投影: 增加輸入序列的維度。
- 卷積處理: 應用一維卷積和激活函數。
- 閘控: 將輸入數據和投影結果逐元素相乘。
- 重複: 步驟 2-3 可以重複多次。
Mamba 架構的優點:
- 高效能: 在 LAMBADA 和 PIQA 測試中表現出色,甚至超越了兩倍大的模型。
- 記憶體效率: 在反向傳播期間利用重新計算,以類似於 Flash Attention 的方式節省記憶體。
- 可擴展性: 在長序列上優於 Transformer++,尤其是在增加計算能力和模型大小時。
- 長上下文: 可以處理多達一百萬個 token 的上下文。
- 高效的文字複製: 擅長文字複製任務。