Save and Share:
Mambaとは?
Mambaは、Transformerアーキテクチャに代わる有望なLLMアーキテクチャです。その強みは、メモリ効率、スケーラビリティ、そして非常に長いシーケンスを扱える能力にあります。
Mambaは、State Space Models (SSM) と Gated Multilayer Perceptron (MLP) のメカニズムに基づいています。
どのように機能するのか?
- 入力の射影: 入力シーケンスの次元を増やします。
- 畳み込み処理: 一次元畳み込みと活性化関数を適用します。
- ゲーティング: 入力データと射影の結果を要素ごとに乗算します。
- 繰り返し: ステップ2~3を数回繰り返すことができます。
Mambaアーキテクチャの利点:
- 高い性能: LAMBADAおよびPIQAテストで優れた結果を示し、サイズの2倍のモデルさえ凌駕します。
- メモリ効率: バックプロパゲーション中に再計算を利用し、Flash Attentionと同様にメモリを節約します。
- スケーラビリティ: 特に計算能力とモデルサイズを増やす場合に、長いシーケンスでTransformer++を上回ります。
- 長いコンテキスト: 最大100万トークンまでのコンテキストを処理できます。
- 効率的なテキストコピー: テキストコピーのタスクに優れています。