Save and Share:
Cos’è Mamba?
Mamba è un’architettura LLM promettente che offre un’alternativa all’architettura Transformer. I suoi punti di forza risiedono nell’efficienza della memoria, nella scalabilità e nella capacità di gestire sequenze molto lunghe.
Mamba si basa su modelli di spazio di stato (SSM) e meccanismi Gated Multilayer Perceptron (MLP).
Come funziona?
- Proiezione dell’input: la dimensionalità della sequenza di input viene aumentata.
- Elaborazione convoluzionale: vengono applicate una convoluzione unidimensionale e una funzione di attivazione.
- Gating: i dati di input e i risultati della proiezione vengono moltiplicati elemento per elemento.
- Ripetizione: i passaggi 2-3 possono essere ripetuti più volte.
Vantaggi dell’architettura Mamba:
- Alte prestazioni: dimostra risultati eccellenti nei test LAMBADA e PIQA, superando anche modelli di dimensioni doppie.
- Efficienza della memoria: utilizza la ricomputazione durante la backpropagation, risparmiando memoria in modo simile a Flash Attention.
- Scalabilità: supera Transformer++ su sequenze lunghe, soprattutto quando si aumenta la potenza di calcolo e le dimensioni del modello.
- Contesto lungo: può elaborare contesti fino a un milione di token.
- Copia efficiente del testo: eccelle nelle attività di copia del testo.