Architettura Mamba per modelli LLM/AI

Categorie: AI/ML Taggato ,
Save and Share:

Cos’è Mamba?

Mamba è un’architettura LLM promettente che offre un’alternativa all’architettura Transformer. I suoi punti di forza risiedono nell’efficienza della memoria, nella scalabilità e nella capacità di gestire sequenze molto lunghe.

Mamba si basa su modelli di spazio di stato (SSM) e meccanismi Gated Multilayer Perceptron (MLP).

Come funziona?

  1. Proiezione dell’input: la dimensionalità della sequenza di input viene aumentata.
  2. Elaborazione convoluzionale: vengono applicate una convoluzione unidimensionale e una funzione di attivazione.
  3. Gating: i dati di input e i risultati della proiezione vengono moltiplicati elemento per elemento.
  4. Ripetizione: i passaggi 2-3 possono essere ripetuti più volte.

Vantaggi dell’architettura Mamba:

  • Alte prestazioni: dimostra risultati eccellenti nei test LAMBADA e PIQA, superando anche modelli di dimensioni doppie.
  • Efficienza della memoria: utilizza la ricomputazione durante la backpropagation, risparmiando memoria in modo simile a Flash Attention.
  • Scalabilità: supera Transformer++ su sequenze lunghe, soprattutto quando si aumenta la potenza di calcolo e le dimensioni del modello.
  • Contesto lungo: può elaborare contesti fino a un milione di token.
  • Copia efficiente del testo: eccelle nelle attività di copia del testo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *