Save and Share:
Qu’est-ce que Mamba ?
Mamba est une architecture LLM prometteuse qui offre une alternative à l’architecture Transformer. Ses points forts résident dans son efficacité mémoire, sa scalabilité et sa capacité à gérer de très longues séquences.
Mamba est basé sur des modèles d’espace d’états (SSM) et des mécanismes de perceptron multicouche à porte (MLP).
Comment ça marche ?
- Projection d’entrée : La dimensionnalité de la séquence d’entrée est augmentée.
- Traitement convolutionnel : Une convolution unidimensionnelle et une fonction d’activation sont appliquées.
- Gating (contrôle d’accès) : Les données d’entrée et les résultats de la projection sont multipliés élément par élément.
- Répétition : Les étapes 2 et 3 peuvent être répétées plusieurs fois.
Avantages de l’architecture Mamba :
- Haute performance : Démontre d’excellents résultats sur les tests LAMBADA et PIQA, surpassant même des modèles deux fois plus grands.
- Efficacité de la mémoire : Utilise la recomputation pendant la rétropropagation, ce qui permet d’économiser de la mémoire de manière similaire à Flash Attention.
- Scalabilité : Surpasse Transformer++ sur les longues séquences, en particulier lorsque la puissance de calcul et la taille du modèle augmentent.
- Contexte long : Peut traiter un contexte allant jusqu’à un million de tokens.
- Copie de texte efficace : Excelle dans les tâches de copie de texte.