Architecture Mamba pour les modèles LLM/IA

Catégorisé comme AI/ML Étiqueté ,
Save and Share:

Qu’est-ce que Mamba ?

Mamba est une architecture LLM prometteuse qui offre une alternative à l’architecture Transformer. Ses points forts résident dans son efficacité mémoire, sa scalabilité et sa capacité à gérer de très longues séquences.

Mamba est basé sur des modèles d’espace d’états (SSM) et des mécanismes de perceptron multicouche à porte (MLP).

Comment ça marche ?

  1. Projection d’entrée : La dimensionnalité de la séquence d’entrée est augmentée.
  2. Traitement convolutionnel : Une convolution unidimensionnelle et une fonction d’activation sont appliquées.
  3. Gating (contrôle d’accès) : Les données d’entrée et les résultats de la projection sont multipliés élément par élément.
  4. Répétition : Les étapes 2 et 3 peuvent être répétées plusieurs fois.

Avantages de l’architecture Mamba :

  • Haute performance : Démontre d’excellents résultats sur les tests LAMBADA et PIQA, surpassant même des modèles deux fois plus grands.
  • Efficacité de la mémoire : Utilise la recomputation pendant la rétropropagation, ce qui permet d’économiser de la mémoire de manière similaire à Flash Attention.
  • Scalabilité : Surpasse Transformer++ sur les longues séquences, en particulier lorsque la puissance de calcul et la taille du modèle augmentent.
  • Contexte long : Peut traiter un contexte allant jusqu’à un million de tokens.
  • Copie de texte efficace : Excelle dans les tâches de copie de texte.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *