Arquitetura Mamba para Modelos LLM/IA

Categorizado como AI/ML Etiquetas: ,
Save and Share:

O que é o Mamba?

Mamba é uma arquitetura LLM promissora que oferece uma alternativa à arquitetura Transformer. Os seus pontos fortes residem na eficiência de memória, escalabilidade e capacidade de lidar com sequências muito longas.

O Mamba é baseado em Modelos de Espaço de Estados (SSM) e mecanismos de Perceptron Multicamadas Gated (MLP).

Como funciona?

  1. Projeção de Entrada: A dimensionalidade da sequência de entrada é aumentada.
  2. Processamento Convolucional: É aplicada uma convolução unidimensional e uma função de ativação.
  3. Gating: Os dados de entrada e os resultados da projeção são multiplicados elemento a elemento.
  4. Repetição: Os passos 2-3 podem ser repetidos várias vezes.

Vantagens da Arquitetura Mamba:

  • Alto Desempenho: Demonstra excelentes resultados nos testes LAMBADA e PIQA, superando até modelos com o dobro do seu tamanho.
  • Eficiência de Memória: Utiliza a recomputação durante a retropropagação, economizando memória de forma semelhante ao Flash Attention.
  • Escalabilidade: Supera o Transformer++ em sequências longas, especialmente ao aumentar o poder computacional e o tamanho do modelo.
  • Contexto Longo: Pode processar contexto até um milhão de tokens.
  • Cópia de Texto Eficiente: Destaca-se em tarefas de cópia de texto.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *