Arquitetura Mamba para Modelos de LLM/IA

Categorizado como AI/ML Marcado com ,
Save and Share:

O que é Mamba?

Mamba é uma arquitetura de LLM promissora que oferece uma alternativa à arquitetura Transformer. Seus pontos fortes residem na eficiência de memória, escalabilidade e na capacidade de lidar com sequências muito longas.

Mamba é baseado em Modelos de Espaço de Estado (SSM) e mecanismos de Perceptron Multicamadas Gated (MLP).

Como funciona?

  1. Projeção de Entrada: A dimensionalidade da sequência de entrada é aumentada.
  2. Processamento Convolucional: Convolução unidimensional e uma função de ativação são aplicadas.
  3. Gating: Os dados de entrada e os resultados da projeção são multiplicados elemento a elemento.
  4. Repetição: Os passos 2-3 podem ser repetidos várias vezes.

Vantagens da Arquitetura Mamba:

  • Alto Desempenho: Demonstra excelentes resultados nos testes LAMBADA e PIQA, superando até mesmo modelos com o dobro do seu tamanho.
  • Eficiência de Memória: Utiliza recomputação durante a retropropagação, economizando memória de forma semelhante ao Flash Attention.
  • Escalabilidade: Supera o Transformer++ em sequências longas, especialmente ao aumentar o poder computacional e o tamanho do modelo.
  • Contexto Longo: Pode processar contexto de até um milhão de tokens.
  • Cópia de Texto Eficiente: Se destaca em tarefas de cópia de texto.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *