Save and Share:
O que é Mamba?
Mamba é uma arquitetura de LLM promissora que oferece uma alternativa à arquitetura Transformer. Seus pontos fortes residem na eficiência de memória, escalabilidade e na capacidade de lidar com sequências muito longas.
Mamba é baseado em Modelos de Espaço de Estado (SSM) e mecanismos de Perceptron Multicamadas Gated (MLP).
Como funciona?
- Projeção de Entrada: A dimensionalidade da sequência de entrada é aumentada.
- Processamento Convolucional: Convolução unidimensional e uma função de ativação são aplicadas.
- Gating: Os dados de entrada e os resultados da projeção são multiplicados elemento a elemento.
- Repetição: Os passos 2-3 podem ser repetidos várias vezes.
Vantagens da Arquitetura Mamba:
- Alto Desempenho: Demonstra excelentes resultados nos testes LAMBADA e PIQA, superando até mesmo modelos com o dobro do seu tamanho.
- Eficiência de Memória: Utiliza recomputação durante a retropropagação, economizando memória de forma semelhante ao Flash Attention.
- Escalabilidade: Supera o Transformer++ em sequências longas, especialmente ao aumentar o poder computacional e o tamanho do modelo.
- Contexto Longo: Pode processar contexto de até um milhão de tokens.
- Cópia de Texto Eficiente: Se destaca em tarefas de cópia de texto.