Save and Share:
O que é o Mamba?
Mamba é uma arquitetura LLM promissora que oferece uma alternativa à arquitetura Transformer. Os seus pontos fortes residem na eficiência de memória, escalabilidade e capacidade de lidar com sequências muito longas.
O Mamba é baseado em Modelos de Espaço de Estados (SSM) e mecanismos de Perceptron Multicamadas Gated (MLP).
Como funciona?
- Projeção de Entrada: A dimensionalidade da sequência de entrada é aumentada.
- Processamento Convolucional: É aplicada uma convolução unidimensional e uma função de ativação.
- Gating: Os dados de entrada e os resultados da projeção são multiplicados elemento a elemento.
- Repetição: Os passos 2-3 podem ser repetidos várias vezes.
Vantagens da Arquitetura Mamba:
- Alto Desempenho: Demonstra excelentes resultados nos testes LAMBADA e PIQA, superando até modelos com o dobro do seu tamanho.
- Eficiência de Memória: Utiliza a recomputação durante a retropropagação, economizando memória de forma semelhante ao Flash Attention.
- Escalabilidade: Supera o Transformer++ em sequências longas, especialmente ao aumentar o poder computacional e o tamanho do modelo.
- Contexto Longo: Pode processar contexto até um milhão de tokens.
- Cópia de Texto Eficiente: Destaca-se em tarefas de cópia de texto.