Save and Share:
¿Qué es Mamba?
Mamba es una arquitectura LLM prometedora que ofrece una alternativa a la arquitectura Transformer. Sus puntos fuertes residen en la eficiencia de la memoria, la escalabilidad y la capacidad de gestionar secuencias muy largas.
Mamba se basa en modelos de espacio de estados (SSM) y mecanismos de perceptrón multicapa (MLP) con compuertas.
¿Cómo funciona?
- Proyección de entrada: Se aumenta la dimensionalidad de la secuencia de entrada.
- Procesamiento convolucional: Se aplica una convolución unidimensional y una función de activación.
- Activación (Gating): Los datos de entrada y los resultados de la proyección se multiplican elemento por elemento.
- Repetición: Los pasos 2 y 3 se pueden repetir varias veces.
Ventajas de la arquitectura Mamba:
- Alto rendimiento: Demuestra excelentes resultados en las pruebas LAMBADA y PIQA, superando incluso a modelos que duplican su tamaño.
- Eficiencia de memoria: Utiliza la recomputación durante la retropropagación, ahorrando memoria de forma similar a Flash Attention.
- Escalabilidad: Supera a Transformer++ en secuencias largas, especialmente al aumentar la potencia computacional y el tamaño del modelo.
- Contexto largo: Puede procesar contextos de hasta un millón de tokens.
- Copia de texto eficiente: Destaca en las tareas de copia de texto.