Сохранить и поделиться:
Что такое Mamba?
Mamba — это многообещающая архитектура LLM, предлагающая альтернативу архитектуре Transformer. Её сильные стороны — эффективность памяти, масштабируемость и способность работать с очень длинными последовательностями.
Mamba основана на моделях пространства состояний (State Space Models, SSM) и механизмах стробируемых многослойных персептронов (Gated MLP).
Как это работает?
- Входные данные проецируются: Увеличивается размерность входной последовательности.
- Свёрточная обработка: Применяется одномерная свёртка и функция активации.
- Стробирование (Gating): Элементно перемножаются входные данные и результаты проекции.
- Повторение: Шаги 2-3 могут повторяться несколько раз.
Преимущества архитектуры Mamba:
- Высокая производительность: Показывает отличные результаты на тестах LAMBADA и PIQA, превосходя даже вдвое большие модели.
- Эффективность памяти: Использует перевычисление (recomputation) на этапе обратного распространения ошибки, что экономит память, подобно Flash Attention.
- Масштабируемость: Превосходит Transformer++ на длинных последовательностях, особенно при увеличении вычислительной мощности и размера модели.
- Длинный контекст: Может обрабатывать контекст до миллиона токенов.
- Эффективное копирование текста: Хорошо справляется с задачами копирования текста.