Save and Share:
Какво е Mamba?
Mamba е обещаваща LLM архитектура, която предлага алтернатива на архитектурата Transformer. Нейните предимства са паметта, скалируемостта и способността ѝ да се справя с много дълги последователности.
Mamba се основава на модели на пространството на състоянията (SSM) и механизми с вентилни многослойни перцептрони (MLP).
Как работи?
- Проекция на входа: Размерността на входната последователност се увеличава.
- Конволюционна обработка: Прилага се едномерна конволюция и функция за активация.
- Вентилиране: Входните данни и резултатите от проекцията се умножават поелементно.
- Повторение: Стъпки 2-3 могат да се повторят няколко пъти.
Предимства на архитектурата Mamba:
- Висока производителност: Демонстрира отлични резултати на тестовете LAMBADA и PIQA, надминавайки дори модели, два пъти по-големи от нея.
- Ефективност на паметта: Използва рекомпютъризация по време на обратно разпространение на грешката, като спестява памет подобно на Flash Attention.
- Скалируемост: Превъзхожда Transformer++ при дълги последователности, особено при увеличаване на изчислителната мощност и размера на модела.
- Дълъг контекст: Може да обработва контекст до един милион токена.
- Ефективно копиране на текст: Отличава се в задачи за копиране на текст.