Архитектура Mamba за LLM/AI модели

Categorized as AI/ML Tagged ,
Save and Share:

Какво е Mamba?

Mamba е обещаваща LLM архитектура, която предлага алтернатива на архитектурата Transformer. Нейните предимства са паметта, скалируемостта и способността ѝ да се справя с много дълги последователности.

Mamba се основава на модели на пространството на състоянията (SSM) и механизми с вентилни многослойни перцептрони (MLP).

Как работи?

  1. Проекция на входа: Размерността на входната последователност се увеличава.
  2. Конволюционна обработка: Прилага се едномерна конволюция и функция за активация.
  3. Вентилиране: Входните данни и резултатите от проекцията се умножават поелементно.
  4. Повторение: Стъпки 2-3 могат да се повторят няколко пъти.

Предимства на архитектурата Mamba:

  • Висока производителност: Демонстрира отлични резултати на тестовете LAMBADA и PIQA, надминавайки дори модели, два пъти по-големи от нея.
  • Ефективност на паметта: Използва рекомпютъризация по време на обратно разпространение на грешката, като спестява памет подобно на Flash Attention.
  • Скалируемост: Превъзхожда Transformer++ при дълги последователности, особено при увеличаване на изчислителната мощност и размера на модела.
  • Дълъг контекст: Може да обработва контекст до един милион токена.
  • Ефективно копиране на текст: Отличава се в задачи за копиране на текст.

Leave a comment

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *