Save and Share:
Šta je Mamba?
Mamba je перспективна LLM arhitektura koja нуди алтернативу Transformer arhitekturi. Њене предности су ефикасност меморије, скалабилност и способност руковања веома дугачким секвенцама.
Mamba се заснива на моделима стања простора (SSM) и механизмима вишеслојног перцептрона са капијама (MLP).
Kako funkcioniše?
- Projekcija ulaza: Димензионалност улазне секвенце се повећава.
- Конволуциона обрада: Примењују се једнодимензиона конволуција и функција активације.
- Пропуштање кроз капију: Улазни подаци и резултати пројекције се множе елемент по елемент.
- Понављање: Кораци 2-3 се могу поновити неколико пута.
Prednosti Mamba arhitekture:
- Високе перформансе: Показује одличне резултате на LAMBADA и PIQA тестовима, надмашујући чак и моделе дупло веће величине.
- Ефикасност меморије: Користи поновно израчунавање током пропагације уназад, штедећи меморију слично као Flash Attention.
- Скалабилност: Надмашује Transformer++ на дугачким секвенцама, посебно при повећању рачунарске снаге и величине модела.
- Дугачак контекст: Може да обрађује контекст до милион токена.
- Ефикасно копирање текста: Истиче се у задацима копирања текста.