Save and Share:
Što je Mamba?
Mamba je obećavajuća LLM arhitektura koja nudi alternativu Transformer arhitekturi. Njezine snage leže u memorijskoj učinkovitosti, skalabilnosti i sposobnosti obrade vrlo dugih sekvenci.
Mamba se temelji na modelima prostora stanja (SSM) i mehanizmima višeslojnog perceptrona s vratima (MLP).
Kako radi?
- Projekcija ulaza: Dimenzionalnost ulazne sekvence se povećava.
- Konvolucijska obrada: Primjenjuju se jednodimenzijska konvolucija i aktivacijska funkcija.
- Upravljanje vratima: Ulazni podaci i rezultati projekcije množe se element po element.
- Ponavljanje: Koraci 2-3 mogu se ponoviti nekoliko puta.
Prednosti Mamba arhitekture:
- Visoke performanse: Pokazuje izvrsne rezultate na LAMBADA i PIQA testovima, nadmašujući čak i modele dvostruko veće veličine.
- Memorijska učinkovitost: Koristi ponovno izračunavanje tijekom propagacije unatrag, štedeći memoriju slično Flash Attentionu.
- Skalabilnost: Nadmašuje Transformer++ na dugim sekvencama, posebno kada se povećava računalna snaga i veličina modela.
- Dugački kontekst: Može obraditi kontekst do milijun tokena.
- Učinkovito kopiranje teksta: Odličan je u zadacima kopiranja teksta.