Save and Share:
Čo je Mamba?
Mamba je sľubná architektúra LLM, ktorá ponúka alternatívu k architektúre Transformer. Medzi jej silné stránky patrí efektívne využívanie pamäte, škálovateľnosť a schopnosť spracovávať veľmi dlhé sekvencie.
Mamba je založená na modeloch stavového priestoru (SSM) a mechanizmoch Gated Multilayer Perceptron (MLP).
Ako funguje?
- Vstupná projekcia: Zvyšuje sa dimenzionalita vstupnej sekvencie.
- Konvolučné spracovanie: Aplikuje sa jednorozmerná konvolúcia a aktivačná funkcia.
- Gating (Hradlovanie): Vstupné dáta a výsledky projekcie sa násobia prvkami po prvku.
- Opakovanie: Kroky 2-3 sa môžu niekoľkokrát opakovať.
Výhody architektúry Mamba:
- Vysoký výkon: Preukazuje vynikajúce výsledky v testoch LAMBADA a PIQA, prekonávajúc aj modely s dvojnásobnou veľkosťou.
- Efektívne využívanie pamäte: Využíva prepočítavanie počas spätného šírenia chýb, čím šetrí pamäť podobne ako Flash Attention.
- Škálovateľnosť: Prekonáva Transformer++ pri dlhých sekvenciách, najmä pri zvyšovaní výpočtového výkonu a veľkosti modelu.
- Dlhý kontext: Dokáže spracovať kontext s dĺžkou až milión tokenov.
- Efektívne kopírovanie textu: Vyniká v úlohách kopírovania textu.