Save and Share:
Co je Mamba?
Mamba je slibná architektura LLM, která nabízí alternativu k architektuře Transformer. Mezi její silné stránky patří efektivita paměti, škálovatelnost a schopnost zpracovávat velmi dlouhé sekvence.
Mamba je založena na modelech stavového prostoru (SSM) a mechanismech Gated Multilayer Perceptron (MLP).
Jak funguje?
- Projekce vstupu: Dimenzionalita vstupní sekvence se zvýší.
- Konvoluční zpracování: Aplikuje se jednorozměrná konvoluce a aktivační funkce.
- Gating: Vstupní data a výsledky projekce se násobí prvek po prvku.
- Opakování: Kroky 2–3 se mohou několikrát opakovat.
Výhody architektury Mamba:
- Vysoký výkon: Prokazuje vynikající výsledky v testech LAMBADA a PIQA, překonává dokonce i modely dvojnásobné velikosti.
- Efektivita paměti: Využívá přepočítávání během zpětné propagace, čímž šetří paměť podobně jako Flash Attention.
- Škálovatelnost: Překonává Transformer++ na dlouhých sekvencích, zejména při zvyšování výpočetního výkonu a velikosti modelu.
- Dlouhý kontext: Dokáže zpracovat kontext až milionu tokenů.
- Efektivní kopírování textu: Vyniká v úlohách kopírování textu.