Architektura Mamba pro LLM/AI modely

V rubrikách AI/ML Štítky ,
Save and Share:

Co je Mamba?

Mamba je slibná architektura LLM, která nabízí alternativu k architektuře Transformer. Mezi její silné stránky patří efektivita paměti, škálovatelnost a schopnost zpracovávat velmi dlouhé sekvence.

Mamba je založena na modelech stavového prostoru (SSM) a mechanismech Gated Multilayer Perceptron (MLP).

Jak funguje?

  1. Projekce vstupu: Dimenzionalita vstupní sekvence se zvýší.
  2. Konvoluční zpracování: Aplikuje se jednorozměrná konvoluce a aktivační funkce.
  3. Gating: Vstupní data a výsledky projekce se násobí prvek po prvku.
  4. Opakování: Kroky 2–3 se mohou několikrát opakovat.

Výhody architektury Mamba:

  • Vysoký výkon: Prokazuje vynikající výsledky v testech LAMBADA a PIQA, překonává dokonce i modely dvojnásobné velikosti.
  • Efektivita paměti: Využívá přepočítávání během zpětné propagace, čímž šetří paměť podobně jako Flash Attention.
  • Škálovatelnost: Překonává Transformer++ na dlouhých sekvencích, zejména při zvyšování výpočetního výkonu a velikosti modelu.
  • Dlouhý kontext: Dokáže zpracovat kontext až milionu tokenů.
  • Efektivní kopírování textu: Vyniká v úlohách kopírování textu.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *