Save and Share:
Kaj je Mamba?
Mamba je obetavna arhitektura LLM, ki ponuja alternativo arhitekturi Transformer. Njene prednosti so učinkovitost pomnilnika, skalabilnost in zmožnost obdelave zelo dolgih zaporedij.
Mamba temelji na modelih stanj (SSM) in mehanizmih Gated Multilayer Perceptron (MLP).
Kako deluje?
- Projekcija vhoda: Dimenzionalnost vhodnega zaporedja se poveča.
- Konvolucijska obdelava: Uporabljena je enodimenzionalna konvolucija in aktivacijska funkcija.
- Vrata: Vhodni podatki in rezultati projekcije se množijo po elementih.
- Ponavljanje: Koraka 2–3 se lahko ponovita večkrat.
Prednosti arhitekture Mamba:
- Visoka zmogljivost: Izjemni rezultati na testih LAMBADA in PIQA, prekaša celo modele, ki so dvakrat večji.
- Učinkovitost pomnilnika: Uporablja ponovno računanje med povratnim razširjanjem, kar prihrani pomnilnik podobno kot Flash Attention.
- Skalabilnost: Prekaša Transformer++ pri dolgih zaporedjih, še posebej pri povečanju računske moči in velikosti modela.
- Dolg kontekst: Lahko obdeluje kontekst do milijon žetonov.
- Učinkovito kopiranje besedila: Odlično se obnese pri nalogah kopiranja besedila.