Save and Share:
Mis on Mamba?
Mamba on paljulubav LLM-arhitektuur, mis pakub alternatiivi Transformeri arhitektuurile. Selle peamised eelised on mälu tõhusus, skaleeritavus ja võime töödelda väga pikki järjestusi.
Mamba põhineb olekuruumimudelitel (SSM) ja gated mitmekihilisel pertseptronil (MLP).
Kuidas see töötab?
- Sisendprojektsioon: Sisendjada dimensiooni suurendatakse.
- Konvolutsiooniline töötlus: Kasutatakse ühemõõtmelist konvolutsiooni ja aktivatsioonifunktsiooni.
- Väravale juhtimine: Sisendandmed ja projektsioonitulemused korrutatakse elementhaaval.
- Kordamine: Samme 2 ja 3 saab korrata mitu korda.
Mamba arhitektuuri eelised:
- Suur jõudlus: On näidanud suurepäraseid tulemusi LAMBADA ja PIQA testides, edestades isegi kaks korda suuremaid mudeleid.
- Mälu tõhusus: Kasutab tagasileviprotsessi käigus ümberarvutust, säästes mälu sarnaselt Flash Attention’iga.
- Skaleeritavus: Ületab Transformer++-i pikkade järjestuste puhul, eriti arvutusvõimsuse ja mudeli suuruse kasvatamisel.
- Pikk kontekst: Suudab töödelda konteksti kuni miljoni tokenini.
- Tõhus tekstikoopia: Saab hästi hakkama tekstikoopia ülesannetega.