Save and Share:
Hva er Mamba?
Mamba er en lovende LLM-arkitektur som tilbyr et alternativ til Transformer-arkitekturen. Styrkene dens ligger i minneeffektivitet, skalerbarhet og evnen til å håndtere svært lange sekvenser.
Mamba er basert på tilstandsrommodeller (SSM) og mekanismer med gatede flerlags perceptroner (MLP).
Hvordan fungerer det?
- Inputtprojeksjon: Dimensionaliteten til input-sekvensen økes.
- Konvolusjonsbehandling: En-dimensjonal konvolusjon og en aktiveringsfunksjon anvendes.
- Gating: Inputdataene og projeksjonsresultatene multipliseres elementvis.
- Repetisjon: Steg 2–3 kan gjentas flere ganger.
Fordeler med Mamba-arkitektur:
- Høy ytelse: Demonstrerer utmerkede resultater på LAMBADA- og PIQA-tester, og overgår til og med modeller som er dobbelt så store.
- Minneeffektivitet: Bruker re-beregning under tilbakepropagering, og sparer minne på samme måte som Flash Attention.
- Skalerbarhet: Yter bedre enn Transformer++ på lange sekvenser, spesielt når man øker regnekraft og modellstørrelse.
- Lang kontekst: Kan behandle kontekst på opptil en million tokens.
- Effektiv tekstkopiering: Utmerker seg i oppgaver med tekstkopiering.