Mamba arhitektuur LLM/TI mudelitele

Categorized as AI/ML Tagged ,
Save and Share:

Mis on Mamba?

Mamba on paljulubav LLM-arhitektuur, mis pakub alternatiivi Transformeri arhitektuurile. Selle peamised eelised on mälu tõhusus, skaleeritavus ja võime töödelda väga pikki järjestusi.

Mamba põhineb olekuruumimudelitel (SSM) ja gated mitmekihilisel pertseptronil (MLP).

Kuidas see töötab?

  1. Sisendprojektsioon: Sisendjada dimensiooni suurendatakse.
  2. Konvolutsiooniline töötlus: Kasutatakse ühemõõtmelist konvolutsiooni ja aktivatsioonifunktsiooni.
  3. Väravale juhtimine: Sisendandmed ja projektsioonitulemused korrutatakse elementhaaval.
  4. Kordamine: Samme 2 ja 3 saab korrata mitu korda.

Mamba arhitektuuri eelised:

  • Suur jõudlus: On näidanud suurepäraseid tulemusi LAMBADA ja PIQA testides, edestades isegi kaks korda suuremaid mudeleid.
  • Mälu tõhusus: Kasutab tagasileviprotsessi käigus ümberarvutust, säästes mälu sarnaselt Flash Attention’iga.
  • Skaleeritavus: Ületab Transformer++-i pikkade järjestuste puhul, eriti arvutusvõimsuse ja mudeli suuruse kasvatamisel.
  • Pikk kontekst: Suudab töödelda konteksti kuni miljoni tokenini.
  • Tõhus tekstikoopia: Saab hästi hakkama tekstikoopia ülesannetega.

Leave a comment

Sinu e-postiaadressi ei avaldata. Nõutavad väljad on tähistatud *-ga