Save and Share:
מהי מאמבה?
מאמבה היא ארכיטקטורת LLM מבטיחה, המהווה אלטרנטיבה לארכיטקטורת הטרנספורמר. יתרונותיה העיקריים הם יעילות זיכרון, יכולת גידול ויכולת לטפל ברצפים ארוכים במיוחד.
מאמבה מבוססת על מודלים של מרחב מצבים (SSM) ומנגנונים של פרceptron רב-שכבתי מגודר (MLP).
איך זה עובד?
- הטלת קלט: ממדיות רצף הקלט מוגדלת.
- עיבוד קונבולוציוני: מיושמות קונבולוציה חד-ממדית ופונקציית הפעלה.
- שימוש בשערים: נתוני הקלט ותוצאות ההטלה מוכפלים איבר-באיבר.
- חזרה: שלבים 2 ו-3 ניתנים לחזרה מספר פעמים.
יתרונות ארכיטקטורת מאמבה:
- ביצועים גבוהים: מציגה תוצאות מצוינות במבחני LAMBADA ו-PIQA, ואף עולה על מודלים הגדולים ממנה פי שניים.
- יעילות זיכרון: משתמשת בחישוב מחדש במהלך backpropagation, וחוסכת בזיכרון באופן דומה לטכניקת Flash Attention.
- יכולת גידול: עולה בביצועיו על Transformer++ ברצפים ארוכים, במיוחד כאשר מגדילים את עוצמת החישוב ואת גודל המודל.
- טווח הקשר ארוך: יכולה לעבד הקשר של עד מיליון טוקנים.
- העתקת טקסט יעילה: מצטיינת במשימות של העתקת טקסט.