Save and Share:
مامبا چیست؟
مامبا یک معماری LLM امیدوارکننده است که جایگزینی برای معماری ترنسفورمر ارائه میدهد. نقاط قوت آن در بهرهوری حافظه، مقیاسپذیری و توانایی مدیریت توالیهای بسیار طولانی نهفته است.
مامبا بر اساس مدلهای فضای حالت (SSM) و مکانیزمهای پرسپترون چندلایه گیتدار (MLP) ساخته شده است.
نحوه عملکرد آن چگونه است؟
- ت projectionی ورودی: ابعاد توالی ورودی افزایش مییابد.
- پردازش کانولوشن: کانولوشن یکبعدی و یک تابع فعالسازی اعمال میشود.
- گیتبندی: دادههای ورودی و نتایج projection بهصورت جزءبهجزء در هم ضرب میشوند.
- تکرار: مراحل 2-3 میتوانند چندین بار تکرار شوند.
مزایای معماری مامبا:
- عملکرد بالا: نتایج عالی در تستهای LAMBADA و PIQA نشان میدهد و حتی از مدلهایی که دو برابر اندازه آن هستند نیز پیشی میگیرد.
- بهرهوری حافظه: از محاسبه مجدد در طول پسانتشار استفاده میکند و به طور مشابه با Flash Attention در حافظه صرفهجویی میکند.
- مقیاسپذیری: در توالیهای طولانی، به ویژه هنگام افزایش قدرت محاسباتی و اندازه مدل، از Transformer++ عملکرد بهتری دارد.
- متن طولانی: میتواند تا یک میلیون توکن را پردازش کند.
- کپیبرداری کارآمد متن: در وظایف کپیبرداری متن عالی است.