معماری مامبا برای مدل‌های LLM/AI

دسته‌بندی شده در AI/ML برچسب خورده با ،
Save and Share:

مامبا چیست؟

مامبا یک معماری LLM امیدوارکننده است که جایگزینی برای معماری ترنسفورمر ارائه می‌دهد. نقاط قوت آن در بهره‌وری حافظه، مقیاس‌پذیری و توانایی مدیریت توالی‌های بسیار طولانی نهفته است.

مامبا بر اساس مدل‌های فضای حالت (SSM) و مکانیزم‌های پرسپترون چندلایه گیت‌دار (MLP) ساخته شده است.

نحوه عملکرد آن چگونه است؟

  1. ت projectionی ورودی: ابعاد توالی ورودی افزایش می‌یابد.
  2. پردازش کانولوشن: کانولوشن یک‌بعدی و یک تابع فعال‌سازی اعمال می‌شود.
  3. گیت‌بندی: داده‌های ورودی و نتایج projection به‌صورت جزءبه‌جزء در هم ضرب می‌شوند.
  4. تکرار: مراحل 2-3 می‌توانند چندین بار تکرار شوند.

مزایای معماری مامبا:

  • عملکرد بالا: نتایج عالی در تست‌های LAMBADA و PIQA نشان می‌دهد و حتی از مدل‌هایی که دو برابر اندازه آن هستند نیز پیشی می‌گیرد.
  • بهره‌وری حافظه: از محاسبه مجدد در طول پس‌انتشار استفاده می‌کند و به طور مشابه با Flash Attention در حافظه صرفه‌جویی می‌کند.
  • مقیاس‌پذیری: در توالی‌های طولانی، به ویژه هنگام افزایش قدرت محاسباتی و اندازه مدل، از Transformer++ عملکرد بهتری دارد.
  • متن طولانی: می‌تواند تا یک میلیون توکن را پردازش کند.
  • کپی‌برداری کارآمد متن: در وظایف کپی‌برداری متن عالی است.
دسته‌بندی شده در AI/ML برچسب خورده با ،

دیدگاهی بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *