معمارية مامبا لنماذج الذكاء الاصطناعي/اللغة الكبيرة

مصنف كـ AI/ML موسوم كـ ،
Save and Share:

ما هي مامبا؟

مامبا هي معمارية واعدة للنماذج اللغوية الكبيرة (LLM)، تقدم بديلاً لمعمارية Transformer. تكمن نقاط قوتها في كفاءة الذاكرة، وقابلية التوسع، والقدرة على التعامل مع التسلسلات الطويلة جدًا.

تعتمد مامبا على نماذج فضاء الحالة (SSM) وآليات الشبكة العصبونية متعددة الطبقات ذات البوابات (MLP).

كيف تعمل؟

  1. إسقاط الإدخال: زيادة أبعاد تسلسل الإدخال.
  2. المعالجة الالتفافية: تطبيق التفاف أحادي البعد ودالة تنشيط.
  3. البوابات: ضرب بيانات الإدخال ونتائج الإسقاط عنصرًا بعنصر.
  4. التكرار: يمكن تكرار الخطوات 2-3 عدة مرات.

مزايا معمارية مامبا:

  • أداء عالٍ: تُظهر نتائج ممتازة في اختبارات LAMBADA و PIQA، متفوقةً حتى على النماذج التي تضاعف حجمها.
  • كفاءة الذاكرة: تستخدم إعادة الحساب أثناء الانتشار الخلفي، مما يوفر الذاكرة بشكل مشابه لـ Flash Attention.
  • قابلية التوسع: تتفوق على Transformer++ في التسلسلات الطويلة، خاصةً عند زيادة القدرة الحاسوبية وحجم النموذج.
  • سياق طويل: يمكنها معالجة سياق يصل إلى مليون رمز.
  • نسخ نص فعال: تتفوق في مهام نسخ النصوص.
مصنف كـ AI/ML موسوم كـ ،

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *