Save and Share:
মাম্বা কী?
মাম্বা একটি প্রতিশ্রুতিশীল LLM আর্কিটেকচার যা ট্রান্সফরমার আর্কিটেকচারের বিকল্প প্রস্তাব করে। এর শক্তি মেমরি দক্ষতা, মাপযোগ্যতা এবং খুব দীর্ঘ সিকোয়েন্স পরিচালনা করার ক্ষমতার মধ্যে নিহিত।
মাম্বা স্টেট স্পেস মডেল (SSM) এবং গেটেড মাল্টিলেয়ার পারসেপ্ট্রন (MLP) পদ্ধতির উপর ভিত্তি করে তৈরি।
এটি কিভাবে কাজ করে?
- ইনপুট প্রজেকশন: ইনপুট সিকোয়েন্সের ডাইমেনশনালিটি বৃদ্ধি করা হয়।
- কনভল্যুশনাল প্রক্রিয়াকরণ: এক-মাত্রিক কনভল্যুশন এবং একটি অ্যাক্টিভেশন ফাংশন প্রয়োগ করা হয়।
- গেটিং: ইনপুট ডেটা এবং প্রজেকশন ফলাফলগুলি উপাদান-ভিত্তিক গুণ করা হয়।
- পুনরাবৃত্তি: ধাপ 2-3 কয়েকবার পুনরাবৃত্তি করা যেতে পারে।
মাম্বা আর্কিটেকচারের সুবিধা:
- উচ্চ কার্যকারিতা: LAMBADA এবং PIQA পরীক্ষায় চমৎকার ফলাফল প্রদর্শন করে, এমনকি আকারের দ্বিগুণ মডেলকেও ছাড়িয়ে যায়।
- মেমরি দক্ষতা: ব্যাকপ্রোপাগেশনের সময় পুনঃগণনা ব্যবহার করে, ফ্ল্যাশ অ্যাটেনশনের মতোই মেমরি সাশ্রয় করে।
- মাপযোগ্যতা: দীর্ঘ সিকোয়েন্সে ট্রান্সফরমার++ কেও ছাড়িয়ে যায়, বিশেষ করে যখন কম্পিউটেশনাল পাওয়ার এবং মডেলের আকার বৃদ্ধি করা হয়।
- দীর্ঘ প্রেক্ষাপট: মিলিয়ন টোকেন পর্যন্ত প্রেক্ষাপট প্রক্রিয়া করতে পারে।
- দক্ষ টেক্সট কপিং: টেক্সট কপিং টাস্কে বিশেষভাবে পারদর্শী।