Save and Share:
मांबा क्या है?
मांबा एक आशाजनक LLM आर्किटेक्चर है जो ट्रांसफॉर्मर आर्किटेक्चर का एक विकल्प प्रदान करता है। इसकी ताकत मेमोरी दक्षता, स्केलेबिलिटी और बहुत लंबे सीक्वेंस को संभालने की क्षमता में निहित है।
मांबा स्टेट स्पेस मॉडल (SSM) और गेटेड मल्टीलेयर परसेप्ट्रॉन (MLP) तंत्र पर आधारित है।
यह कैसे काम करता है?
- इनपुट प्रोजेक्शन: इनपुट सीक्वेंस की डाइमेंशनलिटी बढ़ाई जाती है।
- कन्वल्शनल प्रोसेसिंग: वन-डायमेंशनल कनवल्शन और एक एक्टिवेशन फंक्शन लागू किया जाता है।
- गेटिंग: इनपुट डेटा और प्रोजेक्शन रिजल्ट को एलिमेंट-वाइज गुणा किया जाता है।
- रिपीटेशन: स्टेप 2-3 को कई बार दोहराया जा सकता है।
मांबा आर्किटेक्चर के फायदे:
- उच्च प्रदर्शन: LAMBADA और PIQA टेस्ट पर उत्कृष्ट परिणाम दिखाता है, यहां तक कि अपने आकार से दोगुने मॉडल को भी मात देता है।
- मेमोरी दक्षता: बैकप्रोपेगेशन के दौरान रीयूटिलाइजेशन का उपयोग करता है, जिससे फ्लैश अटेंशन की तरह मेमोरी की बचत होती है।
- स्केलेबिलिटी: लंबे सीक्वेंस पर ट्रांसफॉर्मर++ से बेहतर प्रदर्शन करता है, खासकर जब कंप्यूटेशनल पावर और मॉडल आकार में वृद्धि होती है।
- लंबा संदर्भ: एक मिलियन टोकन तक के संदर्भ को प्रोसेस कर सकता है।
- कुशल टेक्स्ट कॉपीइंग: टेक्स्ट कॉपी करने के कार्यों में उत्कृष्ट है।