माइक्रोसॉफ्ट रिसर्च ने जीपीटी-4 के जटिल स्पष्टीकरण ट्रेस से प्रोग्रेसिव लर्निंग में अपने प्रयासों और सफलता के बारे में एक बहुत ही आशाजनक पेपर प्रकाशित किया है। और सबसे रोमांचक बात यह है कि वे इसे जल्द ही जारी करने वाले हैं और वर्तमान में LLaMA की रिलीज पॉलिसी के अनुसार मॉडल वेट के डिफ को सार्वजनिक रूप से जारी करने के लिए अपनी कानूनी टीम के साथ काम कर रहे हैं।
ओर्का एलएलएम क्या है और यह इतना महत्वपूर्ण क्यों है?
हाल के शोध बड़े मॉडलों द्वारा उत्पन्न ज्ञान का उपयोग करके छोटे मॉडलों को अधिक शक्तिशाली बनाने पर काम कर रहे हैं। इस प्रक्रिया में कई चुनौतियाँ हैं:
- सीमित नकल सिग्नल: छोटे मॉडलों के पास सीखने के लिए सीमित जानकारी होती है क्योंकि बड़े मॉडल केवल आंशिक आउटपुट प्रदान करते हैं।
- छोटे पैमाने पर सजातीय प्रशिक्षण डेटा: छोटे मॉडलों के लिए प्रशिक्षण डेटा अक्सर छोटा और समान होता है, जो उनकी सीखने की क्षमता को सीमित करता है।
- कठोर मूल्यांकन का अभाव: छोटे मॉडल बड़े मॉडलों की शैली की नकल करते हैं लेकिन उनके तर्क क्षमताओं को दोहराने के लिए संघर्ष करते हैं। ऐसा इसलिए है क्योंकि छोटे मॉडलों का पूरी तरह से मूल्यांकन नहीं किया गया है, जिससे उनकी क्षमताओं का अधिक अनुमान लगाया जाता है।
इन चुनौतियों से निपटने के लिए, शोधकर्ताओं ने ओर्का नामक एक नया मॉडल विकसित किया है।
ओर्का एलएलएम 13 बिलियन पैरामीटर वाला एक मॉडल है, और इसे बड़े मॉडलों की तर्क प्रक्रिया को सीखने के लिए डिज़ाइन किया गया है। यह जीपीटी-4 द्वारा प्रदान की गई जानकारी के भंडार से सीखता है, जिसमें प्रत्येक चरण की व्याख्या, विस्तृत विचार प्रक्रियाएं और जटिल निर्देश शामिल हैं। इसके अतिरिक्त, यह अपनी सीखने की प्रक्रिया में सहायता के लिए चैटजीपीटी से मार्गदर्शन प्राप्त करता है।
सीखने को अधिक प्रभावी बनाने के लिए, ओर्का एलएलएम नकल डेटा की एक विविध और विस्तृत श्रृंखला का उपयोग करता है। सावधानीपूर्वक सैंपलिंग और चयन तकनीकों का उपयोग यह सुनिश्चित करने के लिए किया जाता है कि मॉडल विभिन्न प्रकार के उदाहरणों से सीखे। परिणाम प्रभावशाली रहे हैं:
- ओर्का एलएलएम अन्य अत्याधुनिक मॉडलों से बेहतर प्रदर्शन करता है जो विशेष रूप से निर्देशों का पालन करने के लिए ट्यून किए जाते हैं, जैसे कि विचुना-13बी, बिग-बेंच हार्ड (बीबीएच) जैसे चुनौतीपूर्ण तर्क कार्यों में 100% से अधिक और एजीईवल पर 42%।
- इसके अलावा, ओर्का एलएलएम बीबीएच बेंचमार्क पर चैटजीपीटी के समान स्तर पर प्रदर्शन करता है और पेशेवर और शैक्षणिक परीक्षाओं जैसे एसएटी, एलएसएटी, जीआरई और जीएमएटी में प्रतिस्पर्धी प्रदर्शन दिखाता है (एक अनुकूलित सिस्टम संदेश की तुलना में केवल 4-पॉइंट का अंतर)। यह विशिष्ट प्रश्नों या कार्यों के पिछले एक्सपोजर के बिना प्राप्त किया जाता है, जिससे यह एक शून्य-शॉट सेटिंग बन जाती है।
- हालांकि, ओर्का एलएलएम अभी भी प्रदर्शन के मामले में जीपीटी-4 से थोड़ा पीछे है।
कुल मिलाकर, यह शोध इंगित करता है कि चरण-दर-चरण स्पष्टीकरण से सीखना, चाहे वे मनुष्यों से हों या अधिक उन्नत एआई मॉडल से, ओर्का जैसे मॉडलों की क्षमताओं और कौशल को बढ़ाने की दिशा में एक आशाजनक कदम है।