कृत्रिम बुद्धिमत्ता की दुनिया लगातार विकसित हो रही है, और AI अनुसंधान में हाल ही में हुई एक बड़ी सफलता ने चीजों को अगले स्तर पर पहुंचा दिया है। एक नए पेपर में “रिफ्लेक्शन” पेश किया गया है, जो गतिशील मेमोरी और आत्म-चिंतन क्षमताओं वाला एक स्वायत्त एजेंट है, जो AI मॉडल को अपनी गलतियों से सीखने और समय के साथ सुधार करने की अनुमति देता है। यह विकास AI मॉडल को मानव जैसी तर्क क्षमताएं देता है और प्रदर्शन में महत्वपूर्ण वृद्धि का वादा करता है।

रिफ्लेक्शन क्या है और यह महत्वपूर्ण क्यों है?
वर्तमान AI मॉडल की सबसे बड़ी कमजोरियों में से एक उनकी अपनी गलतियों से सीखने की अक्षमता है। रिफ्लेक्शन एक एजेंट को गतिशील मेमोरी और आत्म-चिंतन क्षमताएं देकर इस समस्या का समाधान करता है, जिससे उनकी मौजूदा तर्क, ट्रेस और कार्य-विशिष्ट कार्रवाई विकल्प क्षमताओं में वृद्धि होती है। सरल शब्दों में, मॉडल अब अपने द्वारा की गई कार्रवाइयों को याद रख सकता है, उन कार्यों की समीक्षा कर सकता है और अपनी गलतियों को सुधार सकता है।
इस दृष्टिकोण के बारे में सबसे अच्छी बात यह है कि यह GPT-4 मॉडल तक सीमित नहीं है; यह बिना फाइन-ट्यूनिंग की आवश्यकता के किसी भी बड़े भाषा मॉडल के साथ काम कर सकता है। रिफ्लेक्शन मॉडल बस इनाम फ़ंक्शन का मूल्यांकन करता है और मूल बड़े भाषा मॉडल द्वारा की जाने वाली कार्रवाई को अपडेट करता है, जिससे प्रदर्शन में भारी वृद्धि होती है।
मूल रिफ्लेक्शन पेपर
मूल रिफ्लेक्शन पेपर दो अलग-अलग डेटासेट पर परिणाम प्रस्तुत करता है, जो तर्क करने की इसकी क्षमता को दर्शाता है:
- हॉटपॉट QA: विविध, व्याख्या करने योग्य मल्टी-हॉप प्रश्न उत्तर देने के लिए एक डेटासेट, जिसके लिए भाषा मॉडल को कई दस्तावेजों के माध्यम से तर्क करने की आवश्यकता होती है।
- ELF वर्ल्ड: इंटरैक्टिव लर्निंग के लिए टेक्स्ट और एम्बेडेड वातावरण को संरेखित करना, टेक्स्ट इनपुट और आउटपुट को भौतिक दुनिया के साथ जोड़ना, मॉडल को टेक्स्ट प्रॉम्प्ट का उपयोग करके भौतिक दुनिया के साथ बातचीत करने की अनुमति देना।
इन मॉडलों में रिफ्लेक्शन जोड़ने से फाइन-ट्यूनिंग की आवश्यकता के बिना, प्रदर्शन में महत्वपूर्ण सुधार हुआ।
पेपर के बारे में गलत धारणाओं को दूर करना
बहुत से लोग गलती से मानते हैं कि पेपर GPT-4 का उपयोग करता है, लेकिन यह वास्तव में GPT-3 और 3.5 (ChatGPT) का उपयोग करता है। यह अंतर महत्वपूर्ण है क्योंकि यह ऑटो GPT के साथ रिफ्लेक्शन को संयोजित करने की संभावना को खोलता है, जिससे AI मॉडल मक्खी पर कार्यों को संशोधित करने में सक्षम होते हैं, जो सच्ची बुद्धिमत्ता प्रदान करते हैं।
एक्शन में रिफ्लेक्शन: एक उदाहरण
हॉटपॉट QA कार्य में, मॉडल को एक विशिष्ट शो में भूमिका के लिए सबसे ज्यादा जाने जाने वाले अभिनेता का नाम खोजने की आवश्यकता थी। प्रारंभिक असफल प्रयास के बाद, मॉडल ने अपनी खोज रणनीति में गलती की पहचान करने, उसे ठीक करने और अंततः सही उत्तर खोजने के लिए रिफ्लेक्शन का उपयोग किया। यह ठीक उसी तरह है जैसे कोई इंसान किसी समस्या से संपर्क करेगा, अपनी गलतियों पर विचार करेगा और अपनी रणनीति को तदनुसार समायोजित करेगा।
सीमाएं और निश्चित जमीनी सच्चाई के बिना स्थितियों को संबोधित करना
पेपर की एक प्रमुख सीमा यह है कि इसे काम करने के लिए जमीनी सच्चाई की आवश्यकता होती है। हालाँकि, कई वास्तविक दुनिया की स्थितियों में, कोई निश्चित जमीनी सच्चाई या एकल इष्टतम समाधान नहीं होता है। पेपर के लेखक एक ऐसी विधि का प्रस्ताव करते हैं जो मानव समस्या-समाधान को दर्शाती है, अपनी समझ के आधार पर एक आंतरिक परीक्षण सुइट बनाती है और फिर समाधानों को तब तक समायोजित करती है जब तक कि वे अधिकांश परीक्षणों को संतुष्ट नहीं कर देते।
सही वाक्यात्मक और अर्थपूर्ण कोड पीढ़ी से सटीकता की अड़चन को सही वाक्यात्मक और अर्थपूर्ण परीक्षण पीढ़ी में स्थानांतरित करके, मॉडल उच्च सटीकता दर प्राप्त कर सकता है।
AI और रिफ्लेक्शन का भविष्य
जैसे-जैसे रिफ्लेक्शन क्षमताओं वाले AI मॉडल अधिक व्यापक होते जाते हैं, हम AI-जनरेटेड कोड और अन्य जटिल कार्यों में महत्वपूर्ण सुधार देखने की उम्मीद कर सकते हैं। अपने स्वयं के काम को बार-बार बेहतर बनाने की क्षमता के साथ, AI मॉडल समस्याओं को हल करने और समाधान उत्पन्न करने में अधिक कुशल और प्रभावी हो जाएंगे।
AI में हम जो विकास कर रहे हैं, उस पर विचार करना और उस दिशा पर विचार करना हमारे लिए मनुष्यों के रूप में आवश्यक है जिसमें हम इसे ले जाना चाहते हैं। AI तर्क में यह सफलता सिर्फ शुरुआत है, और इसमें कोई संदेह नहीं है कि आगे और भी रोमांचक प्रगति होगी।
प्रॉम्प्ट इंजीनियरिंग द्वारा वीडियो
संदर्भ:
- रिफ्लेक्शन पेपर: https://arxiv.org/pdf/2303.11366.pdf
- रिफ्लेक्शन ब्लॉगपोस्ट पर विचार: https://nanothoughts.substack.com/p/reflecting-on-reflexion
- हॉटपॉटQA पेपर: https://arxiv.org/pdf/1809.09600.pdf
- एल्फवर्ल्ड पेपर: https://arxiv.org/pdf/2010.03768.pdf
- ऑटोGPT: https://github.com/Torantulino/Auto-GPT
- ह्यूमनइवैल: https://arxiv.org/pdf/2107.03374.pdf