इमेजों की स्वचालित टैगिंग, लेबलिंग, या वर्णन कई अनुप्रयोगों में एक महत्वपूर्ण कार्य है, खासकर मशीन लर्निंग के लिए डेटासेट तैयार करने में। यहीं पर इमेज-टू-टेक्स्ट मॉडल बचाव के लिए आते हैं। प्रमुख इमेज-टू-टेक्स्ट मॉडलों में CLIP, BLIP, WD 1.4 (जिसे WD14 या Waifu Diffusion 1.4 Tagger के नाम से भी जाना जाता है), SigLIP 2, और विज़न के साथ ChatGPT शामिल हैं।
CLIP: एक क्रांतिकारी कदम
OpenAI के कॉन्ट्रास्टिव लैंग्वेज-इमेज प्रीट्रेनिंग (CLIP) मॉडल को इमेजों के लिए वर्णन समझने और उत्पन्न करने के अपने क्रांतिकारी दृष्टिकोण के लिए व्यापक रूप से मान्यता मिली है। CLIP इंटरनेट टेक्स्ट और इमेज डेटा की एक बड़ी मात्रा का लाभ उठाता है ताकि कई दृश्य अवधारणाओं को सीखा जा सके, जिससे इमेजों के लिए वर्णनात्मक वाक्य तैयार किए जा सकें।
हालांकि, उपयोगकर्ता समीक्षाओं के अनुसार, CLIP के वर्णनात्मक वाक्य कभी-कभी अनावश्यक या अत्यधिक शाब्दिक हो सकते हैं। एक आम आलोचना मॉडल की एक ही वस्तु के लिए समान विवरण दोहराने या कुछ विशेषताओं, जैसे किसी वस्तु का रंग, पर अधिक जोर देने की प्रवृत्ति के इर्द-गिर्द घूमती है।
BLIP: सादगी और कार्यक्षमता का संगम
BLIP मॉडल, हालांकि CLIP की तुलना में अपने विवरण में कम विस्तृत है, इमेज-टू-टेक्स्ट प्रोसेसिंग के लिए एक सरल और अधिक सीधा दृष्टिकोण प्रदान करता है। जैसा कि एक समीक्षक ने उल्लेख किया, BLIP “कूल तो है, लेकिन यह काफी बेसिक है।” इस मॉडल की सादगी उन अनुप्रयोगों के लिए एक फायदा हो सकती है जिनके लिए सीधे, कम शाब्दिक टैग या विवरण की आवश्यकता होती है।
फिर भी, कुछ उपयोगकर्ताओं ने पाया कि BLIP का आउटपुट अक्सर WD14 जैसे मॉडलों द्वारा प्रदान की जाने वाली गहराई और बारीकियों से रहित होता है। जबकि यह संतोषजनक परिणाम उत्पन्न कर सकता है, BLIP उन अनुप्रयोगों के लिए सबसे अच्छा विकल्प नहीं हो सकता है जिनमें विस्तृत, जटिल टैग की आवश्यकता होती है।
मैंने पाया है कि WD14, एनीमे-केंद्रित होने के बावजूद, वास्तविक लोगों की तस्वीरों के लिए भी बहुत अच्छा काम करता है। मैं आमतौर पर इसे BLIP के साथ जोड़ता हूं और ज्यादातर समय यह BLIP से कहीं अधिक विवरण उठाता है।
टोनी कोरवेरा यूट्यूब कमेंट्स पर
Blip कूल तो है, लेकिन यह काफी बेसिक है।
WD 1.4 (WD14) टैगिंग कहीं बेहतर है – अधिक विवरण, रसदार टैग।
ऑर्फबीन गिटहब पर
WD 1.4 (उर्फ WD14): विवरण में परिशुद्धता
WD 1.4 मॉडल (जिसे WD14 या Waifu Diffusion 1.4 Tagger के नाम से भी जाना जाता है), जिसे शुरू में एनीमे इमेजों के लिए डिज़ाइन किया गया था, ने आश्चर्यजनक बहुमुखी प्रतिभा का प्रदर्शन किया है, और तस्वीरों के साथ भी अच्छा प्रदर्शन करता है। उपयोगकर्ताओं ने इसके उन्नत कॉन्फ़िगरेशन विकल्पों और बैच प्रोसेसिंग क्षमताओं की प्रशंसा की है, जो इसे इमेज-टू-टेक्स्ट अनुवाद के लिए एक मजबूत उपकरण बनाते हैं।
WD14 को जो चीज़ अलग करती है, वह है विस्तृत, “रसदार” टैग उत्पन्न करने की इसकी क्षमता, जो अपने समकक्षों की तुलना में इमेजों का अधिक गहन विवरण प्रदान करती है। जबकि इस मॉडल के गलत टैग उत्पन्न करने की संभावना कम है, एनीमे पर इसका ध्यान कुछ प्रकार की इमेजों के लिए एक सीमा हो सकती है।
प्रश्न: क्या WD14 टैगर Automatic1111 में निर्मित BLIP या deepdanbooru से बेहतर है?
उत्तर: एक्सटेंशन कॉन्फ़िगरेशन और बैच प्रोसेसिंग के लिए बेहतर विकल्प देता है, और मैंने पाया है कि यह deepdanbooru की तुलना में पूरी तरह से गलत टैग उत्पन्न करने की संभावना कम है।CLIP/BLIP अलग है क्योंकि वे टैग की सूची के बजाय वर्णनात्मक वाक्य उत्पन्न करते हैं, लेकिन बाद वाला आमतौर पर मेरी आवश्यकताओं के अनुरूप होता है। और अंतर्निहित CLIP इंटरोगेटर “एक (विवरण) की तस्वीर और (उसी चीज़ का थोड़ा अलग विवरण) की तस्वीर” या “(ज्यादातर पूर्ण विवरण) और गुलाबी बाल और गुलाबी बाल और गुलाबी बाल और (कई बार दोहराना)” जैसी चीज़ें निकालने की संभावना रखता है।
एनीमे के लिए बनाए जाने के बावजूद, WD14 टैगर तस्वीरों पर काफी अच्छी तरह से काम करता है।
मॉर्गनदड्यूल रेडिट पर
SigLIP 2: एक शक्तिशाली इमेज-टू-टेक्स्ट इंजन
Google का मुफ़्त और ओपन मॉडल SigLIP 2, सिर्फ़ एक विज़न-लैंग्वेज मॉडल नहीं है; यह इमेजों को सार्थक टेक्स्ट में बदलने के लिए एक शक्तिशाली इंजन है। जबकि यह इमेज-टेक्स्ट पुनर्प्राप्ति और ज़ीरो-शॉट वर्गीकरण जैसे कार्यों में उत्कृष्ट है, इसकी वास्तुकला और प्रशिक्षण संवर्द्धन इसे इमेज-टू-टेक्स्ट जनरेशन और समझ के लिए एक मजबूत दावेदार बनाते हैं। यहां SigLIP 2 इस संदर्भ में कैसे काम करता है, इसका विवरण दिया गया है:
आधार: विज़न ट्रांसफ़ॉर्मर (ViT) और सिग्मॉइड लॉस
- विज़न ट्रांसफ़ॉर्मर (ViT): कनवल्शनल न्यूरल नेटवर्क (CNNs) के विपरीत, SigLIP 2 एक विज़न ट्रांसफ़ॉर्मर (ViT) आर्किटेक्चर का उपयोग करता है। ViT एक इमेज को पैच के एक क्रम के रूप में मानता है, उसी तरह जैसे प्राकृतिक भाषा प्रसंस्करण में शब्दों को टोकन के रूप में माना जाता है। प्रत्येक पैच को एक वेक्टर प्रतिनिधित्व (एक एम्बेडिंग) में परिवर्तित किया जाता है। यह मॉडल को शक्तिशाली ट्रांसफ़ॉर्मर आर्किटेक्चर का उपयोग करने की अनुमति देता है, जो लंबी दूरी की निर्भरताओं को कैप्चर करने की अपनी क्षमता के लिए जाना जाता है, ताकि इमेज के विभिन्न हिस्सों के बीच संबंधों को समझा जा सके।
- सिग्मॉइड लॉस (कॉन्ट्रास्टिव नहीं): SigLIP (और SigLIP 2) का एक प्रमुख विभेदक अधिक सामान्य कॉन्ट्रास्टिव लॉस (CLIP जैसे मॉडलों में उपयोग किया जाता है) के बजाय सिग्मॉइड लॉस फंक्शन का उपयोग है। कॉन्ट्रास्टिव लर्निंग के लिए एक इमेज की कई टेक्स्ट विकल्पों से तुलना करने की आवश्यकता होती है। दूसरी ओर, सिग्मॉइड लॉस, इमेज-टेक्स्ट मिलान को प्रत्येक इमेज-टेक्स्ट जोड़ी के लिए एक बाइनरी वर्गीकरण समस्या के रूप में मानता है। इस मामूली बदलाव का एक बड़ा प्रभाव पड़ता है: यह अधिक स्थिर प्रशिक्षण और बेहतर प्रदर्शन की अनुमति देता है, खासकर बड़े बैच आकारों के साथ। यह व्यक्तिगत इमेज-टेक्स्ट जोड़ी मिलानों पर केंद्रित है।
टेक्स्ट जेनरेशन के लिए उन्नत प्रशिक्षण
SigLIP 2 SigLIP की नींव लेता है और कई महत्वपूर्ण संवर्द्धन जोड़ता है जो सीधे इसकी इमेज-टू-टेक्स्ट क्षमताओं को लाभ पहुंचाते हैं:
- कैप्शनिंग-आधारित प्रीट्रेनिंग: यह एक बड़ा कदम है। SigLIP 2 अपनी प्रीट्रेनिंग प्रक्रिया के भाग के रूप में कैप्शनिंग को शामिल करता है। इसका मतलब है कि इसे स्पष्ट रूप से इमेजों के टेक्स्ट विवरण उत्पन्न करने के लिए प्रशिक्षित किया जाता है। यह मूल CLIP जैसे मॉडलों के विपरीत है, जिन्हें मुख्य रूप से इमेज-टेक्स्ट मिलान पर प्रशिक्षित किया गया था, न कि जेनरेशन पर।
- सेल्फ़-सुपरवाइज़्ड लर्निंग से प्रेरित: SigLIP 2 शक्तिशाली तकनीकों का लाभ उठाता है:
- सेल्फ़-डिस्टिलेशन: मॉडल अपनी खुद की भविष्यवाणियों से सीखता है, समय के साथ अपनी समझ को परिष्कृत करता है।
- मास्क्ड प्रेडिक्शन: इनपुट के कुछ हिस्सों (या तो इमेज पैच या टेक्स्ट टोकन) को छिपाया जाता है, और मॉडल लापता टुकड़ों की भविष्यवाणी करना सीखता है। यह इसे दोनों तौर-तरीकों की गहरी समझ विकसित करने के लिए मजबूर करता है।
- LocCa लॉस और डिकोडर: SigLIP 2 LocCa लॉस को एकीकृत करता है, जो क्रॉस-अटेंशन के साथ एक ट्रांसफ़ॉर्मर डिकोडर जोड़ता है। यह डिकोडर विशेष रूप से इमेज कैप्शनिंग, रेफ़रिंग एक्सप्रेशन प्रेडिक्शन (टेक्स्ट के आधार पर क्षेत्रों की पहचान करना), और ग्राउंडेड कैप्शनिंग जैसे कार्यों पर प्रशिक्षित होता है। यह फाइन-ग्रेन्ड लोकलाइज़ेशन और विस्तृत फीचर एक्सट्रैक्शन को बढ़ाता है।
यह सब एक साथ कैसे आता है (इमेज -> टेक्स्ट)
- इमेज इनपुट: एक इमेज को ViT एनकोडर में फीड किया जाता है।
- पैच एम्बेडिंग: इमेज को पैच में विभाजित किया जाता है, और प्रत्येक पैच को एक एम्बेडिंग वेक्टर में बदल दिया जाता है।
- ट्रांसफ़ॉर्मर एनकोडिंग: ट्रांसफ़ॉर्मर परतें इन पैच एम्बेडिंग को संसाधित करती हैं, इमेज के विभिन्न हिस्सों के बीच संबंधों को कैप्चर करती हैं। सीखी गई पोजीशनल एम्बेडिंग प्रत्येक पैच के स्थान के बारे में जानकारी प्रदान करती हैं।
- अटेंशन पूलिंग: एक अटेंशन-आधारित पूलिंग तंत्र (MAP हेड) पैच एम्बेडिंग से जानकारी को एक ही, व्यापक इमेज प्रतिनिधित्व में एकत्रित करता है।
- टेक्स्ट डिकोडर (इमेज-टू-टेक्स्ट के लिए महत्वपूर्ण): यहीं पर SigLIP 2 की कैप्शनिंग क्षमताएं काम आती हैं। एनकोडर से इमेज प्रतिनिधित्व को ट्रांसफ़ॉर्मर डिकोडर (LocCa लॉस द्वारा जोड़ा गया) में फीड किया जाता है। डिकोडर टेक्स्ट उत्पन्न करते समय इमेज प्रतिनिधित्व के प्रासंगिक हिस्सों पर ध्यान केंद्रित करने के लिए क्रॉस-अटेंशन का उपयोग करता है।
- टेक्स्ट आउटपुट: डिकोडर टेक्स्ट टोकन का एक क्रम उत्पन्न करता है, जो इमेज का कैप्शन या विवरण बनाता है।
बहुभाषी शक्ति
SigLIP 2 केवल अंग्रेजी तक ही सीमित नहीं है। इसे एक बहुभाषी डेटासेट (WebLI) पर प्रशिक्षित किया गया है, जिससे इसे कई भाषाओं में टेक्स्ट समझने और उत्पन्न करने की क्षमता मिलती है, जो इसे वास्तव में एक वैश्विक इमेज-टू-टेक्स्ट टूल बनाता है।
संक्षेप में
एक मजबूत ViT-आधारित आर्किटेक्चर, सिग्मॉइड लॉस, और, महत्वपूर्ण रूप से, कैप्शनिंग और सेल्फ़-डिस्टिलेशन के साथ डिकोडर-आधारित प्रीट्रेनिंग का SigLIP 2 का संयोजन इसे इमेज-टू-टेक्स्ट कार्यों के लिए एक अत्यधिक प्रभावी मॉडल बनाता है। यह सक्रिय रूप से वर्णनात्मक टेक्स्ट उत्पन्न करने के लिए साधारण इमेज-टेक्स्ट मिलान से आगे जाता है, स्वचालित इमेज कैप्शनिंग, विज़ुअल प्रश्न उत्तर और विस्तृत इमेज विश्लेषण जैसे अनुप्रयोगों के लिए संभावनाएं खोलता है।
लिंक
विज़न के साथ ChatGPT
यदि आपको इमेजों के बहुत बड़े डेटासेट का वर्णन करने की आवश्यकता नहीं है, तो आप ChatGPT में इमेज डिस्क्राइबर टूल का उपयोग कर सकते हैं। यह इमेजों के बड़े बैचों के लिए उपयुक्त नहीं है, लेकिन यह छोटे इमेज सेट के लिए एकदम सही है क्योंकि यह प्राकृतिक भाषा में बिल्कुल सर्वश्रेष्ठ विवरण प्रदान करता है। इस टूल से विवरण बहुत सटीक और विस्तृत होते हैं। यह केवल टैग नहीं हैं, बल्कि सुसंगत और जानकारीपूर्ण टेक्स्ट भी है जो इमेज में वस्तुओं के बीच संबंधों को भी ध्यान में रखता है।
उदाहरण:
टेस्ट इमेज सेट:



इमेज डिस्क्राइबर इन 3 इमेजों के लिए आउटपुट:
आपने तीन इमेज अपलोड की हैं। यहाँ प्रत्येक का विवरण दिया गया है:
- पहली इमेज में बड़ी, भावपूर्ण आँखों वाला एक प्यारा, शैलीबद्ध कार्टून किटेन है। यह मुख्य रूप से नारंगी रंग का है जिसमें चेहरे, छाती और पंजों पर सफेद रंग के निशान हैं। किटेन एक पेन पकड़े हुए है, जो लगभग उसके जितना बड़ा है, और एक चमकीले पीले गेंद पर एक खुश चेहरा बना रहा है। कला शैली बहुत परिष्कृत है और इसमें एक प्रकार की चमकदार फिनिश है। पृष्ठभूमि रंगीन, अमूर्त आकृतियों और तारों से भरे आकाश के सुझाव के साथ एक मनमौजी सेटिंग का सुझाव देती है।
- दूसरी इमेज एक सोशल मीडिया प्लेटफॉर्म से चैट या कमेंट सेक्शन का स्क्रीनशॉट प्रतीत होती है। विभिन्न उपयोगकर्ताओं ने टिप्पणियाँ छोड़ी हैं, जिनमें से कई में “LMAO” और इमोजी जैसे परिवर्णी शब्द द्वारा इंगित हँसी या मनोरंजन शामिल है। उपयोगकर्ता नाम और प्रोफ़ाइल चित्र गोपनीयता के लिए पिक्सेलेटेड हैं, पिक्सेलेशन में विभिन्न प्रकार के रंग प्रदर्शित होते हैं।
- तीसरी इमेज एक युवा महिला का अत्यधिक विस्तृत और यथार्थवादी चित्रण है जिसमें एक दोस्ताना भाव है। उसके लंबे काले बाल, गोरी त्वचा है और उसने एक बैंगनी रंग की हुडी पहनी हुई है। महिला ने एक हेडसेट भी पहना हुआ है, जो बताता है कि वह एक वीडियो गेम स्ट्रीमर हो सकती है या किसी प्रकार के ऑनलाइन संचार में शामिल हो सकती है। सेटिंग बैंगनी रंग की रोशनी से प्रकाशित एक कमरा प्रतीत होती है, संभवतः एलईडी लाइट्स से, जो एक गेमिंग सेटअप का संकेत है।
प्रत्येक इमेज में एक बहुत ही अलग संदर्भ और दृश्य शैली है, जो मनमौजी चित्रण से लेकर डिजिटल इंटरैक्शन के स्क्रीनशॉट, और अधिक यथार्थवादी डिजिटल पेंटिंग तक है।
निष्कर्ष
CLIP, BLIP, WD 1.4, SigLIP 2, और इमेज डिस्क्राइबर के बीच चयन करना काफी हद तक एक परियोजना की विशिष्ट आवश्यकताओं पर निर्भर करता है। यदि परिशुद्धता और विवरण सर्वोपरि हैं, तो WD 1.4 अपने उन्नत कॉन्फ़िगरेशन और विस्तृत टैगिंग क्षमताओं के साथ एक आकर्षक विकल्प प्रदान करता है। सरल अनुप्रयोगों के लिए, BLIP का सीधा दृष्टिकोण अधिक उपयुक्त हो सकता है। इस बीच, CLIP विवरण और सादगी के बीच संतुलन प्रदान करता है, हालांकि शब्दाडंबर की प्रवृत्ति के साथ।
इमेज डिस्क्राइबर सबसे अच्छे परिणाम प्रदान करता है लेकिन बड़ी संख्या में इमेजों का वर्णन या टैगिंग करने के लिए उपयुक्त नहीं है।
जैसे-जैसे ये मॉडल विकसित और बेहतर होते रहते हैं, वे सामग्री निर्माण से लेकर डेटा विश्लेषण तक, अनुप्रयोगों के एक व्यापक स्पेक्ट्रम के लिए आशाजनक क्षमता रखते हैं। अपने मतभेदों के बावजूद, CLIP, BLIP, WD 1.4, SigLIP 2, और GPT-विज़न मॉडल इमेज-टू-टेक्स्ट तकनीक में तेजी से हुई प्रगति के प्रमाण हैं, प्रत्येक इस रोमांचक क्षेत्र में अद्वितीय ताकत का योगदान दे रहा है।