इमेज-टू-टेक्स्ट एआई मॉडल्स: CLIP, BLIP, WD 1.4 (उर्फ WD14), SigLIP 2, और विज़न के साथ ChatGPT

AI/ML,Art,Open Source के रूप में वर्गीकृत किया गया है टैग किया गया ,,,
Save and Share:

इमेजों की स्वचालित टैगिंग, लेबलिंग, या वर्णन कई अनुप्रयोगों में एक महत्वपूर्ण कार्य है, खासकर मशीन लर्निंग के लिए डेटासेट तैयार करने में। यहीं पर इमेज-टू-टेक्स्ट मॉडल बचाव के लिए आते हैं। प्रमुख इमेज-टू-टेक्स्ट मॉडलों में CLIP, BLIP, WD 1.4 (जिसे WD14 या Waifu Diffusion 1.4 Tagger के नाम से भी जाना जाता है), SigLIP 2, और विज़न के साथ ChatGPT शामिल हैं।

CLIP: एक क्रांतिकारी कदम

OpenAI के कॉन्ट्रास्टिव लैंग्वेज-इमेज प्रीट्रेनिंग (CLIP) मॉडल को इमेजों के लिए वर्णन समझने और उत्पन्न करने के अपने क्रांतिकारी दृष्टिकोण के लिए व्यापक रूप से मान्यता मिली है। CLIP इंटरनेट टेक्स्ट और इमेज डेटा की एक बड़ी मात्रा का लाभ उठाता है ताकि कई दृश्य अवधारणाओं को सीखा जा सके, जिससे इमेजों के लिए वर्णनात्मक वाक्य तैयार किए जा सकें।

हालांकि, उपयोगकर्ता समीक्षाओं के अनुसार, CLIP के वर्णनात्मक वाक्य कभी-कभी अनावश्यक या अत्यधिक शाब्दिक हो सकते हैं। एक आम आलोचना मॉडल की एक ही वस्तु के लिए समान विवरण दोहराने या कुछ विशेषताओं, जैसे किसी वस्तु का रंग, पर अधिक जोर देने की प्रवृत्ति के इर्द-गिर्द घूमती है।

BLIP: सादगी और कार्यक्षमता का संगम

BLIP मॉडल, हालांकि CLIP की तुलना में अपने विवरण में कम विस्तृत है, इमेज-टू-टेक्स्ट प्रोसेसिंग के लिए एक सरल और अधिक सीधा दृष्टिकोण प्रदान करता है। जैसा कि एक समीक्षक ने उल्लेख किया, BLIP “कूल तो है, लेकिन यह काफी बेसिक है।” इस मॉडल की सादगी उन अनुप्रयोगों के लिए एक फायदा हो सकती है जिनके लिए सीधे, कम शाब्दिक टैग या विवरण की आवश्यकता होती है।

फिर भी, कुछ उपयोगकर्ताओं ने पाया कि BLIP का आउटपुट अक्सर WD14 जैसे मॉडलों द्वारा प्रदान की जाने वाली गहराई और बारीकियों से रहित होता है। जबकि यह संतोषजनक परिणाम उत्पन्न कर सकता है, BLIP उन अनुप्रयोगों के लिए सबसे अच्छा विकल्प नहीं हो सकता है जिनमें विस्तृत, जटिल टैग की आवश्यकता होती है।

मैंने पाया है कि WD14, एनीमे-केंद्रित होने के बावजूद, वास्तविक लोगों की तस्वीरों के लिए भी बहुत अच्छा काम करता है। मैं आमतौर पर इसे BLIP के साथ जोड़ता हूं और ज्यादातर समय यह BLIP से कहीं अधिक विवरण उठाता है।

टोनी कोरवेरा यूट्यूब कमेंट्स पर

Blip कूल तो है, लेकिन यह काफी बेसिक है।

WD 1.4 (WD14) टैगिंग कहीं बेहतर है – अधिक विवरण, रसदार टैग।

ऑर्फबीन गिटहब पर

WD 1.4 (उर्फ WD14): विवरण में परिशुद्धता

WD 1.4 मॉडल (जिसे WD14 या Waifu Diffusion 1.4 Tagger के नाम से भी जाना जाता है), जिसे शुरू में एनीमे इमेजों के लिए डिज़ाइन किया गया था, ने आश्चर्यजनक बहुमुखी प्रतिभा का प्रदर्शन किया है, और तस्वीरों के साथ भी अच्छा प्रदर्शन करता है। उपयोगकर्ताओं ने इसके उन्नत कॉन्फ़िगरेशन विकल्पों और बैच प्रोसेसिंग क्षमताओं की प्रशंसा की है, जो इसे इमेज-टू-टेक्स्ट अनुवाद के लिए एक मजबूत उपकरण बनाते हैं।

WD14 को जो चीज़ अलग करती है, वह है विस्तृत, “रसदार” टैग उत्पन्न करने की इसकी क्षमता, जो अपने समकक्षों की तुलना में इमेजों का अधिक गहन विवरण प्रदान करती है। जबकि इस मॉडल के गलत टैग उत्पन्न करने की संभावना कम है, एनीमे पर इसका ध्यान कुछ प्रकार की इमेजों के लिए एक सीमा हो सकती है।

प्रश्न: क्या WD14 टैगर Automatic1111 में निर्मित BLIP या deepdanbooru से बेहतर है?

उत्तर: एक्सटेंशन कॉन्फ़िगरेशन और बैच प्रोसेसिंग के लिए बेहतर विकल्प देता है, और मैंने पाया है कि यह deepdanbooru की तुलना में पूरी तरह से गलत टैग उत्पन्न करने की संभावना कम है।

CLIP/BLIP अलग है क्योंकि वे टैग की सूची के बजाय वर्णनात्मक वाक्य उत्पन्न करते हैं, लेकिन बाद वाला आमतौर पर मेरी आवश्यकताओं के अनुरूप होता है। और अंतर्निहित CLIP इंटरोगेटर “एक (विवरण) की तस्वीर और (उसी चीज़ का थोड़ा अलग विवरण) की तस्वीर” या “(ज्यादातर पूर्ण विवरण) और गुलाबी बाल और गुलाबी बाल और गुलाबी बाल और (कई बार दोहराना)” जैसी चीज़ें निकालने की संभावना रखता है।

एनीमे के लिए बनाए जाने के बावजूद, WD14 टैगर तस्वीरों पर काफी अच्छी तरह से काम करता है।

मॉर्गनदड्यूल रेडिट पर

SigLIP 2: एक शक्तिशाली इमेज-टू-टेक्स्ट इंजन

Google का मुफ़्त और ओपन मॉडल SigLIP 2, सिर्फ़ एक विज़न-लैंग्वेज मॉडल नहीं है; यह इमेजों को सार्थक टेक्स्ट में बदलने के लिए एक शक्तिशाली इंजन है। जबकि यह इमेज-टेक्स्ट पुनर्प्राप्ति और ज़ीरो-शॉट वर्गीकरण जैसे कार्यों में उत्कृष्ट है, इसकी वास्तुकला और प्रशिक्षण संवर्द्धन इसे इमेज-टू-टेक्स्ट जनरेशन और समझ के लिए एक मजबूत दावेदार बनाते हैं। यहां SigLIP 2 इस संदर्भ में कैसे काम करता है, इसका विवरण दिया गया है:

आधार: विज़न ट्रांसफ़ॉर्मर (ViT) और सिग्मॉइड लॉस

  • विज़न ट्रांसफ़ॉर्मर (ViT): कनवल्शनल न्यूरल नेटवर्क (CNNs) के विपरीत, SigLIP 2 एक विज़न ट्रांसफ़ॉर्मर (ViT) आर्किटेक्चर का उपयोग करता है। ViT एक इमेज को पैच के एक क्रम के रूप में मानता है, उसी तरह जैसे प्राकृतिक भाषा प्रसंस्करण में शब्दों को टोकन के रूप में माना जाता है। प्रत्येक पैच को एक वेक्टर प्रतिनिधित्व (एक एम्बेडिंग) में परिवर्तित किया जाता है। यह मॉडल को शक्तिशाली ट्रांसफ़ॉर्मर आर्किटेक्चर का उपयोग करने की अनुमति देता है, जो लंबी दूरी की निर्भरताओं को कैप्चर करने की अपनी क्षमता के लिए जाना जाता है, ताकि इमेज के विभिन्न हिस्सों के बीच संबंधों को समझा जा सके।
  • सिग्मॉइड लॉस (कॉन्ट्रास्टिव नहीं): SigLIP (और SigLIP 2) का एक प्रमुख विभेदक अधिक सामान्य कॉन्ट्रास्टिव लॉस (CLIP जैसे मॉडलों में उपयोग किया जाता है) के बजाय सिग्मॉइड लॉस फंक्शन का उपयोग है। कॉन्ट्रास्टिव लर्निंग के लिए एक इमेज की कई टेक्स्ट विकल्पों से तुलना करने की आवश्यकता होती है। दूसरी ओर, सिग्मॉइड लॉस, इमेज-टेक्स्ट मिलान को प्रत्येक इमेज-टेक्स्ट जोड़ी के लिए एक बाइनरी वर्गीकरण समस्या के रूप में मानता है। इस मामूली बदलाव का एक बड़ा प्रभाव पड़ता है: यह अधिक स्थिर प्रशिक्षण और बेहतर प्रदर्शन की अनुमति देता है, खासकर बड़े बैच आकारों के साथ। यह व्यक्तिगत इमेज-टेक्स्ट जोड़ी मिलानों पर केंद्रित है।

टेक्स्ट जेनरेशन के लिए उन्नत प्रशिक्षण

SigLIP 2 SigLIP की नींव लेता है और कई महत्वपूर्ण संवर्द्धन जोड़ता है जो सीधे इसकी इमेज-टू-टेक्स्ट क्षमताओं को लाभ पहुंचाते हैं:

  • कैप्शनिंग-आधारित प्रीट्रेनिंग: यह एक बड़ा कदम है। SigLIP 2 अपनी प्रीट्रेनिंग प्रक्रिया के भाग के रूप में कैप्शनिंग को शामिल करता है। इसका मतलब है कि इसे स्पष्ट रूप से इमेजों के टेक्स्ट विवरण उत्पन्न करने के लिए प्रशिक्षित किया जाता है। यह मूल CLIP जैसे मॉडलों के विपरीत है, जिन्हें मुख्य रूप से इमेज-टेक्स्ट मिलान पर प्रशिक्षित किया गया था, न कि जेनरेशन पर।
  • सेल्फ़-सुपरवाइज़्ड लर्निंग से प्रेरित: SigLIP 2 शक्तिशाली तकनीकों का लाभ उठाता है:
    • सेल्फ़-डिस्टिलेशन: मॉडल अपनी खुद की भविष्यवाणियों से सीखता है, समय के साथ अपनी समझ को परिष्कृत करता है।
    • मास्क्ड प्रेडिक्शन: इनपुट के कुछ हिस्सों (या तो इमेज पैच या टेक्स्ट टोकन) को छिपाया जाता है, और मॉडल लापता टुकड़ों की भविष्यवाणी करना सीखता है। यह इसे दोनों तौर-तरीकों की गहरी समझ विकसित करने के लिए मजबूर करता है।
  • LocCa लॉस और डिकोडर: SigLIP 2 LocCa लॉस को एकीकृत करता है, जो क्रॉस-अटेंशन के साथ एक ट्रांसफ़ॉर्मर डिकोडर जोड़ता है। यह डिकोडर विशेष रूप से इमेज कैप्शनिंग, रेफ़रिंग एक्सप्रेशन प्रेडिक्शन (टेक्स्ट के आधार पर क्षेत्रों की पहचान करना), और ग्राउंडेड कैप्शनिंग जैसे कार्यों पर प्रशिक्षित होता है। यह फाइन-ग्रेन्ड लोकलाइज़ेशन और विस्तृत फीचर एक्सट्रैक्शन को बढ़ाता है।

यह सब एक साथ कैसे आता है (इमेज -> टेक्स्ट)

  1. इमेज इनपुट: एक इमेज को ViT एनकोडर में फीड किया जाता है।
  2. पैच एम्बेडिंग: इमेज को पैच में विभाजित किया जाता है, और प्रत्येक पैच को एक एम्बेडिंग वेक्टर में बदल दिया जाता है।
  3. ट्रांसफ़ॉर्मर एनकोडिंग: ट्रांसफ़ॉर्मर परतें इन पैच एम्बेडिंग को संसाधित करती हैं, इमेज के विभिन्न हिस्सों के बीच संबंधों को कैप्चर करती हैं। सीखी गई पोजीशनल एम्बेडिंग प्रत्येक पैच के स्थान के बारे में जानकारी प्रदान करती हैं।
  4. अटेंशन पूलिंग: एक अटेंशन-आधारित पूलिंग तंत्र (MAP हेड) पैच एम्बेडिंग से जानकारी को एक ही, व्यापक इमेज प्रतिनिधित्व में एकत्रित करता है।
  5. टेक्स्ट डिकोडर (इमेज-टू-टेक्स्ट के लिए महत्वपूर्ण): यहीं पर SigLIP 2 की कैप्शनिंग क्षमताएं काम आती हैं। एनकोडर से इमेज प्रतिनिधित्व को ट्रांसफ़ॉर्मर डिकोडर (LocCa लॉस द्वारा जोड़ा गया) में फीड किया जाता है। डिकोडर टेक्स्ट उत्पन्न करते समय इमेज प्रतिनिधित्व के प्रासंगिक हिस्सों पर ध्यान केंद्रित करने के लिए क्रॉस-अटेंशन का उपयोग करता है।
  6. टेक्स्ट आउटपुट: डिकोडर टेक्स्ट टोकन का एक क्रम उत्पन्न करता है, जो इमेज का कैप्शन या विवरण बनाता है।

बहुभाषी शक्ति

SigLIP 2 केवल अंग्रेजी तक ही सीमित नहीं है। इसे एक बहुभाषी डेटासेट (WebLI) पर प्रशिक्षित किया गया है, जिससे इसे कई भाषाओं में टेक्स्ट समझने और उत्पन्न करने की क्षमता मिलती है, जो इसे वास्तव में एक वैश्विक इमेज-टू-टेक्स्ट टूल बनाता है।

संक्षेप में

एक मजबूत ViT-आधारित आर्किटेक्चर, सिग्मॉइड लॉस, और, महत्वपूर्ण रूप से, कैप्शनिंग और सेल्फ़-डिस्टिलेशन के साथ डिकोडर-आधारित प्रीट्रेनिंग का SigLIP 2 का संयोजन इसे इमेज-टू-टेक्स्ट कार्यों के लिए एक अत्यधिक प्रभावी मॉडल बनाता है। यह सक्रिय रूप से वर्णनात्मक टेक्स्ट उत्पन्न करने के लिए साधारण इमेज-टेक्स्ट मिलान से आगे जाता है, स्वचालित इमेज कैप्शनिंग, विज़ुअल प्रश्न उत्तर और विस्तृत इमेज विश्लेषण जैसे अनुप्रयोगों के लिए संभावनाएं खोलता है।

लिंक

विज़न के साथ ChatGPT

यदि आपको इमेजों के बहुत बड़े डेटासेट का वर्णन करने की आवश्यकता नहीं है, तो आप ChatGPT में इमेज डिस्क्राइबर टूल का उपयोग कर सकते हैं। यह इमेजों के बड़े बैचों के लिए उपयुक्त नहीं है, लेकिन यह छोटे इमेज सेट के लिए एकदम सही है क्योंकि यह प्राकृतिक भाषा में बिल्कुल सर्वश्रेष्ठ विवरण प्रदान करता है। इस टूल से विवरण बहुत सटीक और विस्तृत होते हैं। यह केवल टैग नहीं हैं, बल्कि सुसंगत और जानकारीपूर्ण टेक्स्ट भी है जो इमेज में वस्तुओं के बीच संबंधों को भी ध्यान में रखता है।

उदाहरण:

टेस्ट इमेज सेट:

इमेज डिस्क्राइबर इन 3 इमेजों के लिए आउटपुट:

आपने तीन इमेज अपलोड की हैं। यहाँ प्रत्येक का विवरण दिया गया है:

  1. पहली इमेज में बड़ी, भावपूर्ण आँखों वाला एक प्यारा, शैलीबद्ध कार्टून किटेन है। यह मुख्य रूप से नारंगी रंग का है जिसमें चेहरे, छाती और पंजों पर सफेद रंग के निशान हैं। किटेन एक पेन पकड़े हुए है, जो लगभग उसके जितना बड़ा है, और एक चमकीले पीले गेंद पर एक खुश चेहरा बना रहा है। कला शैली बहुत परिष्कृत है और इसमें एक प्रकार की चमकदार फिनिश है। पृष्ठभूमि रंगीन, अमूर्त आकृतियों और तारों से भरे आकाश के सुझाव के साथ एक मनमौजी सेटिंग का सुझाव देती है।
  2. दूसरी इमेज एक सोशल मीडिया प्लेटफॉर्म से चैट या कमेंट सेक्शन का स्क्रीनशॉट प्रतीत होती है। विभिन्न उपयोगकर्ताओं ने टिप्पणियाँ छोड़ी हैं, जिनमें से कई में “LMAO” और इमोजी जैसे परिवर्णी शब्द द्वारा इंगित हँसी या मनोरंजन शामिल है। उपयोगकर्ता नाम और प्रोफ़ाइल चित्र गोपनीयता के लिए पिक्सेलेटेड हैं, पिक्सेलेशन में विभिन्न प्रकार के रंग प्रदर्शित होते हैं।
  3. तीसरी इमेज एक युवा महिला का अत्यधिक विस्तृत और यथार्थवादी चित्रण है जिसमें एक दोस्ताना भाव है। उसके लंबे काले बाल, गोरी त्वचा है और उसने एक बैंगनी रंग की हुडी पहनी हुई है। महिला ने एक हेडसेट भी पहना हुआ है, जो बताता है कि वह एक वीडियो गेम स्ट्रीमर हो सकती है या किसी प्रकार के ऑनलाइन संचार में शामिल हो सकती है। सेटिंग बैंगनी रंग की रोशनी से प्रकाशित एक कमरा प्रतीत होती है, संभवतः एलईडी लाइट्स से, जो एक गेमिंग सेटअप का संकेत है।

प्रत्येक इमेज में एक बहुत ही अलग संदर्भ और दृश्य शैली है, जो मनमौजी चित्रण से लेकर डिजिटल इंटरैक्शन के स्क्रीनशॉट, और अधिक यथार्थवादी डिजिटल पेंटिंग तक है।

निष्कर्ष

CLIP, BLIP, WD 1.4, SigLIP 2, और इमेज डिस्क्राइबर के बीच चयन करना काफी हद तक एक परियोजना की विशिष्ट आवश्यकताओं पर निर्भर करता है। यदि परिशुद्धता और विवरण सर्वोपरि हैं, तो WD 1.4 अपने उन्नत कॉन्फ़िगरेशन और विस्तृत टैगिंग क्षमताओं के साथ एक आकर्षक विकल्प प्रदान करता है। सरल अनुप्रयोगों के लिए, BLIP का सीधा दृष्टिकोण अधिक उपयुक्त हो सकता है। इस बीच, CLIP विवरण और सादगी के बीच संतुलन प्रदान करता है, हालांकि शब्दाडंबर की प्रवृत्ति के साथ।

इमेज डिस्क्राइबर सबसे अच्छे परिणाम प्रदान करता है लेकिन बड़ी संख्या में इमेजों का वर्णन या टैगिंग करने के लिए उपयुक्त नहीं है।

जैसे-जैसे ये मॉडल विकसित और बेहतर होते रहते हैं, वे सामग्री निर्माण से लेकर डेटा विश्लेषण तक, अनुप्रयोगों के एक व्यापक स्पेक्ट्रम के लिए आशाजनक क्षमता रखते हैं। अपने मतभेदों के बावजूद, CLIP, BLIP, WD 1.4, SigLIP 2, और GPT-विज़न मॉडल इमेज-टू-टेक्स्ट तकनीक में तेजी से हुई प्रगति के प्रमाण हैं, प्रत्येक इस रोमांचक क्षेत्र में अद्वितीय ताकत का योगदान दे रहा है।

टिप्पणी करे

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *