স্বয়ংক্রিয়ভাবে ছবি ট্যাগ করা, লেবেল লাগানো অথবা বর্ণনা করা অনেক অ্যাপ্লিকেশনের একটি গুরুত্বপূর্ণ কাজ, বিশেষ করে মেশিন লার্নিং-এর জন্য ডেটাসেট প্রস্তুত করার ক্ষেত্রে। এখানেই ইমেজ-টু-টেক্সট মডেলগুলো কাজে আসে। প্রধান ইমেজ-টু-টেক্সট মডেলগুলোর মধ্যে কয়েকটি হল CLIP, BLIP, WD 1.4 (যা WD14 বা Waifu Diffusion 1.4 Tagger নামেও পরিচিত), SigLIP 2, এবং Vision সহ ChatGPT।
CLIP: একটি বিপ্লবী পদক্ষেপ
OpenAI-এর কন্ট্রাস্টিভ ল্যাঙ্গুয়েজ-ইমেজ প্রিট্রেনিং (CLIP) মডেল ছবি বোঝা এবং সেগুলোর বর্ণনা তৈরি করার বিপ্লবী পদ্ধতির জন্য ব্যাপকভাবে পরিচিতি লাভ করেছে। CLIP বিপুল পরিমাণ ইন্টারনেট টেক্সট এবং ইমেজ ডেটা ব্যবহার করে অসংখ্য ভিজ্যুয়াল ধারণা শেখে, যার মাধ্যমে এটি ছবিগুলোর জন্য বর্ণনামূলক বাক্য তৈরি করতে পারে।
তবে, ব্যবহারকারীদের পর্যালোচনামূলক মতামত অনুসারে, CLIP-এর বর্ণনামূলক বাক্যগুলো মাঝে মাঝে পুনরাবৃত্তিমূলক বা অতিরিক্ত শব্দবহুল হতে পারে। একটি সাধারণ সমালোচনা হল মডেলটির একই বস্তুর জন্য একই রকম বর্ণনা পুনরাবৃত্তি করার প্রবণতা অথবা কোনো নির্দিষ্ট বৈশিষ্ট্য, যেমন কোনো বস্তুর রং, অতিরিক্ত জোর দিয়ে বলার প্রবণতা।
BLIP: সরলতা এবং কার্যকারিতার মেলবন্ধন
BLIP মডেল, CLIP-এর তুলনায় বর্ণনায় কম বিস্তারিত হলেও, ইমেজ-টু-টেক্সট প্রক্রিয়াকরণে একটি সরল এবং আরও সরাসরি পদ্ধতি প্রদান করে। একজন পর্যালোচক যেমন উল্লেখ করেছেন, BLIP “কুল এবং সবকিছু, তবে এটি বেশ মৌলিক”। এই মডেলটির সরলতা সেসব অ্যাপ্লিকেশনের জন্য একটি সুবিধা হতে পারে যেখানে সরল, কম শব্দবহুল ট্যাগ বা বর্ণনার প্রয়োজন।
তা সত্ত্বেও, কিছু ব্যবহারকারী মনে করেছেন যে BLIP-এর আউটপুটে WD14-এর মতো মডেলগুলোর দেওয়া গভীরতা এবং বিশদতার অভাব থাকে। এটি সন্তোষজনক ফলাফল তৈরি করতে পারলেও, BLIP সম্ভবত সেসব অ্যাপ্লিকেশনের জন্য সেরা পছন্দ নাও হতে পারে যেখানে বিস্তারিত, জটিল ট্যাগ প্রয়োজন।
আমি দেখেছি WD14, মূলত এনিমে-কেন্দ্রিক হওয়া সত্ত্বেও, মানুষের আসল ছবির জন্যও দারুণ কাজ করে। আমি সাধারণত এটিকে BLIP-এর সাথে যুক্ত করি এবং বেশিরভাগ সময় এটি BLIP-এর চেয়ে অনেক বেশি বিবরণ ধরে ফেলে।
Toni Corvera at YouTube comments
Blip কুল এবং সবকিছু, তবে এটি বেশ মৌলিক।
WD 1.4 (WD14) ট্যাগিং অনেক ভালো – আরও বিস্তারিত, আরও আকর্ষণীয় ট্যাগ।
OrphBean at GitHub
WD 1.4 (ওরফে WD14): বিবরণে নির্ভুলতা
WD 1.4 মডেল (যা WD14 বা Waifu Diffusion 1.4 Tagger নামেও পরিচিত), প্রাথমিকভাবে এনিমে চিত্রের জন্য ডিজাইন করা হলেও, আশ্চর্যজনক বহুমুখিতা দেখিয়েছে, এমনকি ফটোগুলির সাথেও ভালো কাজ করে। ব্যবহারকারীরা এর উন্নত কনফিগারেশন অপশন এবং ব্যাচ প্রসেসিং ক্ষমতার প্রশংসা করেছেন, যা এটিকে ইমেজ-টু-টেক্সট অনুবাদের জন্য একটি শক্তিশালী সরঞ্জাম করে তোলে।
যা WD14 কে আলাদা করে তোলে তা হল এর বিস্তারিত, “আরও আকর্ষণীয়” ট্যাগ তৈরি করার ক্ষমতা, যা এর প্রতিপক্ষের তুলনায় চিত্রগুলির আরও গভীরতর বিবরণ প্রদান করে। এই মডেলটি স্পুরিয়াস ট্যাগ তৈরি করার সম্ভাবনা কম থাকলেও, এনিমেকে ফোকাস করার কারণে এটি কিছু নির্দিষ্ট ধরণের চিত্রের জন্য সীমাবদ্ধতা তৈরি করতে পারে।
প্রশ্ন: WD14 ট্যাগগার কি Automatic1111-এ বিল্ট-ইন BLIP বা deepdanbooru-এর চেয়ে ভালো?
উত্তর: এক্সটেনশনটি কনফিগারেশন এবং ব্যাচ প্রসেসিংয়ের জন্য আরও ভালো অপশন দেয় এবং আমি দেখেছি এটি deepdanbooru-এর চেয়ে সম্পূর্ণ স্পুরিয়াস ট্যাগ তৈরি করার সম্ভাবনা কম।CLIP/BLIP আলাদা কারণ সেগুলো ট্যাগ তালিকার পরিবর্তে বর্ণনামূলক বাক্য তৈরি করে, তবে পরেরটি সাধারণত আমার প্রয়োজনের সাথে বেশি সঙ্গতিপূর্ণ। আর বিল্ট-ইন CLIP ইন্টারোগেটর “একটি (বর্ণনা) ছবির এবং একটি (একই জিনিসের সামান্য ভিন্ন বর্ণনা) ছবি” অথবা “(প্রায় সম্পূর্ণ বর্ণনা) এবং গোলাপী চুল এবং গোলাপী চুল এবং গোলাপী চুল এবং (অনেকবার পুনরাবৃত্তি)” এর মতো জিনিস তৈরি করতে পারে।
এনিমেকে জন্য তৈরি হওয়া সত্ত্বেও, WD14 ট্যাগগার ফটোগুলিতে বেশ ভালো কাজ করে।
MorganTheDual at Reddit
SigLIP 2: একটি শক্তিশালী ইমেজ-টু-টেক্সট ইঞ্জিন
Google-এর বিনামূল্যের এবং ওপেন মডেল SigLIP 2 শুধু একটি ভিশন-ল্যাঙ্গুয়েজ মডেল নয়; এটি ছবিকে অর্থবহ টেক্সটে পরিণত করার জন্য একটি শক্তিশালী ইঞ্জিন। এটি ইমেজ-টেক্সট রিট্রিভাল এবং জিরো-শট ক্লাসিফিকেশনের মতো কাজে পারদর্শী হলেও, এর আর্কিটেকচার এবং প্রশিক্ষণ বর্ধিতকরণ এটিকে ইমেজ-টু-টেক্সট জেনারেশন এবং বোঝার জন্য একটি শক্তিশালী প্রতিযোগী করে তোলে। এখানে SigLIP 2 কীভাবে এই প্রেক্ষাপটে কাজ করে তার একটি বিশ্লেষণ দেওয়া হল:
ভিত্তি: ভিশন ট্রান্সফরমার (ViT) এবং সিগময়েড লস
- ভিশন ট্রান্সফরমার (ViT): ক convolutional neural network (CNNs) এর বিপরীতে, SigLIP 2 একটি ভিশন ট্রান্সফরমার (ViT) আর্কিটেকচার ব্যবহার করে। ViT একটি ছবিকে প্যাচের সিকোয়েন্স হিসাবে বিবেচনা করে, অনেকটা যেভাবে প্রাকৃতিক ভাষা প্রক্রিয়াকরণে শব্দগুলিকে টোকেন হিসাবে বিবেচনা করা হয়। প্রতিটি প্যাচকে ভেক্টর উপস্থাপনাতে (একটি এম্বেডিং) রূপান্তরিত করা হয়। এটি মডেলটিকে শক্তিশালী ট্রান্সফরমার আর্কিটেকচার ব্যবহার করার অনুমতি দেয়, যা দীর্ঘ-পরিসরের নির্ভরতা ক্যাপচার করার ক্ষমতার জন্য পরিচিত, যাতে চিত্রের বিভিন্ন অংশের মধ্যে সম্পর্ক বোঝা যায়।
- সিগময়েড লস (কন্ট্রাস্টিভ নয়): SigLIP (এবং SigLIP 2)-এর একটি মূল পার্থক্যকারী বৈশিষ্ট্য হল আরও সাধারণ কন্ট্রাস্টিভ লস (CLIP-এর মতো মডেলগুলিতে ব্যবহৃত) এর পরিবর্তে একটি সিগময়েড লস ফাংশনের ব্যবহার। কন্ট্রাস্টিভ লার্নিং-এর জন্য একটি চিত্রের সাথে একাধিক টেক্সট অপশনের তুলনা করার প্রয়োজন হয়। অন্যদিকে, সিগময়েড লস প্রতিটি ইমেজ-টেক্সট পেয়ারের জন্য ইমেজ-টেক্সট ম্যাচিংকে একটি বাইনারি ক্লাসিফিকেশন সমস্যা হিসাবে বিবেচনা করে। এই আপাতদৃষ্টিতে ছোট পরিবর্তনটির একটি বড় প্রভাব রয়েছে: এটি আরও স্থিতিশীল প্রশিক্ষণ এবং বিশেষ করে বড় ব্যাচ সাইজের সাথে আরও ভালো পারফরম্যান্সের অনুমতি দেয়। এটি পৃথক ইমেজ-টেক্সট পেয়ার ম্যাচের উপর ফোকাস করে।
টেক্সট জেনারেশনের জন্য উন্নত প্রশিক্ষণ
SigLIP 2 SigLIP-এর ভিত্তিকে গ্রহণ করে এবং বেশ কয়েকটি গুরুত্বপূর্ণ বর্ধিতকরণ যোগ করে যা সরাসরি এর ইমেজ-টু-টেক্সট ক্ষমতাকে উপকৃত করে:
- ক্যাপশনিং-ভিত্তিক প্রিট্রেনিং: এটি একটি বিশাল পদক্ষেপ। SigLIP 2 এর প্রিট্রেনিং প্রক্রিয়ার অংশ হিসাবে ক্যাপশনিং অন্তর্ভুক্ত করে। এর মানে হল এটিকে স্পষ্টভাবে চিত্রের টেক্সট বর্ণনা তৈরি করার জন্য প্রশিক্ষণ দেওয়া হয়েছে। এটি মূল CLIP-এর মতো মডেলগুলোর বিপরীতে, যেগুলি মূলত ইমেজ-টেক্সট ম্যাচিং-এর উপর প্রশিক্ষিত ছিল, জেনারেশনের উপর নয়।
- স্ব-তত্ত্বাবধানে শেখা থেকে অনুপ্রাণিত: SigLIP 2 শক্তিশালী কৌশল ব্যবহার করে:
- স্ব-ডিস্টিলেশন: মডেলটি সময়ের সাথে সাথে তার নিজস্ব পূর্বাভাস থেকে শেখে, তার বোঝাপড়াকে পরিমার্জন করে।
- মাস্কড প্রেডিকশন: ইনপুটের অংশগুলি (হয় ইমেজ প্যাচ বা টেক্সট টোকেন) লুকানো থাকে এবং মডেলটি অনুপস্থিত অংশগুলির পূর্বাভাস দিতে শেখে। এটি উভয় মোডালিটির গভীরতর ধারণা বিকাশে বাধ্য করে।
- LocCa লস এবং ডিকোডার: SigLIP 2 LocCa লসকে সংহত করে, যা ক্রস-অ্যাটেনশন সহ একটি ট্রান্সফরমার ডিকোডার যোগ করে। এই ডিকোডারটি বিশেষভাবে ইমেজ ক্যাপশনিং, এক্সপ্রেশন প্রেডিকশন (টেক্সটের উপর ভিত্তি করে অঞ্চল চিহ্নিত করা), এবং গ্রাউন্ডেড ক্যাপশনিং-এর মতো কাজগুলির উপর প্রশিক্ষিত। এটি সূক্ষ্ম-দানাযুক্ত স্থানীয়করণ এবং বিস্তারিত বৈশিষ্ট্য নিষ্কাশনকে উন্নত করে।
কীভাবে সবকিছু একসাথে আসে (ইমেজ -> টেক্সট)
- ইমেজ ইনপুট: একটি ইমেজ ViT এনকোডারে ফিড করা হয়।
- প্যাচ এম্বেডিং: ইমেজটিকে প্যাচে ভাগ করা হয় এবং প্রতিটি প্যাচকে একটি এম্বেডিং ভেক্টরে রূপান্তরিত করা হয়।
- ট্রান্সফরমার এনকোডিং: ট্রান্সফরমার লেয়ারগুলি এই প্যাচ এম্বেডিংগুলি প্রক্রিয়া করে, চিত্রের বিভিন্ন অংশের মধ্যে সম্পর্ক ক্যাপচার করে। শেখা পজিশনাল এম্বেডিং প্রতিটি প্যাচের অবস্থান সম্পর্কে তথ্য প্রদান করে।
- অ্যাটেনশন পুলিং: একটি অ্যাটেনশন-ভিত্তিক পুলিং মেকানিজম (MAP হেড) প্যাচ এম্বেডিংগুলি থেকে তথ্য সংগ্রহ করে একটি একক, বিস্তৃত ইমেজ উপস্থাপনায়।
- টেক্সট ডিকোডার (ইমেজ-টু-টেক্সটের জন্য গুরুত্বপূর্ণ): এখানেই SigLIP 2-এর ক্যাপশনিং ক্ষমতা কাজে লাগে। এনকোডার থেকে ইমেজ উপস্থাপনা ট্রান্সফরমার ডিকোডারে (LocCa লস দ্বারা যোগ করা) ফিড করা হয়। ডিকোডার টেক্সট তৈরি করার সময় ইমেজ উপস্থাপনার প্রাসঙ্গিক অংশগুলির উপর ফোকাস করার জন্য ক্রস-অ্যাটেনশন ব্যবহার করে।
- টেক্সট আউটপুট: ডিকোডার টেক্সট টোকেনের একটি সিকোয়েন্স তৈরি করে, যা চিত্রের একটি ক্যাপশন বা বর্ণনা তৈরি করে।
বহুভাষিক ক্ষমতা
SigLIP 2 শুধুমাত্র ইংরেজির মধ্যেই সীমাবদ্ধ নয়। এটি একটি বহুভাষিক ডেটাসেট (WebLI)-এর উপর প্রশিক্ষিত, যা এটিকে একাধিক ভাষায় টেক্সট বুঝতে এবং তৈরি করতে সক্ষম করে, এটিকে একটি সত্যিকারের বিশ্বব্যাপী ইমেজ-টু-টেক্সট টুল করে তোলে।
সংক্ষেপে
একটি শক্তিশালী ViT-ভিত্তিক আর্কিটেকচার, সিগময়েড লস, এবং, গুরুত্বপূর্ণভাবে, ক্যাপশনিং এবং স্ব-ডিস্টিলেশন সহ ডিকোডার-ভিত্তিক প্রিট্রেনিং-এর সংমিশ্রণ SigLIP 2-কে ইমেজ-টু-টেক্সট কাজের জন্য একটি অত্যন্ত কার্যকর মডেল করে তোলে। এটি সাধারণ ইমেজ-টেক্সট ম্যাচিং অতিক্রম করে সক্রিয়ভাবে বর্ণনামূলক টেক্সট তৈরি করে, যা স্বয়ংক্রিয় ইমেজ ক্যাপশনিং, ভিজ্যুয়াল প্রশ্ন জিজ্ঞাসা এবং বিস্তারিত ইমেজ বিশ্লেষণের মতো অ্যাপ্লিকেশনগুলির জন্য সম্ভাবনা উন্মোচন করে।
লিঙ্ক
Vision সহ ChatGPT
যদি আপনাকে খুব বড় নয় এমন একটি ইমেজের ডেটাসেট বর্ণনা করতে হয়, তাহলে আপনি ChatGPT-তে Image Describer টুলটি ব্যবহার করতে পারেন। এটি প্রচুর সংখ্যক ইমেজের জন্য উপযুক্ত নয়, তবে এটি ছোট ইমেজ সেটের জন্য একেবারে পারফেক্ট কারণ এটি একেবারে সেরা প্রাকৃতিক ভাষায় বর্ণনা প্রদান করে। এই টুল থেকে পাওয়া বর্ণনাগুলো খুব নির্ভুল এবং বিস্তারিত হয়। এটি শুধুমাত্র ট্যাগ নয়, বরং সুসংগত এবং তথ্যপূর্ণ টেক্সট যা চিত্রের বস্তুগুলোর মধ্যে সম্পর্ককেও বিবেচনা করে।
উদাহরণ:
টেস্ট ইমেজ সেট:



Image Describer এই 3টি ছবির জন্য আউটপুট:
আপনি তিনটি ছবি আপলোড করেছেন। এখানে প্রতিটি ছবির একটি বর্ণনা দেওয়া হল:
- প্রথম ছবিতে বড়, অভিব্যক্তিপূর্ণ চোখযুক্ত একটি সুন্দর, স্টাইলাইজড কার্টুন বিড়ালছানা রয়েছে। এটি প্রধানত কমলা রঙের, মুখ, বুক এবং থাবায় সাদা ছোঁয়া রয়েছে। বিড়ালছানাটি একটি কলম ধরে আছে, যা প্রায় তার নিজের আকারের সমান বড়, এবং একটি উজ্জ্বল হলুদ বলের উপর একটি হাসিমুখ আঁকছে। আর্ট স্টাইলটি খুব পরিশীলিত এবং এক ধরণের চকচকে ফিনিশ রয়েছে। পটভূমিতে রঙিন, বিমূর্ত আকার এবং একটি তারকাময় আকাশের আভাস সহ একটি অদ্ভুত সেটিংসের ইঙ্গিত দেয়।
- দ্বিতীয় ছবিটি একটি সামাজিক মিডিয়া প্ল্যাটফর্ম থেকে নেওয়া চ্যাট বা মন্তব্য বিভাগের স্ক্রিনশট বলে মনে হচ্ছে। বিভিন্ন ব্যবহারকারী মন্তব্য করেছেন, যার মধ্যে অনেকের মধ্যে হাসি বা মজা “LMAO” এবং ইমোজির মতো সংক্ষিপ্ত শব্দ দ্বারা নির্দেশিত। ব্যবহারকারীর নাম এবং প্রোফাইল ছবিগুলি গোপনীয়তার জন্য পিক্সেলযুক্ত করা হয়েছে, পিক্সেলগুলিতে বিভিন্ন রঙ প্রদর্শিত হচ্ছে।
- তৃতীয় ছবিটি একটি বন্ধুত্বপূর্ণ অভিব্যক্তি সহ এক যুবতী মহিলার অত্যন্ত বিস্তারিত এবং বাস্তবসম্মত চিত্রণ। তার লম্বা কালো চুল, ফর্সা ত্বক এবং একটি বেগুনি হুডি পরা। মহিলাটি একটি হেডসেটও পরে আছে, যা ইঙ্গিত করে যে তিনি একজন ভিডিও গেম স্ট্রিমার হতে পারেন বা কোনো ধরনের অনলাইন যোগাযোগের সাথে জড়িত থাকতে পারেন। সেটিংটি একটি বেগুনি আভা দিয়ে আলোকিত একটি ঘর বলে মনে হচ্ছে, সম্ভবত LED লাইট থেকে, যা গেমিং সেটআপের ইঙ্গিত দেয়।
প্রতিটি ছবির একটি খুব আলাদা প্রেক্ষাপট এবং ভিজ্যুয়াল শৈলী রয়েছে, যা অদ্ভুত চিত্রণ থেকে শুরু করে একটি ডিজিটাল মিথস্ক্রিয়া স্ক্রিনশট, এবং আরও বাস্তবসম্মত ডিজিটাল পেইন্টিং পর্যন্ত বিস্তৃত।
শেষ কথা
CLIP, BLIP, WD 1.4, SigLIP 2, এবং Image Describer-এর মধ্যে কোনটি বেছে নিতে হবে তা মূলত একটি প্রকল্পের নির্দিষ্ট প্রয়োজনের উপর নির্ভর করে। যদি নির্ভুলতা এবং বিস্তারিত তথ্য সবচেয়ে গুরুত্বপূর্ণ হয়, তাহলে WD 1.4 তার উন্নত কনফিগারেশন এবং বিস্তারিত ট্যাগিং ক্ষমতা সহ একটি আকর্ষণীয় বিকল্প সরবরাহ করে। সরল অ্যাপ্লিকেশনের জন্য, BLIP-এর সরল পদ্ধতি আরও উপযুক্ত হতে পারে। এদিকে, CLIP বিস্তারিত এবং সরলতার মধ্যে একটি ভারসাম্য প্রদান করে, যদিও শব্দবহুলতার প্রবণতা থাকে।
Image Describer সেরা ফলাফল প্রদান করে কিন্তু প্রচুর সংখ্যক ছবি বর্ণনা বা ট্যাগ করার জন্য উপযুক্ত নয়।
যেহেতু এই মডেলগুলি ক্রমাগত বিকশিত এবং উন্নত হচ্ছে, তাই কন্টেন্ট তৈরি থেকে ডেটা বিশ্লেষণ পর্যন্ত বিস্তৃত অ্যাপ্লিকেশনগুলির জন্য তাদের প্রতিশ্রুতিশীল সম্ভাবনা রয়েছে। তাদের পার্থক্য থাকা সত্ত্বেও, CLIP, BLIP, WD 1.4, SigLIP 2, এবং GPT-Vision মডেলগুলি ইমেজ-টু-টেক্সট প্রযুক্তির দ্রুত অগ্রগতির প্রমাণ, প্রতিটি এই উত্তেজনাপূর্ণ ক্ষেত্রে অনন্য শক্তি যোগ করে।