تگگذاری، برچسبزنی یا توصیف خودکار تصاویر، وظیفهای حیاتی در بسیاری از کاربردها، بهویژه در آمادهسازی مجموعهدادهها برای یادگیری ماشین است. اینجاست که مدلهای تبدیل عکس به متن به کمک میآیند. از جمله مدلهای پیشرو در این زمینه میتوان به CLIP، BLIP، WD 1.4 (که با نامهای WD14 یا Waifu Diffusion 1.4 Tagger نیز شناخته میشود)، SigLIP 2 و ChatGPT با قابلیت بینایی اشاره کرد.
CLIP: یک جهش انقلابی
مدل پیشآموزش کنتراست زبان-تصویر (CLIP) از OpenAI، به دلیل رویکرد انقلابی خود در درک و تولید توصیف برای تصاویر، بهطور گستردهای مورد تحسین قرار گرفته است. CLIP از حجم عظیمی از متن و دادههای تصویری اینترنت بهره میبرد تا مفاهیم بصری متعددی را بیاموزد و از این طریق جملات توصیفی برای تصاویر تولید کند.
با این حال، طبق نظرات کاربران، جملات توصیفی CLIP گاهی اوقات میتوانند زائد یا بیش از حد طولانی باشند. یک انتقاد رایج در مورد تمایل این مدل به تکرار توصیفهای مشابه برای یک شیء یکسان یا تأکید بیش از حد بر ویژگیهای خاص، مانند رنگ یک شیء، است.
BLIP: سادگی در خدمت کارایی
مدل BLIP، اگرچه در مقایسه با CLIP توصیفهای کمجزئیاتتری ارائه میدهد، اما رویکردی سادهتر و مستقیمتر به پردازش عکس به متن دارد. همانطور که یکی از منتقدان اشاره کرده است، BLIP “جذاب و کارآمد است، اما بسیار ابتدایی است.” سادگی این مدل میتواند یک مزیت برای کاربردهایی باشد که به تگها یا توصیفهای سادهتر و کمحاشیهتری نیاز دارند.
با این وجود، برخی از کاربران دریافتند که خروجی BLIP اغلب فاقد عمق و جزئیاتی است که مدلهایی مانند WD14 ارائه میدهند. در حالی که میتواند نتایج رضایتبخشی تولید کند، BLIP ممکن است بهترین انتخاب برای کاربردهایی نباشد که به تگهای دقیق و پیچیده نیاز دارند.
به نظر من WD14، با وجود تمرکز بر انیمه، برای عکسهای واقعی افراد هم عالی عمل میکند. معمولاً آن را با BLIP ترکیب میکنم و اغلب اوقات جزئیات بسیار بیشتری نسبت به BLIP ثبت میکند.
تونی کورورا در بخش نظرات یوتیوب
Blip جذاب و کارآمد است، اما بسیار ابتدایی است.
تگگذاری WD 1.4 (WD14) به مراتب بهتر است – جزئیات بیشتر، تگهای پُرمغزتر.
OrphBean در GitHub
WD 1.4 (معروف به WD14): دقت در جزئیات
مدل WD 1.4 (که با نامهای WD14 یا Waifu Diffusion 1.4 Tagger نیز شناخته میشود)، که در ابتدا برای تصاویر انیمه طراحی شده بود، تطبیقپذیری شگفتانگیزی از خود نشان داده و حتی در عکسها نیز عملکرد خوبی دارد. کاربران از گزینههای پیکربندی پیشرفته و قابلیت پردازش دستهای آن ستایش کردهاند که آن را به ابزاری قدرتمند برای ترجمه عکس به متن تبدیل میکند.
آنچه WD14 را متمایز میکند، توانایی آن در تولید تگهای دقیق و “پُرمغزتر” است که در مقایسه با رقبای خود، توصیفهای عمیقتری از تصاویر ارائه میدهد. در حالی که احتمال تولید تگهای نامربوط توسط این مدل کمتر است، تمرکز آن بر انیمه ممکن است محدودیتی برای انواع خاصی از تصاویر باشد.
پرسش: آیا تگگذار WD14 از BLIP یا deepdanbooru داخلی Automatic1111 بهتر است؟
پاسخ: این افزونه گزینههای بهتری برای پیکربندی و پردازش دستهای ارائه میدهد و به نظر من احتمال تولید تگهای کاملاً نامربوط توسط آن نسبت به deepdanbooru کمتر است.CLIP/BLIP متفاوت است زیرا آنها جملات توصیفی تولید میکنند نه لیست تگها، اما دومی معمولاً بیشتر با نیازهای من همخوانی دارد. و بازجوی داخلی CLIP مستعد تولید چیزهایی مانند “تصویری از (توصیف) و تصویری از (توصیف کمی متفاوت از همان چیز)” یا “(توصیف تقریباً کامل) و موهای صورتی و موهای صورتی و موهای صورتی و (تکرار چندین بار)” است.
تگگذار WD14 با وجود اینکه برای انیمه ساخته شده است، روی عکسها هم بسیار خوب کار میکند.
MorganTheDual در Reddit
SigLIP 2: یک موتور قدرتمند عکس به متن
مدل رایگان و متنباز SigLIP 2 از گوگل، فقط یک مدل دیداری-زبانی نیست؛ بلکه یک موتور قدرتمند برای تبدیل تصاویر به متن معنادار است. در حالی که در وظایفی مانند بازیابی تصویر-متن و طبقهبندی صفر-شات عالی عمل میکند، معماری و بهبودهای آموزشی آن، آن را به یک رقیب قوی برای تولید و درک عکس به متن تبدیل کرده است. در اینجا خلاصهای از نحوه عملکرد SigLIP 2 در این زمینه آورده شده است:
پایه و اساس: Vision Transformer (ViT) و Sigmoid Loss
- Vision Transformer (ViT): برخلاف شبکههای عصبی کانولوشنی (CNN)، SigLIP 2 از معماری Vision Transformer (ViT) استفاده میکند. ViT با یک تصویر مانند یک دنباله از پچها رفتار میکند، مشابه نحوه برخورد با کلمات به عنوان توکن در پردازش زبان طبیعی. هر پچ به یک نمایش برداری (embedding) تبدیل میشود. این به مدل اجازه میدهد تا از معماری قدرتمند Transformer، که به دلیل تواناییاش در ثبت وابستگیهای طولانیمدت شناخته شده است، برای درک روابط بین بخشهای مختلف تصویر استفاده کند.
- Sigmoid Loss (غیر کنتراستی): یک وجه تمایز کلیدی SigLIP (و SigLIP 2) استفاده از تابع loss سیگموئید به جای loss کنتراستی رایجتر (که در مدلهایی مانند CLIP استفاده میشود) است. یادگیری کنتراستی مستلزم مقایسه یک تصویر با چندین گزینه متنی است. از طرف دیگر، sigmoid loss، تطبیق تصویر-متن را به عنوان یک مسئله طبقهبندی دودویی برای هر جفت تصویر-متن در نظر میگیرد. این تغییر به ظاهر کوچک تأثیر بزرگی دارد: آموزش پایدارتر و عملکرد بهتری را، به ویژه با اندازههای دستهای بزرگتر، امکانپذیر میکند. تمرکز آن بر تطابقهای جفت تصویر-متن فردی است.
آموزش پیشرفته برای تولید متن
SigLIP 2 پایه و اساس SigLIP را میگیرد و چندین بهبود اساسی را اضافه میکند که مستقیماً به قابلیتهای عکس به متن آن سود میرساند:
- پیشآموزش مبتنی بر شرح تصویر (Captioning-Based Pretraining): این یک گام بزرگ است. SigLIP 2 شرح تصویر را به عنوان بخشی از فرآیند پیشآموزش خود گنجانده است. این بدان معناست که به طور صریح برای تولید توصیفهای متنی از تصاویر آموزش داده شده است. این برخلاف مدلهایی مانند CLIP اصلی است که در درجه اول روی تطبیق تصویر-متن آموزش داده شده بودند، نه تولید.
- الهام گرفته از یادگیری خود-نظارتی: SigLIP 2 از تکنیکهای قدرتمندی بهره میبرد:
- خود-تقطیر (Self-Distillation): مدل از پیشبینیهای خودش یاد میگیرد و درک خود را در طول زمان اصلاح میکند.
- پیشبینی پنهان (Masked Prediction): بخشهایی از ورودی (چه پچهای تصویر یا توکنهای متن) پنهان میشوند و مدل یاد میگیرد قطعات گمشده را پیشبینی کند. این امر آن را مجبور میکند تا درک عمیقتری از هر دو حالت ایجاد کند.
- LocCa Loss و Decoder: SigLIP 2، LocCa loss را ادغام میکند که یک رمزگشا Transformer با توجه متقاطع (cross-attention) اضافه میکند. این رمزگشا به طور خاص روی وظایفی مانند شرح تصویر، پیشبینی عبارت ارجاعی (شناسایی مناطق بر اساس متن) و شرح تصویر زمینهای آموزش داده شده است. این امر محلیسازی دقیق و استخراج ویژگیهای جزئی را افزایش میدهد.
نحوه کنار هم قرار گرفتن همه چیز (تصویر -> متن)
- ورودی تصویر: یک تصویر به رمزگذار ViT داده میشود.
- Embedding پچ: تصویر به پچها تقسیم میشود و هر پچ به یک بردار embedding تبدیل میشود.
- رمزگذاری Transformer: لایههای Transformer این embeddingهای پچ را پردازش میکنند و روابط بین بخشهای مختلف تصویر را ثبت میکنند. embeddingهای موقعیتی آموخته شده اطلاعاتی در مورد مکان هر پچ ارائه میدهند.
- Pooling توجه (Attention Pooling): یک مکانیزم pooling مبتنی بر توجه (سر MAP) اطلاعات را از embeddingهای پچ در یک نمایش جامع واحد از تصویر جمعآوری میکند.
- رمزگشای متن (حیاتی برای عکس به متن): اینجاست که قابلیتهای شرح تصویر SigLIP 2 وارد عمل میشود. نمایش تصویر از رمزگذار به رمزگشای Transformer (اضافه شده توسط LocCa loss) داده میشود. رمزگشا از توجه متقاطع برای تمرکز بر بخشهای مرتبط از نمایش تصویر در حین تولید متن استفاده میکند.
- خروجی متن: رمزگشا یک دنباله از توکنهای متن تولید میکند که یک شرح یا توصیف از تصویر را تشکیل میدهد.
قدرت چندزبانه
SigLIP 2 محدود به انگلیسی نیست. روی یک مجموعه داده چندزبانه (WebLI) آموزش داده شده است و به آن توانایی درک و تولید متن به چندین زبان را میدهد و آن را به یک ابزار واقعاً جهانی عکس به متن تبدیل میکند.
در خلاصه
ترکیب SigLIP 2 از یک معماری قوی مبتنی بر ViT، sigmoid loss، و از همه مهمتر، پیشآموزش مبتنی بر رمزگشا با شرح تصویر و خود-تقطیر، آن را به یک مدل بسیار مؤثر برای وظایف عکس به متن تبدیل میکند. این مدل فراتر از تطبیق ساده تصویر-متن میرود تا به طور فعال متن توصیفی تولید کند و امکاناتی را برای کاربردهایی مانند شرح تصویر خودکار، پاسخگویی بصری به سؤالات و تجزیه و تحلیل دقیق تصویر باز میکند.
پیوندها
ChatGPT با قابلیت بینایی
اگر نیاز به توصیف یک مجموعه داده نه چندان بزرگ از تصاویر دارید، میتوانید از ابزار Image Describer در ChatGPT استفاده کنید. این ابزار برای دستههای بزرگ تصاویر مناسب نیست، اما برای مجموعههای تصویر کوچکتر عالی است زیرا کاملاً بهترین توصیفها را به زبان طبیعی ارائه میدهد. توصیفهای این ابزار بسیار دقیق و مفصل هستند. این فقط تگ نیست، بلکه متن منسجم و آموزندهای است که روابط بین اشیاء در تصویر را نیز در نظر میگیرد.
مثال:
مجموعه تصویر آزمایشی:



خروجی Image Describer برای این 3 تصویر:
شما سه تصویر آپلود کردهاید. در اینجا توصیفی از هر کدام آمده است:
- تصویر اول یک بچه گربه کارتونی دوستداشتنی و stylized با چشمهای بزرگ و رسا را نشان میدهد. رنگ غالب آن نارنجی است با تهرنگهای سفید روی صورت، سینه و پنجههایش. بچه گربه یک خودکار در دست دارد که تقریباً به اندازه خود گربه است و در حال کشیدن یک صورت خندان روی یک توپ زرد روشن است. سبک هنری بسیار صیقلی است و نوعی پوشش براق دارد. پسزمینه یک محیط خیالی را با اشکال انتزاعی رنگارنگ و اشارهای به آسمان پر ستاره نشان میدهد.
- تصویر دوم به نظر میرسد اسکرینشاتی از بخش چت یا نظرات از یک پلتفرم رسانههای اجتماعی باشد. کاربران مختلف نظراتی را گذاشتهاند که بسیاری از آنها شامل خنده یا سرگرمی است که با مخففهایی مانند “LMAO” و ایموجیها نشان داده شده است. نامهای کاربری و تصاویر پروفایل برای حفظ حریم خصوصی پیکسلبندی شدهاند و رنگهای متنوعی در پیکسلبندی نمایش داده میشود.
- تصویر سوم یک تصویرسازی بسیار دقیق و واقعگرایانه از یک زن جوان با چهرهای دوستانه است. او موهای بلند مشکی، پوست روشن دارد و یک هودی بنفش پوشیده است. این زن همچنین یک هدست به سر دارد که نشان میدهد ممکن است یک استریمر بازیهای ویدیویی باشد یا به نوعی در ارتباطات آنلاین مشغول باشد. محیط به نظر میرسد اتاقی باشد که با رنگ بنفش، احتمالاً از چراغهای LED، روشن شده است که نشاندهنده یک چیدمان بازی است.
هر تصویر زمینه و سبک بصری بسیار متفاوتی دارد، از تصویرسازی خیالی گرفته تا اسکرینشات از یک تعامل دیجیتالی، تا یک نقاشی دیجیتالی واقعگرایانهتر.
جمعبندی
انتخاب بین CLIP، BLIP، WD 1.4، SigLIP 2 و Image Describer تا حد زیادی به نیازهای خاص یک پروژه بستگی دارد. اگر دقت و جزئیات از اهمیت بالایی برخوردار باشند، WD 1.4 با پیکربندی پیشرفته و قابلیتهای تگگذاری دقیق خود، گزینهای قانعکننده ارائه میدهد. برای کاربردهای سادهتر، رویکرد ساده BLIP ممکن است مناسبتر باشد. در همین حال، CLIP تعادلی بین جزئیات و سادگی ارائه میدهد، هرچند با گرایش به پرحرفی.
Image Describer بهترین نتایج را ارائه میدهد اما برای توصیف یا تگگذاری مجموعههای بزرگ تصاویر مناسب نیست.
همانطور که این مدلها به تکامل و بهبود خود ادامه میدهند، پتانسیل امیدوارکنندهای برای طیف گستردهای از کاربردها، از تولید محتوا تا تجزیه و تحلیل دادهها، دارند. با وجود تفاوتهایشان، مدلهای CLIP، BLIP، WD 1.4، SigLIP 2 و GPT-Vision گواهی بر پیشرفتهای سریع در فناوری عکس به متن هستند که هر کدام نقاط قوت منحصربهفردی را به این زمینه هیجانانگیز میبخشند.