مدل‌های هوش مصنوعی تبدیل عکس به متن: CLIP، BLIP، WD 1.4 (معروف به WD14)، SigLIP 2 و ChatGPT با قابلیت بینایی

دسته‌بندی شده در AI/ML،Art،Open Source برچسب خورده با ،،،
Save and Share:

تگ‌گذاری، برچسب‌زنی یا توصیف خودکار تصاویر، وظیفه‌ای حیاتی در بسیاری از کاربردها، به‌ویژه در آماده‌سازی مجموعه‌داده‌ها برای یادگیری ماشین است. اینجاست که مدل‌های تبدیل عکس به متن به کمک می‌آیند. از جمله مدل‌های پیشرو در این زمینه می‌توان به CLIP، BLIP، WD 1.4 (که با نام‌های WD14 یا Waifu Diffusion 1.4 Tagger نیز شناخته می‌شود)، SigLIP 2 و ChatGPT با قابلیت بینایی اشاره کرد.

CLIP: یک جهش انقلابی

مدل پیش‌آموزش کنتراست زبان-تصویر (CLIP) از OpenAI، به دلیل رویکرد انقلابی خود در درک و تولید توصیف برای تصاویر، به‌طور گسترده‌ای مورد تحسین قرار گرفته است. CLIP از حجم عظیمی از متن و داده‌های تصویری اینترنت بهره می‌برد تا مفاهیم بصری متعددی را بیاموزد و از این طریق جملات توصیفی برای تصاویر تولید کند.

با این حال، طبق نظرات کاربران، جملات توصیفی CLIP گاهی اوقات می‌توانند زائد یا بیش از حد طولانی باشند. یک انتقاد رایج در مورد تمایل این مدل به تکرار توصیف‌های مشابه برای یک شیء یکسان یا تأکید بیش از حد بر ویژگی‌های خاص، مانند رنگ یک شیء، است.

BLIP: سادگی در خدمت کارایی

مدل BLIP، اگرچه در مقایسه با CLIP توصیف‌های کم‌جزئیات‌تری ارائه می‌دهد، اما رویکردی ساده‌تر و مستقیم‌تر به پردازش عکس به متن دارد. همانطور که یکی از منتقدان اشاره کرده است، BLIP “جذاب و کارآمد است، اما بسیار ابتدایی است.” سادگی این مدل می‌تواند یک مزیت برای کاربردهایی باشد که به تگ‌ها یا توصیف‌های ساده‌تر و کم‌حاشیه‌تری نیاز دارند.

با این وجود، برخی از کاربران دریافتند که خروجی BLIP اغلب فاقد عمق و جزئیاتی است که مدل‌هایی مانند WD14 ارائه می‌دهند. در حالی که می‌تواند نتایج رضایت‌بخشی تولید کند، BLIP ممکن است بهترین انتخاب برای کاربردهایی نباشد که به تگ‌های دقیق و پیچیده نیاز دارند.

به نظر من WD14، با وجود تمرکز بر انیمه، برای عکس‌های واقعی افراد هم عالی عمل می‌کند. معمولاً آن را با BLIP ترکیب می‌کنم و اغلب اوقات جزئیات بسیار بیشتری نسبت به BLIP ثبت می‌کند.

تونی کورورا در بخش نظرات یوتیوب

Blip جذاب و کارآمد است، اما بسیار ابتدایی است.

تگ‌گذاری WD 1.4 (WD14) به مراتب بهتر است – جزئیات بیشتر، تگ‌های پُرمغزتر.

OrphBean در GitHub

WD 1.4 (معروف به WD14): دقت در جزئیات

مدل WD 1.4 (که با نام‌های WD14 یا Waifu Diffusion 1.4 Tagger نیز شناخته می‌شود)، که در ابتدا برای تصاویر انیمه طراحی شده بود، تطبیق‌پذیری شگفت‌انگیزی از خود نشان داده و حتی در عکس‌ها نیز عملکرد خوبی دارد. کاربران از گزینه‌های پیکربندی پیشرفته و قابلیت پردازش دسته‌ای آن ستایش کرده‌اند که آن را به ابزاری قدرتمند برای ترجمه عکس به متن تبدیل می‌کند.

آنچه WD14 را متمایز می‌کند، توانایی آن در تولید تگ‌های دقیق و “پُرمغزتر” است که در مقایسه با رقبای خود، توصیف‌های عمیق‌تری از تصاویر ارائه می‌دهد. در حالی که احتمال تولید تگ‌های نامربوط توسط این مدل کمتر است، تمرکز آن بر انیمه ممکن است محدودیتی برای انواع خاصی از تصاویر باشد.

پرسش: آیا تگ‌گذار WD14 از BLIP یا deepdanbooru داخلی Automatic1111 بهتر است؟

پاسخ: این افزونه گزینه‌های بهتری برای پیکربندی و پردازش دسته‌ای ارائه می‌دهد و به نظر من احتمال تولید تگ‌های کاملاً نامربوط توسط آن نسبت به deepdanbooru کمتر است.

CLIP/BLIP متفاوت است زیرا آنها جملات توصیفی تولید می‌کنند نه لیست تگ‌ها، اما دومی معمولاً بیشتر با نیازهای من همخوانی دارد. و بازجوی داخلی CLIP مستعد تولید چیزهایی مانند “تصویری از (توصیف) و تصویری از (توصیف کمی متفاوت از همان چیز)” یا “(توصیف تقریباً کامل) و موهای صورتی و موهای صورتی و موهای صورتی و (تکرار چندین بار)” است.

تگ‌گذار WD14 با وجود اینکه برای انیمه ساخته شده است، روی عکس‌ها هم بسیار خوب کار می‌کند.

MorganTheDual در Reddit

SigLIP 2: یک موتور قدرتمند عکس به متن

مدل رایگان و متن‌باز SigLIP 2 از گوگل، فقط یک مدل دیداری-زبانی نیست؛ بلکه یک موتور قدرتمند برای تبدیل تصاویر به متن معنادار است. در حالی که در وظایفی مانند بازیابی تصویر-متن و طبقه‌بندی صفر-شات عالی عمل می‌کند، معماری و بهبودهای آموزشی آن، آن را به یک رقیب قوی برای تولید و درک عکس به متن تبدیل کرده است. در اینجا خلاصه‌ای از نحوه عملکرد SigLIP 2 در این زمینه آورده شده است:

پایه و اساس: Vision Transformer (ViT) و Sigmoid Loss

  • Vision Transformer (ViT): برخلاف شبکه‌های عصبی کانولوشنی (CNN)، SigLIP 2 از معماری Vision Transformer (ViT) استفاده می‌کند. ViT با یک تصویر مانند یک دنباله از پچ‌ها رفتار می‌کند، مشابه نحوه برخورد با کلمات به عنوان توکن در پردازش زبان طبیعی. هر پچ به یک نمایش برداری (embedding) تبدیل می‌شود. این به مدل اجازه می‌دهد تا از معماری قدرتمند Transformer، که به دلیل توانایی‌اش در ثبت وابستگی‌های طولانی‌مدت شناخته شده است، برای درک روابط بین بخش‌های مختلف تصویر استفاده کند.
  • Sigmoid Loss (غیر کنتراستی): یک وجه تمایز کلیدی SigLIP (و SigLIP 2) استفاده از تابع loss سیگموئید به جای loss کنتراستی رایج‌تر (که در مدل‌هایی مانند CLIP استفاده می‌شود) است. یادگیری کنتراستی مستلزم مقایسه یک تصویر با چندین گزینه متنی است. از طرف دیگر، sigmoid loss، تطبیق تصویر-متن را به عنوان یک مسئله طبقه‌بندی دودویی برای هر جفت تصویر-متن در نظر می‌گیرد. این تغییر به ظاهر کوچک تأثیر بزرگی دارد: آموزش پایدارتر و عملکرد بهتری را، به ویژه با اندازه‌های دسته‌ای بزرگتر، امکان‌پذیر می‌کند. تمرکز آن بر تطابق‌های جفت تصویر-متن فردی است.

آموزش پیشرفته برای تولید متن

SigLIP 2 پایه و اساس SigLIP را می‌گیرد و چندین بهبود اساسی را اضافه می‌کند که مستقیماً به قابلیت‌های عکس به متن آن سود می‌رساند:

  • پیش‌آموزش مبتنی بر شرح تصویر (Captioning-Based Pretraining): این یک گام بزرگ است. SigLIP 2 شرح تصویر را به عنوان بخشی از فرآیند پیش‌آموزش خود گنجانده است. این بدان معناست که به طور صریح برای تولید توصیف‌های متنی از تصاویر آموزش داده شده است. این برخلاف مدل‌هایی مانند CLIP اصلی است که در درجه اول روی تطبیق تصویر-متن آموزش داده شده بودند، نه تولید.

  • الهام گرفته از یادگیری خود-نظارتی: SigLIP 2 از تکنیک‌های قدرتمندی بهره می‌برد:
    • خود-تقطیر (Self-Distillation): مدل از پیش‌بینی‌های خودش یاد می‌گیرد و درک خود را در طول زمان اصلاح می‌کند.
    • پیش‌بینی پنهان (Masked Prediction): بخش‌هایی از ورودی (چه پچ‌های تصویر یا توکن‌های متن) پنهان می‌شوند و مدل یاد می‌گیرد قطعات گمشده را پیش‌بینی کند. این امر آن را مجبور می‌کند تا درک عمیق‌تری از هر دو حالت ایجاد کند.
  • LocCa Loss و Decoder: SigLIP 2، LocCa loss را ادغام می‌کند که یک رمزگشا Transformer با توجه متقاطع (cross-attention) اضافه می‌کند. این رمزگشا به طور خاص روی وظایفی مانند شرح تصویر، پیش‌بینی عبارت ارجاعی (شناسایی مناطق بر اساس متن) و شرح تصویر زمینه‌ای آموزش داده شده است. این امر محلی‌سازی دقیق و استخراج ویژگی‌های جزئی را افزایش می‌دهد.

نحوه کنار هم قرار گرفتن همه چیز (تصویر -> متن)

  1. ورودی تصویر: یک تصویر به رمزگذار ViT داده می‌شود.
  2. Embedding پچ: تصویر به پچ‌ها تقسیم می‌شود و هر پچ به یک بردار embedding تبدیل می‌شود.
  3. رمزگذاری Transformer: لایه‌های Transformer این embeddingهای پچ را پردازش می‌کنند و روابط بین بخش‌های مختلف تصویر را ثبت می‌کنند. embeddingهای موقعیتی آموخته شده اطلاعاتی در مورد مکان هر پچ ارائه می‌دهند.
  4. Pooling توجه (Attention Pooling): یک مکانیزم pooling مبتنی بر توجه (سر MAP) اطلاعات را از embeddingهای پچ در یک نمایش جامع واحد از تصویر جمع‌آوری می‌کند.
  5. رمزگشای متن (حیاتی برای عکس به متن): اینجاست که قابلیت‌های شرح تصویر SigLIP 2 وارد عمل می‌شود. نمایش تصویر از رمزگذار به رمزگشای Transformer (اضافه شده توسط LocCa loss) داده می‌شود. رمزگشا از توجه متقاطع برای تمرکز بر بخش‌های مرتبط از نمایش تصویر در حین تولید متن استفاده می‌کند.
  6. خروجی متن: رمزگشا یک دنباله از توکن‌های متن تولید می‌کند که یک شرح یا توصیف از تصویر را تشکیل می‌دهد.

قدرت چندزبانه

SigLIP 2 محدود به انگلیسی نیست. روی یک مجموعه داده چندزبانه (WebLI) آموزش داده شده است و به آن توانایی درک و تولید متن به چندین زبان را می‌دهد و آن را به یک ابزار واقعاً جهانی عکس به متن تبدیل می‌کند.

در خلاصه

ترکیب SigLIP 2 از یک معماری قوی مبتنی بر ViT، sigmoid loss، و از همه مهمتر، پیش‌آموزش مبتنی بر رمزگشا با شرح تصویر و خود-تقطیر، آن را به یک مدل بسیار مؤثر برای وظایف عکس به متن تبدیل می‌کند. این مدل فراتر از تطبیق ساده تصویر-متن می‌رود تا به طور فعال متن توصیفی تولید کند و امکاناتی را برای کاربردهایی مانند شرح تصویر خودکار، پاسخگویی بصری به سؤالات و تجزیه و تحلیل دقیق تصویر باز می‌کند.

پیوندها

ChatGPT با قابلیت بینایی

اگر نیاز به توصیف یک مجموعه داده نه چندان بزرگ از تصاویر دارید، می‌توانید از ابزار Image Describer در ChatGPT استفاده کنید. این ابزار برای دسته‌های بزرگ تصاویر مناسب نیست، اما برای مجموعه‌های تصویر کوچک‌تر عالی است زیرا کاملاً بهترین توصیف‌ها را به زبان طبیعی ارائه می‌دهد. توصیف‌های این ابزار بسیار دقیق و مفصل هستند. این فقط تگ نیست، بلکه متن منسجم و آموزنده‌ای است که روابط بین اشیاء در تصویر را نیز در نظر می‌گیرد.

مثال:

مجموعه تصویر آزمایشی:

خروجی Image Describer برای این 3 تصویر:

شما سه تصویر آپلود کرده‌اید. در اینجا توصیفی از هر کدام آمده است:

  1. تصویر اول یک بچه گربه کارتونی دوست‌داشتنی و stylized با چشم‌های بزرگ و رسا را نشان می‌دهد. رنگ غالب آن نارنجی است با ته‌رنگ‌های سفید روی صورت، سینه و پنجه‌هایش. بچه گربه یک خودکار در دست دارد که تقریباً به اندازه خود گربه است و در حال کشیدن یک صورت خندان روی یک توپ زرد روشن است. سبک هنری بسیار صیقلی است و نوعی پوشش براق دارد. پس‌زمینه یک محیط خیالی را با اشکال انتزاعی رنگارنگ و اشاره‌ای به آسمان پر ستاره نشان می‌دهد.
  2. تصویر دوم به نظر می‌رسد اسکرین‌شاتی از بخش چت یا نظرات از یک پلتفرم رسانه‌های اجتماعی باشد. کاربران مختلف نظراتی را گذاشته‌اند که بسیاری از آنها شامل خنده یا سرگرمی است که با مخفف‌هایی مانند “LMAO” و ایموجی‌ها نشان داده شده است. نام‌های کاربری و تصاویر پروفایل برای حفظ حریم خصوصی پیکسل‌بندی شده‌اند و رنگ‌های متنوعی در پیکسل‌بندی نمایش داده می‌شود.
  3. تصویر سوم یک تصویرسازی بسیار دقیق و واقع‌گرایانه از یک زن جوان با چهره‌ای دوستانه است. او موهای بلند مشکی، پوست روشن دارد و یک هودی بنفش پوشیده است. این زن همچنین یک هدست به سر دارد که نشان می‌دهد ممکن است یک استریمر بازی‌های ویدیویی باشد یا به نوعی در ارتباطات آنلاین مشغول باشد. محیط به نظر می‌رسد اتاقی باشد که با رنگ بنفش، احتمالاً از چراغ‌های LED، روشن شده است که نشان‌دهنده یک چیدمان بازی است.

هر تصویر زمینه و سبک بصری بسیار متفاوتی دارد، از تصویرسازی خیالی گرفته تا اسکرین‌شات از یک تعامل دیجیتالی، تا یک نقاشی دیجیتالی واقع‌گرایانه‌تر.

جمع‌بندی

انتخاب بین CLIP، BLIP، WD 1.4، SigLIP 2 و Image Describer تا حد زیادی به نیازهای خاص یک پروژه بستگی دارد. اگر دقت و جزئیات از اهمیت بالایی برخوردار باشند، WD 1.4 با پیکربندی پیشرفته و قابلیت‌های تگ‌گذاری دقیق خود، گزینه‌ای قانع‌کننده ارائه می‌دهد. برای کاربردهای ساده‌تر، رویکرد ساده BLIP ممکن است مناسب‌تر باشد. در همین حال، CLIP تعادلی بین جزئیات و سادگی ارائه می‌دهد، هرچند با گرایش به پرحرفی.

Image Describer بهترین نتایج را ارائه می‌دهد اما برای توصیف یا تگ‌گذاری مجموعه‌های بزرگ تصاویر مناسب نیست.

همانطور که این مدل‌ها به تکامل و بهبود خود ادامه می‌دهند، پتانسیل امیدوارکننده‌ای برای طیف گسترده‌ای از کاربردها، از تولید محتوا تا تجزیه و تحلیل داده‌ها، دارند. با وجود تفاوت‌هایشان، مدل‌های CLIP، BLIP، WD 1.4، SigLIP 2 و GPT-Vision گواهی بر پیشرفت‌های سریع در فناوری عکس به متن هستند که هر کدام نقاط قوت منحصربه‌فردی را به این زمینه هیجان‌انگیز می‌بخشند.

دیدگاهی بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *