نماذج الذكاء الاصطناعي لتحويل الصور إلى نصوص: CLIP و BLIP و WD 1.4 (المعروف أيضًا باسم WD14) و SigLIP 2 و ChatGPT مع رؤية

مصنف كـ AI/ML، Art، المصدر المفتوح موسوم كـ ، ، ،
Save and Share:

يُعدّ الوسم أو التصنيف أو وصف الصور تلقائيًا مهمة بالغة الأهمية في العديد من التطبيقات، وخاصة في إعداد مجموعات البيانات الخاصة بالتعلم الآلي. وهنا يأتي دور نماذج تحويل الصور إلى نصوص لإنقاذ الموقف. ومن بين النماذج الرائدة في تحويل الصور إلى نصوص نذكر CLIP و BLIP و WD 1.4 (المعروف أيضًا باسم WD14 أو Waifu Diffusion 1.4 Tagger) و SigLIP 2 و ChatGPT مع رؤية.

CLIP: قفزة ثورية

حظي نموذج التدريب المسبق المتباين للغة والصورة (CLIP) من OpenAI بتقدير واسع النطاق لنهجه الثوري في فهم وإنشاء أوصاف للصور. يستفيد CLIP من كمية هائلة من نصوص الإنترنت وبيانات الصور لتعلم عدد كبير من المفاهيم المرئية، وبالتالي إنتاج جمل وصفية للصور.

ومع ذلك، وفقًا لمراجعات المستخدمين، يمكن أن تكون الجمل الوصفية لـ CLIP في بعض الأحيان مُسهبة أو مفرطة في الإطناب. يتمحور انتقاد شائع حول ميل النموذج إلى تكرار أوصاف مماثلة لنفس الكائن أو المبالغة في التأكيد على سمات معينة، مثل لون الكائن.

BLIP: البساطة تلتقي بالوظائفية

بينما يعتبر نموذج BLIP أقل تفصيلاً في أوصافه مقارنةً بـ CLIP، إلا أنه يقدم نهجًا أبسط وأكثر مباشرة لمعالجة تحويل الصور إلى نصوص. وكما أشار أحد المراجعين، فإن BLIP “رائع وكل شيء، لكنه أساسي جدًا”. يمكن أن تكون بساطة هذا النموذج ميزة للتطبيقات التي تتطلب علامات أو أوصافًا مباشرة وأقل إسهابًا.

ومع ذلك، وجد بعض المستخدمين أن مخرجات BLIP غالبًا ما تفتقر إلى العمق والتفصيل الذي توفره نماذج مثل WD14. في حين أنه يمكن أن يولد نتائج مرضية، قد لا يكون BLIP الخيار الأفضل للتطبيقات التي تتطلب علامات مفصلة ومعقدة.

لقد وجدت أن WD14، على الرغم من كونه مُركزًا على الأنمي، يعمل بشكل رائع أيضًا مع الصور الفعلية للأشخاص. عادةً ما أجمعه مع BLIP وفي معظم الأوقات يلتقط تفاصيل أكثر بكثير من BLIP.

توني كورفيرا في تعليقات يوتيوب

Blip رائع وكل شيء، لكنه أساسي جدًا.

وسم WD 1.4 (WD14) أفضل بكثير – تفاصيل أكثر وعلامات “أكثر عصارة”.

OrphBean في GitHub

WD 1.4 (المعروف أيضًا باسم WD14): دقة في التفاصيل

أظهر نموذج WD 1.4 (المعروف أيضًا باسم WD14 أو Waifu Diffusion 1.4 Tagger)، الذي صُمم في الأصل لصور الأنمي، تنوعًا مفاجئًا، حيث حقق أداءً جيدًا حتى مع الصور الفوتوغرافية. أشاد المستخدمون بخيارات التكوين المتقدمة وقدرات معالجة الدفعات الخاصة به، مما يجعله أداة قوية لترجمة الصور إلى نصوص.

ما يميز WD14 هو قدرته على إنشاء علامات مفصلة و”أكثر عصارة”، مما يوفر أوصافًا أكثر تعمقًا للصور مقارنة بنظيراتها. في حين أن هذا النموذج أقل عرضة لإنتاج علامات زائفة، إلا أن تركيزه على الأنمي قد يكون قيدًا لأنواع معينة من الصور.

س: هل مُوسِم WD14 أفضل من BLIP أو deepdanbooru المدمجين في Automatic1111؟

ج: يوفر الامتداد خيارات أفضل للتكوين ومعالجة الدفعات، وقد وجدته أقل عرضة لإنتاج علامات زائفة تمامًا من deepdanbooru.

يختلف CLIP/BLIP لأنهما ينتجان جملًا وصفية بدلاً من قوائم علامات، ولكن الأخيرة عادةً ما تكون أكثر توافقًا مع احتياجاتي. كما أن مستجوب CLIP المدمج عرضة لإخراج أشياء مثل “صورة لـ (وصف) وصورة لـ (وصف مختلف قليلاً لنفس الشيء)” أو “(وصف كامل تقريبًا) وشعر وردي وشعر وردي وشعر وردي و (تكرار مرات عديدة)”

على الرغم من أنه صُنع من أجل الأنمي، إلا أن مُوسِم WD14 يعمل بشكل جيد جدًا على الصور الفوتوغرافية.

MorganTheDual في Reddit

SigLIP 2: محرك قوي لتحويل الصور إلى نصوص

النموذج المجاني والمفتوح SigLIP 2 من جوجل، ليس مجرد نموذج للرؤية واللغة؛ بل هو محرك قوي لتحويل الصور إلى نصوص ذات معنى. في حين أنه يتفوق في مهام مثل استرجاع الصور والنصوص والتصنيف الصفري، إلا أن بنيته وتحسينات التدريب تجعله منافسًا قويًا لتوليد وفهم الصور إلى نصوص. إليكم تفصيل لكيفية عمل SigLIP 2 في هذا السياق:

الأساس: محول الرؤية (ViT) وفقدان سيغموند

  • محول الرؤية (ViT): على عكس الشبكات العصبية الالتفافية (CNNs)، يستخدم SigLIP 2 بنية محول الرؤية (ViT). يعامل ViT الصورة كسلسلة من الرقع، على غرار كيفية التعامل مع الكلمات كرموز في معالجة اللغة الطبيعية. يتم تحويل كل رقعة إلى تمثيل متجهي (تضمين). يتيح ذلك للنموذج استخدام بنية المحول القوية، المعروفة بقدرتها على التقاط التبعيات طويلة المدى، لفهم العلاقات بين الأجزاء المختلفة من الصورة.
  • فقدان سيغموند (غير متباين): أحد الفروق الرئيسية في SigLIP (و SigLIP 2) هو استخدام دالة فقدان سيغموند بدلاً من فقدان متباين أكثر شيوعًا (المستخدم في نماذج مثل CLIP). يتطلب التعلم المتباين مقارنة صورة بخيارات نصية متعددة. من ناحية أخرى، يعامل فقدان سيغموند مطابقة الصورة بالنص كمشكلة تصنيف ثنائي لكل زوج صورة-نص. هذا التغيير الصغير على ما يبدو له تأثير كبير: فهو يسمح بتدريب أكثر استقرارًا وأداء أفضل، خاصة مع أحجام الدُفعات الأكبر. يركز على مطابقة أزواج الصور والنصوص الفردية.

تدريب مُحسّن لتوليد النصوص

يأخذ SigLIP 2 أساس SigLIP ويضيف العديد من التحسينات الحاسمة التي تفيد بشكل مباشر قدراته في تحويل الصور إلى نصوص:

  • التدريب المسبق القائم على التعليق التوضيحي: هذه خطوة ضخمة. يدمج SigLIP 2 التعليق التوضيحي كجزء من عملية التدريب المسبق الخاصة به. هذا يعني أنه يتم تدريبه بشكل صريح على توليد أوصاف نصية للصور. هذا على عكس نماذج مثل CLIP الأصلي، التي تم تدريبها في المقام الأول على مطابقة الصور بالنصوص، وليس التوليد.
  • مستوحى من التعلم الذاتي الإشراف: يستفيد SigLIP 2 من تقنيات قوية:
    • التقطير الذاتي: يتعلم النموذج من تنبؤاته الخاصة، ويحسن فهمه بمرور الوقت.
    • التنبؤ المقنع: يتم إخفاء أجزاء من الإدخال (إما رقع الصور أو الرموز النصية)، ويتعلم النموذج التنبؤ بالأجزاء المفقودة. هذا يجبره على تطوير فهم أعمق لكلا الطريقتين.
  • فقدان LocCa والمُفكك: يدمج SigLIP 2 فقدان LocCa، الذي يضيف مُفكك محول مع الانتباه المتبادل. يتم تدريب هذا المُفكك خصيصًا على مهام مثل التعليق التوضيحي للصور، والتنبؤ بالتعبير المرجعي (تحديد المناطق بناءً على النص)، والتعليق التوضيحي المُرسخ. يعزز هذا التوطين الدقيق واستخراج الميزات التفصيلية.

كيف يجتمع كل شيء معًا (صورة -> نص)

  1. إدخال الصورة: يتم تغذية الصورة في مُشفِّر ViT.
  2. تضمين الرقعة: يتم تقسيم الصورة إلى رقع، ويتم تحويل كل رقعة إلى متجه تضمين.
  3. تشفير المحول: تعالج طبقات المحول عمليات تضمين الرقع هذه، وتلتقط العلاقات بين الأجزاء المختلفة من الصورة. توفر عمليات التضمين الموضعي المُتعلمة معلومات حول موقع كل رقعة.
  4. تجميع الانتباه: آلية تجميع قائمة على الانتباه (رأس MAP) تجمع المعلومات من عمليات تضمين الرقع في تمثيل صورة شامل واحد.
  5. مُفكك النصوص (ضروري لتحويل الصور إلى نصوص): هنا تظهر قدرات التعليق التوضيحي في SigLIP 2. يتم تغذية تمثيل الصورة من المُشفِّر إلى مُفكك المحول (الذي أضافه فقدان LocCa). يستخدم المُفكك الانتباه المتبادل للتركيز على الأجزاء ذات الصلة من تمثيل الصورة أثناء إنشاء النص.
  6. إخراج النص: يُنشئ المُفكك سلسلة من الرموز النصية، لتشكيل تعليق أو وصف للصورة.

قوة متعددة اللغات

لا يقتصر SigLIP 2 على اللغة الإنجليزية. لقد تم تدريبه على مجموعة بيانات متعددة اللغات (WebLI)، مما يمنحه القدرة على فهم وإنشاء النصوص بلغات متعددة، مما يجعله أداة عالمية حقًا لتحويل الصور إلى نصوص.

باختصار

إن مجموعة SigLIP 2 من البنية القوية القائمة على ViT، وفقدان سيغموند، والأهم من ذلك، التدريب المسبق القائم على المُفكك مع التعليق التوضيحي والتقطير الذاتي، تجعله نموذجًا فعالًا للغاية لمهام تحويل الصور إلى نصوص. إنه يتجاوز مجرد مطابقة الصور بالنصوص إلى توليد نصوص وصفية بنشاط، مما يفتح إمكانيات لتطبيقات مثل التعليق التوضيحي التلقائي للصور، والإجابة المرئية على الأسئلة، والتحليل التفصيلي للصور.

روابط

ChatGPT مع رؤية

إذا كنت بحاجة إلى وصف مجموعة بيانات صور ليست كبيرة جدًا، يمكنك استخدام أداة Image Describer في ChatGPT. إنها ليست مناسبة لدفعات كبيرة من الصور، ولكنها مثالية لمجموعات الصور الأصغر لأنها تقدم أفضل الأوصاف على الإطلاق باللغة الطبيعية. الأوصاف من هذه الأداة دقيقة ومفصلة للغاية. إنها ليست مجرد علامات، بل نص متماسك وغني بالمعلومات يأخذ في الاعتبار أيضًا العلاقات بين الكائنات في الصورة.

مثال:

مجموعة صور الاختبار:

مخرجات Image Describer لهذه الصور الثلاث:

لقد قمت بتحميل ثلاث صور. إليك وصف لكل منها:

  1. تتميز الصورة الأولى بقطة كرتونية رائعة وأنيقة ذات عيون كبيرة ومعبرة. لونها برتقالي في الغالب مع لمسات بيضاء على وجهها وصدرها وكفوفها. تمسك القطة بقلم، وهو تقريبًا بحجمها، وترسم وجهًا سعيدًا على كرة صفراء زاهية. أسلوب الرسم مصقول للغاية وله نوع من اللمسة النهائية اللامعة. يوحي الخلفية بإعداد غريب الأطوار بأشكال مجردة ملونة واقتراح لسماء مرصعة بالنجوم.
  2. يبدو أن الصورة الثانية عبارة عن لقطة شاشة لقسم دردشة أو تعليقات من منصة وسائط اجتماعية. ترك العديد من المستخدمين تعليقات، يتضمن العديد منها الضحك أو المرح المشار إليه بالاختصارات مثل “LMAO” والرموز التعبيرية. أسماء المستخدمين وصور الملفات الشخصية منقطة للخصوصية، مع مجموعة متنوعة من الألوان المعروضة في التنقيط.
  3. الصورة الثالثة عبارة عن رسم توضيحي واقعي ومفصل للغاية لامرأة شابة ذات تعبير ودود. لديها شعر أسود طويل وبشرة فاتحة وترتدي سترة بغطاء للرأس باللون الأرجواني. ترتدي المرأة أيضًا سماعة رأس، مما يشير إلى أنها قد تكون لاعبة فيديو أو تشارك في شكل من أشكال الاتصال عبر الإنترنت. يبدو أن الإعداد عبارة عن غرفة مضاءة بمسحة أرجوانية، ربما من مصابيح LED، مما يشير إلى إعداد ألعاب.

لكل صورة سياق وأسلوب مرئي مختلف تمامًا، يتراوح من الرسم التوضيحي الغريب إلى لقطة شاشة لتفاعل رقمي، إلى لوحة رقمية أكثر واقعية.

خلاصة

يعتمد الاختيار بين CLIP و BLIP و WD 1.4 و SigLIP 2 و Image Describer إلى حد كبير على الاحتياجات المحددة للمشروع. إذا كانت الدقة والتفاصيل ذات أهمية قصوى، فإن WD 1.4 يقدم خيارًا مقنعًا بفضل التكوين المتقدم وقدرات الوسم التفصيلية. بالنسبة للتطبيقات الأبسط، قد يكون نهج BLIP المباشر أكثر ملاءمة. وفي الوقت نفسه، يوفر CLIP توازنًا بين التفاصيل والبساطة، وإن كان مع ميل إلى الإسهاب.

يوفر Image Describer أفضل النتائج ولكنه غير مناسب لوصف أو وسم مجموعات كبيرة من الصور.

مع استمرار تطور هذه النماذج وتحسنها، فإنها تحمل إمكانات واعدة لمجموعة واسعة من التطبيقات، من إنشاء المحتوى إلى تحليل البيانات. على الرغم من اختلافاتهم، فإن نماذج CLIP و BLIP و WD 1.4 و SigLIP 2 و GPT-Vision هي شهادة على التطورات السريعة في تكنولوجيا تحويل الصور إلى نصوص، حيث يساهم كل منها بنقاط قوة فريدة في هذا المجال المثير.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *