תיוג, סימון אוטומטי ותיאור של תמונות הם משימה חיונית ביישומים רבים, במיוחד בהכנת מערכי נתונים ללמידת מכונה. כאן מודלים של המרת תמונה לטקסט נחלצים לעזרה. בין מודלי המרת התמונה לטקסט המובילים ניתן למנות את CLIP, BLIP, WD 1.4 (הידוע גם בשם WD14 או Waifu Diffusion 1.4 Tagger), SigLIP 2 ו-ChatGPT עם ראייה.
CLIP: קפיצת מדרגה מהפכנית
מודל ה-Contrastive Language–Image Pretraining (CLIP) של OpenAI זכה להכרה רחבה בזכות הגישה המהפכנית שלו להבנה ויצירת תיאורים לתמונות. CLIP ממנף כמות גדולה של טקסט אינטרנטי ונתוני תמונה כדי ללמוד שפע של מושגים חזותיים, ובכך לייצר משפטים תיאוריים עבור תמונות.
עם זאת, על פי ביקורות משתמשים, משפטי התיאור של CLIP עשויים להיות לעיתים מיותרים או מפורטים מדי. ביקורת נפוצה סובבת סביב הנטייה של המודל לחזור על תיאורים דומים עבור אותו אובייקט או להדגיש יתר על המידה תכונות מסוימות, כמו צבעו של אובייקט.
BLIP: פשטות פוגשת פונקציונליות
מודל ה-BLIP, למרות שהוא פחות מפורט בתיאוריו בהשוואה ל-CLIP, מציע גישה פשוטה וישירה יותר לעיבוד תמונה לטקסט. כפי שציין אחד המבקרים, BLIP הוא "נחמד והכל, אבל הוא די בסיסי". הפשטות של מודל זה יכולה להיות יתרון עבור יישומים הדורשים תגים או תיאורים פשוטים ופחות מפורטים.
אף על פי כן, חלק מהמשתמשים גילו שלפלט של BLIP לעיתים קרובות חסרים העומק והגרעיניות המסופקים על ידי מודלים כמו WD14. למרות שהוא יכול לייצר תוצאות משביעות רצון, BLIP עשוי שלא להיות הבחירה הטובה ביותר עבור יישומים הדורשים תגים מפורטים ומורכבים.
גיליתי ש-WD14, למרות שהוא מתמקד באנימה, עובד נהדר גם עבור תמונות אמיתיות של אנשים. אני בדרך כלל משלב אותו עם BLIP וברוב המקרים הוא קולט הרבה יותר פרטים מ-BLIP.
טוני קורברה בתגובות ביוטיוב
בליפ נחמד והכל, אבל הוא די בסיסי.
תיוג WD 1.4 (WD14) הרבה יותר טוב – יותר פרטים, תגים עסיסיים יותר.
אורפבין בGitHub
WD 1.4 (המכונה גם WD14): דיוק בפרטים
מודל WD 1.4 (הידוע גם בשם WD14 או Waifu Diffusion 1.4 Tagger), שתוכנן במקור עבור תמונות אנימה, הדגים רב-גוניות מפתיעה, ומתפקד היטב גם עם תמונות. משתמשים שיבחו את אפשרויות התצורה המתקדמות שלו ואת יכולות עיבוד האצווה, שהופכות אותו לכלי חזק לתרגום תמונה לטקסט.
מה שמייחד את WD14 הוא היכולת שלו לייצר תגים מפורטים ו"עסיסיים" יותר, המספקים תיאורים מעמיקים יותר של תמונות בהשוואה למקביליו. למרות שמודל זה פחות צפוי לייצר תגים מזויפים, ההתמקדות שלו באנימה עשויה להיות מגבלה עבור סוגים מסוימים של תמונות.
ש: האם תוכנת התיוג WD14 טובה יותר מ-BLIP או deepdanbooru המובנים ב-Automatic1111?
ת: ההרחבה נותנת אפשרויות טובות יותר לתצורה ועיבוד אצווה, ומצאתי שהיא פחות סבירה לייצר תגים מזויפים לחלוטין מאשר deepdanbooru.CLIP/BLIP שונים מכיוון שהם מייצרים משפטים תיאוריים ולא רשימות תגים, אבל האחרון בדרך כלל יותר בקנה אחד עם הצרכים שלי. ובוחן השאלות המובנה של CLIP נוטה להוציא דברים כמו "תמונה של (תיאור) ותמונה של (תיאור שונה במקצת של אותו דבר)" או "(תיאור כמעט מלא) ושיער ורוד ושיער ורוד ושיער ורוד ו(חוזר על עצמו פעמים רבות)"
למרות שתוכנת התיוג WD14 נוצרה עבור אנימה, היא עובדת די טוב על תמונות.
MorganTheDual בReddit
SigLIP 2: מנוע עוצמתי להמרת תמונה לטקסט
מודל SigLIP 2 החינמי וקוד פתוח של גוגל אינו רק מודל ראייה-שפה; הוא מנוע עוצמתי להפיכת תמונות לטקסט משמעותי. בעוד שהוא מצטיין במשימות כמו אחזור תמונה-טקסט וסיווג אפס-זריקה, הארכיטקטורה ושיפורי האימון שלו הופכים אותו למתחרה חזק ליצירה והבנה של תמונה לטקסט. להלן פירוט של אופן הפעולה של SigLIP 2 בהקשר זה:
הבסיס: Vision Transformer (ViT) ואובדן סיגמואידי
- Vision Transformer (ViT): בניגוד לרשתות עצביות קונבולוציוניות (CNN), SigLIP 2 משתמש בארכיטקטורת Vision Transformer (ViT). ה-ViT מתייחס לתמונה כאל רצף של מקטעים, בדומה לאופן שבו מילים מטופלות כאסימונים בעיבוד שפה טבעית. כל מקטע מומר לייצוג וקטורי (הטבעה). זה מאפשר למודל להשתמש בארכיטקטורת ה-Transformer העוצמתית, הידועה ביכולתה ללכוד תלות ארוכת טווח, כדי להבין את היחסים בין חלקים שונים של התמונה.
- אובדן סיגמואידי (לא קונטרסטיבי): גורם מבדל מרכזי של SigLIP (ו-SigLIP 2) הוא השימוש בפונקציית אובדן סיגמואידי במקום אובדן קונטרסטיבי נפוץ יותר (המשמש במודלים כמו CLIP). למידה קונטרסטיבית דורשת השוואת תמונה למספר אפשרויות טקסט. אובדן סיגמואידי, לעומת זאת, מתייחס להתאמת תמונה-טקסט כבעיית סיווג בינארי עבור כל זוג תמונה-טקסט. לשינוי קטן לכאורה זה יש השפעה גדולה: הוא מאפשר אימון יציב יותר וביצועים טובים יותר, במיוחד עם גדלים גדולים יותר של אצוות. הוא מתמקד בהתאמות זוג תמונה-טקסט בודדות.
אימון משופר ליצירת טקסט
SigLIP 2 לוקח את הבסיס של SigLIP ומוסיף מספר שיפורים מכריעים שמועילים ישירות ליכולות התמונה לטקסט שלו:
- אימון מקדים מבוסס כיתוב: זהו צעד ענק. SigLIP 2 משלב כיתוב כחלק מתהליך האימון המקדים שלו. זה אומר שהוא מאומן במפורש ליצור תיאורי טקסט של תמונות. זה בניגוד למודלים כמו CLIP המקורי, שאומנו בעיקר על התאמת תמונה-טקסט, לא יצירה.
- בהשראת למידה בפיקוח עצמי: SigLIP 2 ממנף טכניקות עוצמתיות:
- זיקוק עצמי: המודל לומד מהתחזיות שלו עצמו, ומעדן את הבנתו לאורך זמן.
- חיזוי מוסווה: חלקים מהקלט (מקטעי תמונה או אסימוני טקסט) מוסתרים, והמודל לומד לחזות את החלקים החסרים. זה מאלץ אותו לפתח הבנה עמוקה יותר של שני המודאליות.
- אובדן LocCa ומפענח: SigLIP 2 משלב את אובדן LocCa, שמוסיף מפענח Transformer עם תשומת לב צולבת. מפענח זה מאומן במיוחד על משימות כמו כיתוב תמונה, חיזוי ביטויים מתייחסים (זיהוי אזורים על סמך טקסט) וכיתוב מעוגן. זה משפר לוקליזציה עדינה וחילוץ תכונות מפורט.
איך הכל מתחבר יחד (תמונה -> טקסט)
- קלט תמונה: תמונה מוזנת למקודד ViT.
- הטבעת מקטעים: התמונה מחולקת למקטעים, וכל מקטע מומר לווקטור הטבעה.
- קידוד Transformer: שכבות ה-Transformer מעבדות הטבעות מקטעים אלו, ולוכדות יחסים בין חלקים שונים של התמונה. הטבעות מיקום נלמדות מספקות מידע על מיקום כל מקטע.
- איגום קשב: מנגנון איגום מבוסס קשב (ראש MAP) צובר את המידע מהטבעות המקטעים לייצוג תמונה מקיף יחיד.
- מפענח טקסט (מכריע להמרת תמונה לטקסט): כאן נכנסות לפעולה יכולות הכיתוב של SigLIP 2. ייצוג התמונה מהמקודד מוזן למפענח ה-Transformer (שנוסף על ידי אובדן LocCa). המפענח משתמש בקשב צולב כדי להתמקד בחלקים רלוונטיים של ייצוג התמונה תוך כדי יצירת טקסט.
- פלט טקסט: המפענח מייצר רצף של אסימוני טקסט, היוצרים כיתוב או תיאור של התמונה.
עוצמה רב-לשונית
SigLIP 2 אינו מוגבל לאנגלית. הוא מאומן על מערך נתונים רב-לשוני (WebLI), המעניק לו את היכולת להבין וליצור טקסט במספר שפות, מה שהופך אותו לכלי גלובלי אמיתי להמרת תמונה לטקסט.
לסיכום
השילוב של SigLIP 2 בין ארכיטקטורה חזקה מבוססת ViT, אובדן סיגמואידי, וחשוב מכך, אימון מקדים מבוסס מפענח עם כיתוב וזיקוק עצמי, הופך אותו למודל יעיל ביותר למשימות תמונה לטקסט. הוא חורג מהתאמה פשוטה של תמונה-טקסט ליצירת טקסט תיאורי באופן פעיל, ופותח אפשרויות ליישומים כמו כיתוב תמונה אוטומטי, מענה לשאלות ויזואליות וניתוח תמונה מפורט.
קישורים
ChatGPT עם ראייה
אם אתם צריכים לתאר מערך נתונים לא גדול במיוחד של תמונות, אתם יכולים להשתמש בכלי Image Describer ב-ChatGPT. הוא לא מתאים לאצוות גדולות של תמונות, אבל הוא מושלם עבור מערכי תמונות קטנים יותר מכיוון שהוא מספק את התיאורים הטובים ביותר בשפה טבעית. התיאורים מכלי זה מדויקים ומפורטים מאוד. זה לא רק תגים, אלא טקסט קוהרנטי ואינפורמטיבי שגם לוקח בחשבון את היחסים בין אובייקטים בתמונה.
דוגמה:
מערך תמונות לבדיקה:



פלט Image Describer עבור 3 תמונות אלו:
העלית שלושה תמונות. הנה תיאור של כל אחת מהן:
- התמונה הראשונה מציגה חתלתול מצויר חמוד ומסוגנן עם עיניים גדולות ומלאות הבעה. הוא כתום בעיקרו עם הדגשות לבנות על פניו, חזהו וכפות רגליו. החתלתול מחזיק עט, שכמעט גדול כמוהו, ומצייר פרצוף שמח על כדור צהוב בוהק. סגנון האמנות מלוטש מאוד ויש לו סוג של גימור מבריק. הרקע מרמז על סביבה גחמנית עם צורות מופשטות צבעוניות ורמז לשמיים זרועי כוכבים.
- התמונה השנייה נראית כצילום מסך של קטע צ'אט או תגובות מפלטפורמת מדיה חברתית. משתמשים שונים השאירו תגובות, שרבות מהן כוללות צחוק או שעשוע המסומנים על ידי ראשי תיבות כמו "LMAO" ואימוג'י. שמות המשתמשים ותמונות הפרופיל מפוקסלים לשמירה על פרטיות, עם מגוון צבעים המוצגים בפיקסול.
- התמונה השלישית היא איור מפורט ומציאותי מאוד של אישה צעירה עם הבעה ידידותית. יש לה שיער שחור ארוך, עור בהיר, והיא לובשת קפוצ'ון סגול. האישה גם עונדת אוזניות, מה שמרמז שהיא עשויה להיות סטרימרית משחקי וידאו או מעורבת בצורה כלשהי של תקשורת מקוונת. ההגדרה נראית כחדר מואר בגוון סגול, אולי מאורות LED, המעידים על הגדרת משחקים.
לכל תמונה יש הקשר וסגנון חזותי שונה מאוד, החל מאיור גחמני ועד לצילום מסך של אינטראקציה דיגיטלית, ועד לציור דיגיטלי מציאותי יותר.
סיכום סופי
הבחירה בין CLIP, BLIP, WD 1.4, SigLIP 2 ו-Image Describer תלויה במידה רבה בצרכים הספציפיים של פרויקט. אם דיוק ופירוט הם בעלי חשיבות עליונה, WD 1.4 מציע אפשרות משכנעת עם התצורה המתקדמת שלו ויכולות התיוג המפורטות. עבור יישומים פשוטים יותר, הגישה הישירה של BLIP עשויה להיות מתאימה יותר. בינתיים, CLIP מספק איזון בין פירוט לפשטות, אם כי עם נטייה למלל רב.
Image Describer מספק את התוצאות הטובות ביותר אך אינו מתאים לתיאור או תיוג של מערכי תמונות גדולים.
ככל שמודלים אלה ממשיכים להתפתח ולהשתפר, הם טומנים בחובם פוטנציאל מבטיח עבור ספקטרום רחב של יישומים, מיצירת תוכן ועד ניתוח נתונים. למרות ההבדלים ביניהם, מודלי CLIP, BLIP, WD 1.4, SigLIP 2 ו-GPT-Vision הם עדות להתקדמות המהירה בטכנולוגיית המרת תמונה לטקסט, כאשר כל אחד מהם תורם חוזקות ייחודיות לתחום מרתק זה.