Автоматичното етикетиране, маркиране или описване на изображения е ключова задача в много приложения, особено при подготовката на набори от данни за машинно обучение. Тук на помощ идват моделите за преобразуване на изображения в текст. Сред водещите модели за преобразуване на изображения в текст са CLIP, BLIP, WD 1.4 (известен още като WD14 или Waifu Diffusion 1.4 Tagger), SigLIP 2 и ChatGPT with Vision.
CLIP: Революционен скок
Моделът Contrastive Language–Image Pretraining (CLIP) на OpenAI е широко признат за революционния си подход към разбирането и генерирането на описания за изображения. CLIP използва голямо количество интернет текст и данни от изображения, за да научи множество визуални концепции, като по този начин създава описателни изречения за изображения.
Въпреки това, според потребителски отзиви, описателните изречения на CLIP понякога могат да бъдат излишни или прекалено многословни. Честа критика се върти около склонността на модела да повтаря сходни описания за един и същ обект или да прекалява с акцента върху определени атрибути, като например цвета на даден обект.
BLIP: Простота и функционалност
Моделът BLIP, макар и по-малко подробен в описанията си в сравнение с CLIP, предлага по-опростен и директен подход към обработката на изображения в текст. Както отбелязва един рецензент, BLIP е „як и всичко останало, но е доста базов“. Тази простота на модела може да бъде предимство за приложения, които изискват ясни, по-малко многословни етикети или описания.
Въпреки това, някои потребители установяват, че изходът на BLIP често не притежава дълбочината и детайлността, осигурени от модели като WD14. Въпреки че може да генерира задоволителни резултати, BLIP може да не е най-добрият избор за приложения, които изискват подробни, сложни етикети.
Открих, че WD14, въпреки че е фокусиран върху аниме, работи чудесно и за реални снимки на хора. Обикновено го комбинирам с BLIP и в повечето случаи той улавя много повече детайли от BLIP.
Тони Корвера в коментари в YouTube
Blip е як и всичко останало, но е доста базов.
Етикетирането с WD 1.4 (WD14) е много по-добро – повече детайли, по-сочни етикети.
OrphBean в GitHub
WD 1.4 (известен още като WD14): Прецизност в детайлите
Моделът WD 1.4 (известен още като WD14 или Waifu Diffusion 1.4 Tagger), първоначално разработен за аниме изображения, демонстрира изненадваща гъвкавост, като се представя добре дори със снимки. Потребителите са похвалили неговите разширени опции за конфигуриране и възможности за пакетна обработка, което го прави мощен инструмент за преобразуване на изображения в текст.
Това, което отличава WD14, е способността му да генерира подробни, „по-сочни“ етикети, предоставяйки по-задълбочени описания на изображения в сравнение с неговите аналози. Въпреки че този модел е по-малко вероятно да генерира фалшиви етикети, фокусът му върху аниме може да бъде ограничение за определени типове изображения.
В: По-добър ли е тагерът WD14 от вградените BLIP или deepdanbooru в Automatic1111?
О: Разширението дава по-добри опции за конфигуриране и пакетна обработка и установих, че е по-малко вероятно да генерира напълно фалшиви етикети от deepdanbooru.CLIP/BLIP са различни, тъй като те произвеждат описателни изречения, а не списъци от етикети, но второто обикновено е по-скоро в съответствие с моите нужди. А вграденият CLIP interrogator е склонен да изкарва неща като „снимка на (описание) и снимка на (леко различно описание на същото нещо“ или „(почти пълно описание) и розова коса и розова коса и розова коса и (повтаря се много пъти)“
Въпреки че е направен за аниме, тагерът WD14 работи доста добре и на снимки.
MorganTheDual в Reddit
SigLIP 2: Мощен двигател за преобразуване на изображения в текст
Безплатният и отворен модел SigLIP 2 от Google не е просто модел за визия и език; той е мощен двигател за превръщане на изображения в смислен текст. Въпреки че се отличава в задачи като извличане на изображение-текст и класификация с нулев кадър, неговата архитектура и подобрения в обучението го правят силен претендент за генериране и разбиране на изображения в текст. Ето разбивка на това как SigLIP 2 работи в този контекст:
Основата: Vision Transformer (ViT) и сигмоидна загуба
- Vision Transformer (ViT): За разлика от конволюционните невронни мрежи (CNN), SigLIP 2 използва архитектура Vision Transformer (ViT). ViT третира изображение като последователност от пачове, подобно на това как думите се третират като токени при обработката на естествен език. Всеки пач се преобразува във векторно представяне (вграждане). Това позволява на модела да използва мощната архитектура Transformer, известна със способността си да улавя зависимости на дълги разстояния, за да разбере взаимоотношенията между различните части на изображението.
- Сигмоидна загуба (не контрастивна): Ключов отличителен белег на SigLIP (и SigLIP 2) е използването на сигмоидна функция за загуба вместо по-често срещаната контрастивна загуба (използвана в модели като CLIP). Контрастивното обучение изисква сравняване на изображение с множество текстови опции. Сигмоидната загуба, от друга страна, третира съпоставянето на изображение-текст като проблем за двоична класификация за всяка двойка изображение-текст. Тази на пръв поглед малка промяна има голямо въздействие: тя позволява по-стабилно обучение и по-добра производителност, особено при по-големи размери на партиди. Тя се фокусира върху съвпаденията на отделни двойки изображение-текст.
Подобрено обучение за генериране на текст
SigLIP 2 взема основата на SigLIP и добавя няколко ключови подобрения, които пряко облагодетелстват неговите възможности за преобразуване на изображения в текст:
- Предварително обучение, базирано на надписи: Това е огромна стъпка. SigLIP 2 включва надписи като част от процеса на предварително обучение. Това означава, че той е изрично обучен да генерира текстови описания на изображения. Това е в контраст с модели като оригиналния CLIP, които са били обучени предимно за съпоставяне на изображение-текст, а не за генериране.
- Вдъхновен от самоконтролирано обучение: SigLIP 2 използва мощни техники:
- Самодестилация: Моделът се учи от собствените си прогнози, усъвършенствайки разбирането си с течение на времето.
- Маскирано прогнозиране: Части от входа (или пачове от изображения, или текстови токени) са скрити и моделът се учи да прогнозира липсващите части. Това го принуждава да развие по-задълбочено разбиране и за двете модалности.
- LocCa Loss и декодер: SigLIP 2 интегрира LocCa загуба, която добавя Transformer декодер с кръстосано внимание. Този декодер е специално обучен за задачи като надписване на изображения, прогнозиране на референтни изрази (идентифициране на региони въз основа на текст) и заземено надписване. Това подобрява фината локализация и детайлното извличане на характеристики.
Как всичко се съчетава (Изображение -> Текст)
- Вход за изображение: Изображение се подава към ViT енкодер.
- Вграждане на пачове: Изображението се разделя на пачове и всеки пач се трансформира във вектор на вграждане.
- Transformer кодиране: Transformer слоевете обработват тези вграждания на пачове, улавяйки взаимоотношенията между различните части на изображението. Научените позиционни вграждания предоставят информация за местоположението на всеки пач.
- Обединяване на вниманието: Механизъм за обединяване, базиран на внимание (MAP head), агрегира информацията от вгражданията на пачове в едно, изчерпателно представяне на изображението.
- Текстов декодер (Ключов за преобразуване на изображения в текст): Тук се проявяват възможностите на SigLIP 2 за надписване. Представянето на изображението от енкодера се подава към Transformer декодера (добавен от LocCa загубата). Декодерът използва кръстосано внимание, за да се фокусира върху съответните части от представянето на изображението, докато генерира текст.
- Текстов изход: Декодерът генерира последователност от текстови токени, формирайки надпис или описание на изображението.
Многоезикова мощ
SigLIP 2 не е ограничен до английски. Той е обучен върху многоезиков набор от данни (WebLI), което му дава възможност да разбира и генерира текст на множество езици, което го прави наистина глобален инструмент за преобразуване на изображения в текст.
В обобщение
Комбинацията на SigLIP 2 от силна архитектура, базирана на ViT, сигмоидна загуба и, което е от решаващо значение, предварително обучение, базирано на декодер, с надписване и самодестилация, го прави изключително ефективен модел за задачи за преобразуване на изображения в текст. Той надхвърля простото съпоставяне на изображение-текст, за да генерира активно описателен текст, отваряйки възможности за приложения като автоматично надписване на изображения, визуално отговаряне на въпроси и подробен анализ на изображения.
Връзки
ChatGPT with Vision
Ако трябва да опишете не много голям набор от изображения, можете да използвате инструмента Image Describer в ChatGPT. Той не е подходящ за големи партиди изображения, но е идеален за по-малки набори от изображения, защото предоставя абсолютно най-добрите описания на естествен език. Описанията от този инструмент са много точни и подробни. Това не са просто етикети, а кохерентен и информативен текст, който отчита и взаимоотношенията между обектите в изображението.
Пример:
Тестов набор от изображения:



Image Describer изход за тези 3 изображения:
Качихте три изображения. Ето описание на всяко от тях:
- Първото изображение показва очарователно, стилизирано анимационно котенце с големи, изразителни очи. То е предимно оранжево с бели акценти по лицето, гърдите и лапите. Котенцето държи химикалка, която е почти толкова голяма, колкото самото то, и рисува щастливо лице върху яркожълта топка. Художественият стил е много изчистен и има вид на гланцово покритие. Фонът предполага причудлива обстановка с цветни, абстрактни форми и намек за звездно небе.
- Второто изображение изглежда е екранна снимка на секция за чат или коментари от платформа за социални медии. Различни потребители са оставили коментари, много от които включват смях или забавление, обозначени със съкращения като „LMAO“ и емоджита. Потребителските имена и профилните снимки са пикселизирани за поверителност, с разнообразие от цветове, показани в пикселизацията.
- Третото изображение е много детайлна и реалистична илюстрация на млада жена с приятелско изражение. Тя е с дълга черна коса, светла кожа и носи лилав суичър с качулка. Жената носи и слушалки, което предполага, че може да е стриймър на видеоигри или да участва в някаква форма на онлайн комуникация. Обстановката изглежда е стая, осветена с лилав оттенък, вероятно от LED светлини, което е показателно за геймърска обстановка.
Всяко изображение има много различен контекст и визуален стил, вариращи от причудлива илюстрация до екранна снимка на цифрово взаимодействие, до по-реалистична цифрова живопис.
В заключение
Изборът между CLIP, BLIP, WD 1.4, SigLIP 2 и Image Describer зависи до голяма степен от специфичните нужди на даден проект. Ако прецизността и детайлността са от първостепенно значение, WD 1.4 предлага убедителна опция със своята разширена конфигурация и възможности за детайлно етикетиране. За по-прости приложения подходът на BLIP може да е по-подходящ. Междувременно CLIP осигурява баланс между детайлност и простота, макар и със склонност към многословие.
Image Describer предоставя най-добри резултати, но не е подходящ за описване или етикетиране на големи набори от изображения.
Тъй като тези модели продължават да се развиват и подобряват, те притежават обещаващ потенциал за широк спектър от приложения, от създаване на съдържание до анализ на данни. Въпреки различията си, CLIP, BLIP, WD 1.4, SigLIP 2 и GPT-Vision моделите са свидетелство за бързия напредък в технологията за преобразуване на изображения в текст, като всеки от тях допринася с уникални силни страни към тази вълнуваща област.