AI модели за претварање слике у текст: CLIP, BLIP, WD 1.4 (познат и као WD14), SigLIP 2 и ChatGPT with Vision

Категоризовано као AI/ML, Art, Open Source Означено , , ,
Save and Share:

Аутоматско означавање, етикетирање или описивање слика је кључни задатак у многим применама, посебно у припреми скупова података за машинско учење. Ту у помоћ прискачу модели за претварање слике у текст. Међу водећим моделима за претварање слике у текст су CLIP, BLIP, WD 1.4 (такође познат као WD14 или Waifu Diffusion 1.4 Tagger), SigLIP 2 и ChatGPT with Vision.

CLIP: Револуционарни искорак

OpenAI-ов модел Contrastive Language–Image Pretraining (CLIP) је широко признат по свом револуционарном приступу разумевању и генерисању описа за слике. CLIP користи велику количину интернет текста и података о сликама да би научио мноштво визуелних концепата, и тако производио описне реченице за слике.

Међутим, према корисничким критикама, CLIP-ове описне реченице понекад могу бити сувишне или превише опширне. Уобичајена критика се врти око склоности модела да понавља сличне описе за исти објекат или да пренаглашава одређене атрибуте, као што је боја објекта.

BLIP: Једноставност у служби функционалности

BLIP модел, иако мање детаљан у својим описима у поређењу са CLIP-ом, нуди једноставнији и директнији приступ обради слике у текст. Као што је један рецензент приметио, BLIP је „кул и све то, али је прилично основни“. Једноставност овог модела може бити предност за апликације које захтевају једноставне, мање опширне ознаке или описе.

Ипак, неки корисници су сматрали да BLIP-овом излазу често недостаје дубина и гранулираност коју пружају модели попут WD14. Иако може да генерише задовољавајуће резултате, BLIP можда није најбољи избор за апликације које захтевају детаљне, сложене ознаке.

Открио сам да WD14, упркос томе што је фокусиран на аниме, одлично функционише и за стварне фотографије људи. Обично га комбинујем са BLIP-ом и већином случајева покупи много више детаља од BLIP-а.

Тони Корвера на YouTube коментарима

Blip је кул и све то, али је прилично основни.

WD 1.4 (WD14) означавање је много боље – више детаља, „сочније“ ознаке.

OrphBean на GitHub

WD 1.4 (познат и као WD14): Прецизност у детаљима

WD 1.4 модел (такође познат као WD14 или Waifu Diffusion 1.4 Tagger), првобитно дизајниран за аниме слике, показао је изненађујућу свестраност, добро се показујући чак и са фотографијама. Корисници су похвалили његове напредне опције конфигурације и могућности серијске обраде, што га чини робусним алатом за претварање слике у текст.

Оно што WD14 издваја је његова способност да генерише детаљне, „сочније“ ознаке, пружајући детаљније описе слика у поређењу са својим панданима. Иако је мање вероватно да ће овај модел произвести лажне ознаке, његов фокус на аниме може бити ограничење за одређене типове слика.

П: Да ли је WD14 тагер бољи од BLIP-а или deepdanbooru-а уграђених у Automatic1111?

О: Екстензија даје боље опције за конфигурацију и серијску обраду, и открио сам да је мање вероватно да ће произвести потпуно лажне ознаке од deepdanbooru-а.

CLIP/BLIP је другачији јер они производе описне реченице, а не листе ознака, али ово друго је обично више у складу са мојим потребама. А уграђени CLIP испитивач је склон избацивању ствари попут „слика (описа) и слика (мало другачијег описа исте ствари)“ или „(углавном комплетан опис) и розе коса и розе коса и розе коса и (понавља се много пута)“

Упркос томе што је направљен за аниме, WD14 тагер ради прилично добро на фотографијама.

MorganTheDual на Reddit

SigLIP 2: Моћан механизам за претварање слике у текст

Бесплатан и отворен модел SigLIP 2 од компаније Google, није само модел за вид и језик; то је моћан механизам за претварање слика у смислен текст. Иако се истиче у задацима као што су проналажење слике и текста и класификација без претходног учења, његова архитектура и побољшања у обуци чине га јаким конкурентом за генерисање и разумевање слике у текст. Ево анализе како SigLIP 2 функционише у овом контексту:

Основа: Vision Transformer (ViT) и сигмоидни губитак

  • Vision Transformer (ViT): За разлику од конволуционих неуронских мрежа (CNN), SigLIP 2 користи архитектуру Vision Transformer (ViT). ViT третира слику као низ закрпа, слично начину на који се речи третирају као токени у обради природног језика. Свака закрпа се претвара у векторску репрезентацију (уграђивање). Ово омогућава моделу да користи моћну Transformer архитектуру, познату по својој способности да ухвати зависности на велике удаљености, како би разумео односе између различитих делова слике.
  • Сигмоидни губитак (Није контрастиван): Кључна разлика SigLIP-а (и SigLIP-а 2) је употреба сигмоидне функције губитка уместо чешћег контрастивног губитка (који се користи у моделима попут CLIP-а). Контрастивно учење захтева поређење слике са више опција текста. Сигмоидни губитак, с друге стране, третира подударање слике и текста као проблем бинарне класификације за сваки пар слике и текста. Ова наизглед мала промена има велики утицај: омогућава стабилнију обуку и боље перформансе, посебно са већим величинама серија. Фокусира се на индивидуална подударања парова слике и текста.

Побољшана обука за генерисање текста

SigLIP 2 узима основу SigLIP-а и додаје неколико кључних побољшања која директно користе његовим могућностима претварања слике у текст:

  • Претходна обука заснована на описивању: Ово је огроман корак. SigLIP 2 укључује описивање као део свог процеса претходне обуке. То значи да је експлицитно трениран да генерише текстуалне описе слика. Ово је у супротности са моделима попут оригиналног CLIP-а, који су првенствено били тренирани за подударање слике и текста, а не за генерисање.
  • Инспирисан самоучењем: SigLIP 2 користи моћне технике:
    • Само-дестилација: Модел учи из својих сопствених предвиђања, усавршавајући своје разумевање током времена.
    • Маскирано предвиђање: Делови улаза (било закрпе слике или токени текста) су сакривени, а модел учи да предвиди делове који недостају. Ово га приморава да развије дубље разумевање оба модалитета.
  • LocCa губитак и декодер: SigLIP 2 интегрише LocCa губитак, који додаје Transformer декодер са унакрсном пажњом. Овај декодер је посебно трениран за задатке као што су описивање слика, предвиђање референтних израза (идентификовање региона на основу текста) и утемељено описивање. Ово побољшава фино зрнасту локализацију и детаљно издвајање карактеристика.

Како се све то склапа (Слика -> Текст)

  1. Унос слике: Слика се убацује у ViT енкодер.
  2. Уграђивање закрпа: Слика се дели на закрпе, а свака закрпа се трансформише у вектор уграђивања.
  3. Transformer енкодирање: Transformer слојеви обрађују ова уграђивања закрпа, хватајући односе између различитих делова слике. Научена позициона уграђивања пружају информације о локацији сваке закрпе.
  4. Удруживање пажње: Механизам за удруживање заснован на пажњи (MAP head) агрегира информације из уграђивања закрпа у јединствену, свеобухватну репрезентацију слике.
  5. Текстуални декодер (Кључан за претварање слике у текст): Овде долазе до изражаја могућности SigLIP 2 за описивање. Репрезентација слике из енкодера се убацује у Transformer декодер (додат LocCa губитком). Декодер користи унакрсну пажњу да се фокусира на релевантне делове репрезентације слике док генерише текст.
  6. Текстуални излаз: Декодер генерише низ текстуалних токена, формирајући опис или нарацију слике.

Вишејезична моћ

SigLIP 2 није ограничен на енглески. Трениран је на вишејезичном скупу података (WebLI), што му даје способност да разуме и генерише текст на више језика, чинећи га заиста глобалним алатом за претварање слике у текст.

У закључку

Комбинација снажне архитектуре засноване на ViT-у, сигмоидног губитка и, што је кључно, претходне обуке засноване на декодеру са описивањем и само-дестилацијом, чини SigLIP 2 веома ефикасним моделом за задатке претварања слике у текст. Он превазилази једноставно подударање слике и текста да би активно генерисао описни текст, отварајући могућности за апликације као што су аутоматско описивање слика, визуелно постављање питања и детаљна анализа слика.

Линкови

ChatGPT with Vision

Ако треба да опишете не баш велики скуп слика, можете користити алат Image Describer у ChatGPT-у. Није погодан за велике серије слика, али је савршен за мање скупове слика јер пружа апсолутно најбоље описе на природном језику. Описи из овог алата су веома прецизни и детаљни. То нису само ознаке, већ кохерентан и информативан текст који такође узима у обзир односе између објеката на слици.

Пример:

Скуп тестних слика:

Image Describer излаз за ове 3 слике:

Учитали сте три слике. Ево описа сваке:

  1. Прва слика приказује преслатко, стилизовано цртано маче са великим, изражајним очима. Претежно је наранџасте боје са белим детаљима на лицу, грудима и шапама. Маче држи оловку, која је скоро велика као оно само, и црта срећно лице на јарко жутој лопти. Уметнички стил је веома углађен и има неку врсту сјајне завршне обраде. Позадина сугерише хировити амбијент са шареним, апстрактним облицима и наговештајем звезданог неба.
  2. Друга слика изгледа као снимак екрана одељка за ћаскање или коментаре са платформе друштвених медија. Разни корисници су оставили коментаре, од којих многи укључују смех или забаву означену акронимима попут „LMAO“ и емоџијима. Корисничка имена и профилне слике су пикселизовани ради приватности, са разним бојама приказаним у пикселизацији.
  3. Трећа слика је веома детаљна и реалистична илустрација младе жене са пријатељским изразом лица. Има дугу црну косу, светлу кожу и носи љубичасти дукс. Жена такође носи слушалице, што сугерише да би могла бити стримерка видео игара или укључена у неки облик онлајн комуникације. Амбијент је соба осветљена љубичастом нијансом, вероватно од ЛЕД светала, што указује на гејмерско окружење.

Свака слика има веома различит контекст и визуелни стил, од хировите илустрације до снимка екрана дигиталне интеракције, до реалистичније дигиталне слике.

Закључак

Избор између CLIP-а, BLIP-а, WD 1.4, SigLIP 2 и Image Describer-а у великој мери зависи од специфичних потреба пројекта. Ако су прецизност и детаљи најважнији, WD 1.4 и SigLIP 2 нуде убедљиву опцију са својим напредним конфигурацијама и могућностима детаљног означавања. За једноставније апликације, BLIP-ов једноставан приступ можда је погоднији. У међувремену, CLIP пружа равнотежу између детаља и једноставности, иако са склоношћу ка опширности.

Image Describer пружа најбоље резултате, али није погодан за описивање или означавање великих скупова слика.

Како се ови модели настављају развијати и побољшавати, они имају обећавајући потенцијал за широк спектар примена, од креирања садржаја до анализе података. Упркос њиховим разликама, CLIP, BLIP, WD 1.4, SigLIP 2 и GPT-Vision модели су доказ брзог напретка у технологији претварања слике у текст, сваки доприносећи јединственим предностима овом узбудљивом пољу.

Оставите коментар

Ваша адреса е-поште неће бити објављена. Неопходна поља су означена *