Vaizdas-tekstas DI modeliai: CLIP, BLIP, WD 1.4 (dar žinomas kaip WD14), SigLIP 2 ir ChatGPT su Vision

Automatinis vaizdų žymėjimas, etiketavimas ar aprašymas yra labai svarbi užduotis daugelyje programų, ypač rengiant duomenų rinkinius mašininiam mokymuisi. Būtent čia į pagalbą ateina vaizdas-tekstas modeliai. Tarp pirmaujančių vaizdas-tekstas modelių yra CLIP, BLIP, WD 1.4 (taip…