Görüntüden Metne Yapay Zeka Modelleri: CLIP, BLIP, WD 1.4 (diğer adıyla WD14), SigLIP 2 ve Görüntülü ChatGPT

Açık Kaynak, AI/ML, Art olarak sınıflandırılmış , , , ile etiketlenmiş
Save and Share:

Görüntülerin otomatik olarak etiketlenmesi, sınıflandırılması veya tanımlanması, özellikle makine öğrenimi için veri kümeleri hazırlanırken birçok uygulamada kritik bir görevdir. İşte görüntüden metne modelleri burada devreye giriyor. Önde gelen görüntüden metne modeller arasında CLIP, BLIP, WD 1.4 (ayrıca WD14 veya Waifu Diffusion 1.4 Tagger olarak da bilinir), SigLIP 2 ve Görüntülü ChatGPT bulunmaktadır.

CLIP: Devrim Niteliğinde Bir Sıçrayış

OpenAI’ın Kontrastif Dil-Görüntü Ön Eğitimi (CLIP) modeli, görüntüler için açıklamalar oluşturma ve bunları anlama konusundaki devrimci yaklaşımıyla geniş çapta tanınmaktadır. CLIP, çok sayıda görsel kavramı öğrenmek için büyük miktarda internet metni ve görsel veriden yararlanarak görüntüler için açıklayıcı cümleler üretir.

Ancak kullanıcı yorumlarına göre, CLIP’in açıklayıcı cümleleri bazen gereksiz veya aşırı uzun olabiliyor. Modelin aynı nesne için benzer açıklamaları tekrarlama veya bir nesnenin rengi gibi belirli özellikleri aşırı vurgulama eğilimi yaygın bir eleştiri konusudur.

BLIP: Sadelik İşlevsellikle Buluşuyor

BLIP modeli, CLIP’e kıyasla açıklamaları daha az detaylı olsa da, görüntüden metne işlemeye daha basit ve doğrudan bir yaklaşım sunar. Bir yorumcunun belirttiği gibi, BLIP “hoş ve güzel, ama oldukça temel.” Bu modelin sadeliği, basit, daha az uzun etiketler veya açıklamalar gerektiren uygulamalar için bir avantaj olabilir.

Yine de, bazı kullanıcılar BLIP’in çıktısının genellikle WD14 gibi modellerin sağladığı derinlik ve ayrıntıdan yoksun olduğunu gördü. Tatmin edici sonuçlar üretebilse de, BLIP ayrıntılı, karmaşık etiketler gerektiren uygulamalar için en iyi seçim olmayabilir.

WD14’ü anime odaklı olmasına rağmen gerçek insan fotoğrafları için de harika buldum. Genellikle BLIP ile birleştiriyorum ve çoğu zaman BLIP’ten çok daha fazla ayrıntı yakalıyor.

Toni Corvera – YouTube yorumları

Blip hoş ve güzel, ama oldukça temel.

WD 1.4 (WD14) etiketleme çok daha iyi – daha detaylı, daha “doyurucu” etiketler.

OrphBean – GitHub

WD 1.4 (diğer adıyla WD14): Detayda Hassasiyet

Başlangıçta anime görüntüleri için tasarlanan WD 1.4 modeli (ayrıca WD14 veya Waifu Diffusion 1.4 Tagger olarak da bilinir), fotoğraflarla bile iyi performans göstererek şaşırtıcı bir çok yönlülük sergilemiştir. Kullanıcılar, gelişmiş yapılandırma seçeneklerini ve toplu işleme yeteneklerini övmüşlerdir, bu da onu görüntüden metne çeviri için güçlü bir araç haline getirir.

WD14’ü farklı kılan şey, daha detaylı, “daha doyurucu” etiketler üretebilmesi ve benzerlerine kıyasla görüntüler hakkında daha derinlemesine açıklamalar sunmasıdır. Bu modelin yanlış etiketler üretme olasılığı daha düşük olsa da, animeye odaklanması belirli görüntü türleri için bir sınırlama olabilir.

S: WD14 etiketleyici, Automatic1111’e yerleşik BLIP veya deepdanbooru’dan daha mı iyi?

C: Uzantı, yapılandırma ve toplu işleme için daha iyi seçenekler sunuyor ve deepdanbooru’ya göre tamamen yanlış etiketler üretme olasılığının daha düşük olduğunu gördüm.

CLIP/BLIP farklı çünkü bunlar etiket listeleri yerine açıklayıcı cümleler üretiyor, ancak ikincisi genellikle benim ihtiyaçlarıma daha uygun. Ve yerleşik CLIP sorgulayıcısı, “(açıklama) resmi ve (aynı şeyin biraz farklı açıklaması) resmi” veya “(çoğunlukla eksiksiz açıklama) ve pembe saç ve pembe saç ve pembe saç ve (birçok kez tekrar)” gibi şeyler üretmeye eğilimli.

Anime için yapılmış olmasına rağmen, WD14 etiketleyici fotoğraflarda oldukça iyi çalışıyor.

MorganTheDual – Reddit

SigLIP 2: Güçlü Bir Görüntüden Metne Motoru

Google tarafından sunulan ücretsiz ve açık kaynaklı model SigLIP 2, sadece bir görme-dil modeli değil; görüntüleri anlamlı metne dönüştürmek için güçlü bir motordur. Görüntü-metin alma ve sıfır atışlı sınıflandırma gibi görevlerde mükemmel olsa da, mimarisi ve eğitim geliştirmeleri onu görüntüden metne oluşturma ve anlama için güçlü bir rakip haline getiriyor. İşte SigLIP 2’nin bu bağlamda nasıl çalıştığına dair bir özet:

Temel: Vision Transformer (ViT) ve Sigmoid Kaybı

  • Vision Transformer (ViT): Evrişimsel sinir ağlarından (CNN’ler) farklı olarak, SigLIP 2 bir Vision Transformer (ViT) mimarisi kullanır. ViT, bir görüntüyü, doğal dil işlemede kelimelerin belirteçler olarak ele alınmasına benzer şekilde, bir dizi yama olarak ele alır. Her yama, bir vektör gösterimine (bir gömme) dönüştürülür. Bu, modelin, görüntünün farklı bölümleri arasındaki ilişkileri anlamak için uzun menzilli bağımlılıkları yakalama yeteneğiyle bilinen güçlü Transformer mimarisini kullanmasına olanak tanır.
  • Sigmoid Kaybı (Kontrastif Değil): SigLIP’i (ve SigLIP 2’yi) farklılaştıran temel özellik, CLIP gibi modellerde kullanılan daha yaygın kontrastif kayıp yerine sigmoid kayıp fonksiyonunun kullanılmasıdır. Kontrastif öğrenme, bir görüntüyü birden fazla metin seçeneğiyle karşılaştırmayı gerektirir. Sigmoid kaybı ise, görüntü-metin eşleştirmesini her bir görüntü-metin çifti için ikili sınıflandırma problemi olarak ele alır. Görünüşte küçük olan bu değişiklik, büyük bir etkiye sahiptir: özellikle daha büyük toplu boyutlarla daha kararlı eğitim ve daha iyi performans sağlar. Bireysel görüntü-metin çifti eşleşmelerine odaklanır.

Metin Üretimi için Gelişmiş Eğitim

SigLIP 2, SigLIP’in temelini alır ve görüntüden metne yeteneklerine doğrudan fayda sağlayan çeşitli önemli geliştirmeler ekler:

  • Altyazı Tabanlı Ön Eğitim: Bu çok büyük bir adım. SigLIP 2, ön eğitim sürecinin bir parçası olarak altyazı oluşturmayı içerir. Bu, görüntülerin metin açıklamalarını oluşturmak için açıkça eğitildiği anlamına gelir. Bu, öncelikle görüntü-metin eşleştirmesi üzerine eğitilen, üretimi hedeflemeyen orijinal CLIP gibi modellerle çelişir.
  • Kendi Kendine Denetimli Öğrenmeden İlham Alınmıştır: SigLIP 2, güçlü tekniklerden yararlanır:
    • Kendini Damıtma: Model, kendi tahminlerinden öğrenerek zaman içinde anlayışını geliştirir.
    • Maskelenmiş Tahmin: Girdinin bölümleri (görüntü yamaları veya metin belirteçleri) gizlenir ve model eksik parçaları tahmin etmeyi öğrenir. Bu, onu her iki modalitenin de daha derin bir anlayışını geliştirmeye zorlar.
  • LocCa Kaybı ve Kod Çözücü: SigLIP 2, çapraz dikkatli bir Transformer kod çözücü ekleyen LocCa kaybını entegre eder. Bu kod çözücü, özellikle görüntü altyazılandırma, ifade tahminine atıfta bulunma (metne dayalı bölgeleri tanımlama) ve topraklanmış altyazılandırma gibi görevler üzerinde eğitilmiştir. Bu, ince taneli yerelleştirmeyi ve ayrıntılı özellik çıkarmayı geliştirir.

Hepsi Nasıl Bir Araya Geliyor (Görüntü -> Metin)

  1. Görüntü Girdisi: Bir görüntü ViT kodlayıcıya beslenir.
  2. Yama Gömme: Görüntü yamalara bölünür ve her yama bir gömme vektörüne dönüştürülür.
  3. Transformer Kodlama: Transformer katmanları, görüntünün farklı bölümleri arasındaki ilişkileri yakalayarak bu yama gömmelerini işler. Öğrenilmiş konum gömmeleri, her yamanın konumu hakkında bilgi sağlar.
  4. Dikkat Havuzu: Dikkat tabanlı bir havuzlama mekanizması (MAP başlığı), yama gömmelerinden gelen bilgileri tek, kapsamlı bir görüntü gösteriminde toplar.
  5. Metin Kod Çözücü (Görüntüden Metne için Kritik): SigLIP 2’nin altyazı oluşturma yeteneklerinin devreye girdiği yer burasıdır. Kodlayıcıdan gelen görüntü gösterimi, Transformer kod çözücüye (LocCa kaybı tarafından eklenir) beslenir. Kod çözücü, metin oluştururken görüntü gösteriminin ilgili bölümlerine odaklanmak için çapraz dikkati kullanır.
  6. Metin Çıktısı: Kod çözücü, görüntünün bir altyazısını veya açıklamasını oluşturan bir dizi metin belirteci oluşturur.

Çok Dilli Güç

SigLIP 2 yalnızca İngilizce ile sınırlı değildir. Çok dilli bir veri kümesi (WebLI) üzerinde eğitilmiştir ve bu da onu birden çok dilde metin anlama ve üretme yeteneği vererek gerçekten küresel bir görüntüden metne aracı haline getirir.

Özetle

SigLIP 2’nin güçlü ViT tabanlı mimarisi, sigmoid kaybı ve en önemlisi, altyazılandırma ve kendini damıtma ile kod çözücü tabanlı ön eğitimi kombinasyonu, onu görüntüden metne görevleri için oldukça etkili bir model haline getirir. Basit görüntü-metin eşleştirmesinin ötesine geçerek aktif olarak açıklayıcı metin oluşturur ve otomatik görüntü altyazılandırma, görsel soru cevaplama ve ayrıntılı görüntü analizi gibi uygulamalar için olasılıklar yaratır.

Bağlantılar

Görüntülü ChatGPT

Çok büyük olmayan bir görüntü veri kümesini tanımlamanız gerekiyorsa, ChatGPT’deki Image Describer aracını kullanabilirsiniz. Büyük görüntü grupları için uygun olmasa da, daha küçük görüntü kümeleri için mükemmeldir çünkü doğal dilde kesinlikle en iyi açıklamaları sağlar. Bu araçtan gelen açıklamalar çok kesin ve ayrıntılıdır. Sadece etiketler değil, aynı zamanda görüntüdeki nesneler arasındaki ilişkileri de dikkate alan tutarlı ve bilgilendirici bir metindir.

Örnek:

Test görüntü kümesi:

Image Describer‘ın bu 3 görüntü için çıktısı:

Üç adet görüntü yüklediniz. İşte her birinin açıklaması:

  1. İlk görüntüde büyük, etkileyici gözleri olan sevimli, stilize bir çizgi film yavru kedi bulunuyor. Yüzünde, göğsünde ve patilerinde beyaz vurgularla ağırlıklı olarak turuncudur. Yavru kedi, neredeyse kendisi kadar büyük olan bir kalem tutuyor ve parlak sarı bir topun üzerine gülen bir yüz çiziyor. Sanat tarzı çok cilalı ve bir tür parlak bitişe sahip. Arka plan, renkli, soyut şekiller ve yıldızlı bir gökyüzü önerisiyle tuhaf bir ortamı gösteriyor.
  2. İkinci görüntü, bir sosyal medya platformundan bir sohbet veya yorum bölümünün ekran görüntüsü gibi görünüyor. Çeşitli kullanıcılar yorum bırakmış, bunların çoğu “LMAO” gibi kısaltmalar ve emojilerle belirtilen kahkaha veya eğlence içeriyor. Kullanıcı adları ve profil resimleri gizlilik için piksellleştirilmiş, pikselleştirmede çeşitli renkler görüntüleniyor.
  3. Üçüncü görüntü, arkadaşça bir ifadeye sahip genç bir kadının oldukça detaylı ve gerçekçi bir illüstrasyonudur. Uzun siyah saçları, açık teni ve mor bir kapüşonlusu var. Kadın ayrıca bir kulaklık takıyor, bu da video oyunu yayıncısı olabileceğini veya bir tür çevrimiçi iletişimde yer aldığını gösteriyor. Ortam, muhtemelen LED ışıklarından kaynaklanan mor bir tonla aydınlatılmış bir oda gibi görünüyor, bu da bir oyun kurulumuna işaret ediyor.

Her görüntü, tuhaf illüstrasyondan dijital bir etkileşim ekran görüntüsüne ve daha gerçekçi bir dijital resme kadar çok farklı bir bağlama ve görsel stile sahip.

Sonuç Olarak

CLIP, BLIP, WD 1.4, SigLIP 2 ve Image Describer arasında seçim yapmak büyük ölçüde bir projenin özel ihtiyaçlarına bağlıdır. Hassasiyet ve ayrıntı çok önemliyse, WD 1.4 gelişmiş yapılandırması ve ayrıntılı etiketleme yetenekleriyle zorlayıcı bir seçenek sunar. Daha basit uygulamalar için BLIP’in basit yaklaşımı daha uygun olabilir. Bu arada, CLIP, her ne kadar laf kalabalığı yapma eğilimi olsa da, ayrıntı ve basitlik arasında bir denge sağlar.

Image Describer en iyi sonuçları sağlar, ancak büyük görüntü kümelerini tanımlamak veya etiketlemek için uygun değildir.

Bu modeller gelişmeye ve iyileşmeye devam ettikçe, içerik oluşturmadan veri analizine kadar geniş bir uygulama yelpazesi için umut verici potansiyel taşıyorlar. Farklılıklarına rağmen, CLIP, BLIP, WD 1.4, SigLIP 2 ve GPT-Vision modelleri, görüntüden metne teknolojisindeki hızlı ilerlemelerin bir kanıtıdır ve her biri bu heyecan verici alana benzersiz güçlü yönler katmaktadır.

Yorum Gönderin

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir