Pemberian tag, pelabelan, atau pendeskripsian gambar secara otomatis adalah tugas penting dalam banyak aplikasi, terutama dalam persiapan dataset untuk machine learning. Di sinilah model image-to-text berperan penting. Beberapa model image-to-text terkemuka meliputi CLIP, BLIP, WD 1.4 (juga dikenal sebagai WD14 atau Waifu Diffusion 1.4 Tagger), SigLIP 2, dan ChatGPT dengan Vision.
CLIP: Lompatan Revolusioner
Model Contrastive Language–Image Pretraining (CLIP) dari OpenAI telah diakui secara luas atas pendekatan revolusionernya dalam memahami dan menghasilkan deskripsi untuk gambar. CLIP memanfaatkan sejumlah besar teks dan data gambar dari internet untuk mempelajari berbagai konsep visual, sehingga menghasilkan kalimat deskriptif untuk gambar.
Namun, menurut ulasan pengguna, kalimat deskriptif CLIP terkadang bisa berlebihan atau terlalu panjang. Kritik umum berpusat pada kecenderungan model untuk mengulang deskripsi serupa untuk objek yang sama atau terlalu menekankan atribut tertentu, seperti warna suatu objek.
BLIP: Kesederhanaan Bertemu Fungsionalitas
Model BLIP, meskipun deskripsinya kurang detail dibandingkan dengan CLIP, menawarkan pendekatan yang lebih sederhana dan langsung untuk pemrosesan image-to-text. Seperti yang dicatat oleh seorang pengulas, BLIP itu “keren dan segalanya, tetapi cukup mendasar.” Kesederhanaan model ini bisa menjadi keuntungan untuk aplikasi yang membutuhkan tag atau deskripsi yang lugas dan tidak bertele-tele.
Namun demikian, beberapa pengguna menemukan bahwa output BLIP sering kali kekurangan kedalaman dan granularitas yang disediakan oleh model seperti WD14. Meskipun dapat menghasilkan hasil yang memuaskan, BLIP mungkin bukan pilihan terbaik untuk aplikasi yang membutuhkan tag yang detail dan kompleks.
Saya menemukan WD14, meskipun berfokus pada anime, berfungsi sangat baik untuk foto orang sungguhan juga. Saya biasanya menggabungkannya dengan BLIP dan sebagian besar waktu ia mengambil lebih banyak detail daripada BLIP.
Toni Corvera at YouTube comments
Blip keren dan segalanya, tetapi cukup mendasar.
Tag WD 1.4 (WD14) jauh lebih baik – lebih detail, tag lebih kaya.
OrphBean at GitHub
WD 1.4 (atau WD14): Presisi dalam Detail
Model WD 1.4 (juga dikenal sebagai WD14 atau Waifu Diffusion 1.4 Tagger), yang awalnya dirancang untuk gambar anime, telah menunjukkan fleksibilitas yang mengejutkan, berkinerja baik bahkan dengan foto. Pengguna telah memuji opsi konfigurasi tingkat lanjut dan kemampuan pemrosesan batch-nya, yang menjadikannya alat yang tangguh untuk terjemahan image-to-text.
Yang membedakan WD14 adalah kemampuannya untuk menghasilkan tag yang detail dan “lebih kaya”, memberikan deskripsi gambar yang lebih mendalam dibandingkan dengan model lainnya. Meskipun model ini cenderung tidak menghasilkan tag palsu, fokusnya pada anime mungkin menjadi batasan untuk jenis gambar tertentu.
T: Apakah tagger WD14 lebih baik daripada BLIP atau deepdanbooru bawaan Automatic1111?
J: Ekstensi ini memberikan opsi konfigurasi dan pemrosesan batch yang lebih baik, dan saya menemukan bahwa ekstensi ini cenderung tidak menghasilkan tag yang sepenuhnya palsu dibandingkan dengan deepdanbooru.CLIP/BLIP berbeda karena keduanya menghasilkan kalimat deskriptif daripada daftar tag, tetapi yang terakhir biasanya lebih sesuai dengan kebutuhan saya. Dan interrogator CLIP bawaan rentan mengeluarkan hal-hal seperti “gambar (deskripsi) dan gambar (deskripsi yang sedikit berbeda dari hal yang sama)” atau “(deskripsi yang hampir lengkap) dan rambut merah muda dan rambut merah muda dan rambut merah muda dan (ulangi berkali-kali)”
Meskipun dibuat untuk anime, tagger WD14 berfungsi cukup baik pada foto.
MorganTheDual at Reddit
SigLIP 2: Mesin Image-ke-Teks yang Andal
Model SigLIP 2 gratis dan terbuka dari Google, bukan hanya model vision-language; ini adalah mesin yang kuat untuk mengubah gambar menjadi teks yang bermakna. Meskipun unggul dalam tugas-tugas seperti pengambilan image-text dan klasifikasi zero-shot, arsitektur dan peningkatan pelatihannya menjadikannya pesaing kuat untuk generasi dan pemahaman image-to-text. Berikut adalah rincian tentang cara kerja SigLIP 2 dalam konteks ini:
Fondasi: Vision Transformer (ViT) dan Sigmoid Loss
- Vision Transformer (ViT): Tidak seperti convolutional neural network (CNN), SigLIP 2 menggunakan arsitektur Vision Transformer (ViT). ViT memperlakukan gambar seperti urutan patch, mirip dengan bagaimana kata diperlakukan sebagai token dalam pemrosesan bahasa alami. Setiap patch diubah menjadi representasi vektor (embedding). Hal ini memungkinkan model untuk menggunakan arsitektur Transformer yang kuat, yang dikenal karena kemampuannya untuk menangkap dependensi jarak jauh, untuk memahami hubungan antara berbagai bagian gambar.
- Sigmoid Loss (Bukan Kontrastif): Pembeda utama SigLIP (dan SigLIP 2) adalah penggunaan fungsi loss *sigmoid* alih-alih loss *kontrastif* yang lebih umum (digunakan dalam model seperti CLIP). Pembelajaran kontrastif membutuhkan perbandingan gambar dengan *beberapa* opsi teks. Sebaliknya, sigmoid loss memperlakukan pencocokan image-text sebagai masalah *klasifikasi biner* untuk *setiap* pasangan image-text. Perubahan yang tampaknya kecil ini memiliki dampak besar: ini memungkinkan pelatihan yang lebih stabil dan kinerja yang lebih baik, terutama dengan ukuran batch yang lebih besar. Ini berfokus pada pencocokan pasangan image-text individual.
Peningkatan Pelatihan untuk Generasi Teks
SigLIP 2 mengambil fondasi SigLIP dan menambahkan beberapa peningkatan penting yang secara langsung menguntungkan kemampuan image-to-text-nya:
- Pretraining Berbasis Captioning: Ini adalah langkah yang *sangat besar*. SigLIP 2 menggabungkan *captioning* sebagai bagian dari proses pretraining-nya. Ini berarti secara eksplisit dilatih untuk menghasilkan deskripsi teks dari gambar. Ini berbeda dengan model seperti CLIP asli, yang terutama dilatih untuk *pencocokan* image-text, bukan generasi.
- Terinspirasi oleh Pembelajaran Self-Supervised: SigLIP 2 memanfaatkan teknik-teknik yang ampuh:
- Self-Distillation: Model belajar dari prediksi *sendiri*, menyempurnakan pemahamannya dari waktu ke waktu.
- Masked Prediction: Bagian dari input (baik patch gambar atau token teks) disembunyikan, dan model belajar untuk memprediksi bagian yang hilang. Ini memaksanya untuk mengembangkan pemahaman yang lebih dalam tentang kedua modalitas.
- LocCa Loss dan Decoder: SigLIP 2 mengintegrasikan LocCa loss, yang menambahkan decoder Transformer dengan cross-attention. Decoder ini secara khusus dilatih pada tugas-tugas seperti image captioning, prediksi referring expression (mengidentifikasi wilayah berdasarkan teks), dan grounded captioning. Ini meningkatkan lokalisasi fine-grained dan ekstraksi fitur yang detail.
Bagaimana Semuanya Bekerja Bersama (Gambar -> Teks)
- Input Gambar: Sebuah gambar dimasukkan ke dalam encoder ViT.
- Embedding Patch: Gambar dibagi menjadi patch, dan setiap patch diubah menjadi vektor embedding.
- Encoding Transformer: Lapisan Transformer memproses embedding patch ini, menangkap hubungan antara berbagai bagian gambar. Embedding posisi yang dipelajari memberikan informasi tentang lokasi setiap patch.
- Pooling Atensi: Mekanisme pooling berbasis atensi (head MAP) menggabungkan informasi dari embedding patch menjadi representasi gambar tunggal yang komprehensif.
- Decoder Teks (Penting untuk Image-ke-Teks): Di sinilah kemampuan captioning SigLIP 2 berperan. Representasi gambar dari encoder dimasukkan ke dalam decoder Transformer (ditambahkan oleh LocCa loss). Decoder menggunakan cross-attention untuk fokus pada bagian-bagian yang relevan dari representasi gambar saat menghasilkan teks.
- Output Teks: Decoder menghasilkan urutan token teks, membentuk caption atau deskripsi gambar.
Kekuatan Multilingual
SigLIP 2 tidak terbatas pada bahasa Inggris. Model ini dilatih pada dataset multilingual (WebLI), memberinya kemampuan untuk memahami dan menghasilkan teks dalam berbagai bahasa, menjadikannya alat image-to-text yang benar-benar global.
Ringkasan
Kombinasi SigLIP 2 dari arsitektur berbasis ViT yang kuat, sigmoid loss, dan, yang terpenting, pretraining berbasis decoder dengan captioning dan self-distillation, menjadikannya model yang sangat efektif untuk tugas-tugas image-to-text. Model ini melampaui pencocokan image-text sederhana untuk secara aktif menghasilkan teks deskriptif, membuka kemungkinan untuk aplikasi seperti captioning gambar otomatis, penjawaban pertanyaan visual, dan analisis gambar yang detail.
Tautan
ChatGPT dengan Vision
Jika Anda perlu mendeskripsikan dataset gambar yang tidak terlalu besar, Anda dapat menggunakan alat Image Describer di ChatGPT. Alat ini tidak cocok untuk batch gambar yang besar, tetapi sangat sempurna untuk set gambar yang lebih kecil karena memberikan deskripsi terbaik dalam bahasa alami. Deskripsi dari alat ini sangat tepat dan detail. Ini bukan hanya tag, tetapi teks yang koheren dan informatif yang juga mempertimbangkan hubungan antar objek dalam gambar.
Contoh:
Set gambar uji:



Output Image Describer untuk 3 gambar ini:
Anda telah mengunggah tiga gambar. Berikut adalah deskripsi untuk masing-masing gambar:
- Gambar pertama menampilkan anak kucing kartun bergaya yang menggemaskan dengan mata besar dan ekspresif. Warnanya didominasi oranye dengan aksen putih di wajah, dada, dan cakarnya. Anak kucing itu memegang pena, yang hampir sebesar dirinya, dan sedang menggambar wajah bahagia di atas bola kuning cerah. Gaya seninya sangat halus dan memiliki semacam lapisan akhir yang mengkilap. Latar belakangnya menunjukkan suasana yang unik dengan bentuk-bentuk abstrak berwarna-warni dan kesan langit berbintang.
- Gambar kedua tampaknya merupakan tangkapan layar dari bagian obrolan atau komentar dari platform media sosial. Berbagai pengguna telah meninggalkan komentar, banyak di antaranya menyertakan tawa atau hiburan yang ditunjukkan oleh akronim seperti “LMAO” dan emoji. Nama pengguna dan gambar profil dipikselisasi untuk privasi, dengan berbagai warna ditampilkan dalam pikselisasi.
- Gambar ketiga adalah ilustrasi yang sangat detail dan realistis dari seorang wanita muda dengan ekspresi ramah. Dia memiliki rambut hitam panjang, kulit putih, dan mengenakan hoodie ungu. Wanita itu juga mengenakan headset, menunjukkan bahwa dia mungkin seorang streamer video game atau terlibat dalam beberapa bentuk komunikasi online. Latar belakangnya tampak seperti ruangan yang diterangi dengan warna ungu, mungkin dari lampu LED, yang menunjukkan pengaturan game.
Setiap gambar memiliki konteks dan gaya visual yang sangat berbeda, mulai dari ilustrasi yang unik hingga tangkapan layar interaksi digital, hingga lukisan digital yang lebih realistis.
Kesimpulan
Memilih antara CLIP, BLIP, WD 1.4, SigLIP 2, dan Image Describer sangat bergantung pada kebutuhan spesifik suatu proyek. Jika presisi dan detail sangat penting, WD 1.4 menawarkan opsi yang menarik dengan konfigurasi tingkat lanjut dan kemampuan pemberian tag yang detail. Untuk aplikasi yang lebih sederhana, pendekatan langsung BLIP mungkin lebih sesuai. Sementara itu, CLIP memberikan keseimbangan antara detail dan kesederhanaan, meskipun dengan kecenderungan untuk bertele-tele.
Image Describer memberikan hasil terbaik tetapi tidak cocok untuk mendeskripsikan atau memberi tag pada set gambar yang besar.
Seiring dengan terus berkembang dan meningkatnya model-model ini, mereka menyimpan potensi yang menjanjikan untuk spektrum aplikasi yang luas, mulai dari pembuatan konten hingga analisis data. Terlepas dari perbedaan mereka, model CLIP, BLIP, WD 1.4, SigLIP 2, dan GPT-Vision adalah bukti kemajuan pesat dalam teknologi image-to-text, masing-masing memberikan kekuatan unik untuk bidang yang menarik ini.