การติดแท็ก จัดประเภท หรืออธิบายรูปภาพโดยอัตโนมัติเป็นงานที่สำคัญอย่างยิ่งในหลายแอปพลิเคชัน โดยเฉพาะอย่างยิ่งในการเตรียมชุดข้อมูลสำหรับการเรียนรู้ของเครื่อง นี่คือจุดที่โมเดลแปลงรูปภาพเป็นข้อความเข้ามามีบทบาท โมเดลแปลงรูปภาพเป็นข้อความชั้นนำ ได้แก่ CLIP, BLIP, WD 1.4 (หรือที่รู้จักในชื่อ WD14 หรือ Waifu Diffusion 1.4 Tagger), SigLIP 2 และ ChatGPT with Vision
CLIP: ก้าวกระโดดแห่งการปฏิวัติ
โมเดล Contrastive Language–Image Pretraining (CLIP) ของ OpenAI ได้รับการยอมรับอย่างกว้างขวางในด้านแนวทางการปฏิวัติวงการในการทำความเข้าใจและสร้างคำอธิบายสำหรับรูปภาพ CLIP ใช้ประโยชน์จากข้อความและข้อมูลรูปภาพจำนวนมากบนอินเทอร์เน็ตเพื่อเรียนรู้แนวคิดด้านภาพที่หลากหลาย ทำให้สามารถสร้างประโยคอธิบายรูปภาพได้
อย่างไรก็ตาม จากความคิดเห็นของผู้ใช้ ประโยคอธิบายของ CLIP อาจซ้ำซ้อนหรือเยิ่นเย้อเกินไป บางครั้งคำวิจารณ์ทั่วไปเกี่ยวกับโมเดลนี้คือแนวโน้มที่จะอธิบายสิ่งของเดิมซ้ำๆ หรือเน้นคุณลักษณะบางอย่างมากเกินไป เช่น สีของวัตถุ
BLIP: ความเรียบง่ายที่มาพร้อมฟังก์ชันการทำงาน
โมเดล BLIP แม้ว่าจะให้คำอธิบายที่ไม่ละเอียดเท่า CLIP แต่ก็มีแนวทางที่เรียบง่ายและตรงไปตรงมากว่าในการประมวลผลรูปภาพเป็นข้อความ ดังที่ผู้รีวิวคนหนึ่งกล่าวไว้ว่า BLIP นั้น “เจ๋งดี แต่ก็ค่อนข้างพื้นฐาน” ความเรียบง่ายของโมเดลนี้อาจเป็นข้อได้เปรียบสำหรับแอปพลิเคชันที่ต้องการแท็กหรือคำอธิบายที่ตรงไปตรงมาและไม่เยิ่นเย้อ
อย่างไรก็ตาม ผู้ใช้บางคนพบว่าผลลัพธ์ของ BLIP มักขาดความลึกและความละเอียดที่โมเดลอย่าง WD14 มีให้ แม้ว่าจะสามารถสร้างผลลัพธ์ที่น่าพอใจได้ แต่ BLIP อาจไม่ใช่ตัวเลือกที่ดีที่สุดสำหรับแอปพลิเคชันที่ต้องการแท็กที่ซับซ้อนและมีรายละเอียด
ผมพบว่า WD14 ถึงแม้ว่าจะเน้นไปที่อนิเมะ แต่ก็ใช้งานได้ดีกับรูปภาพคนจริงๆ ด้วย ผมมักจะใช้ควบคู่กับ BLIP และส่วนใหญ่แล้วมันจะจับรายละเอียดได้มากกว่า BLIP มาก
Toni Corvera at YouTube comments
Blip ก็เจ๋งดีนะ แต่ค่อนข้างพื้นฐาน
การแท็กของ WD 1.4 (WD14) ดีกว่ามาก – รายละเอียดเยอะกว่า แท็กโดนใจกว่า
OrphBean at GitHub
WD 1.4 (หรือ WD14): ความแม่นยำในรายละเอียด
โมเดล WD 1.4 (หรือที่รู้จักในชื่อ WD14 หรือ Waifu Diffusion 1.4 Tagger) ซึ่งเดิมทีออกแบบมาสำหรับรูปภาพอนิเมะ ได้แสดงให้เห็นถึงความสามารถรอบด้านที่น่าประหลาดใจ โดยทำงานได้ดีแม้กับรูปถ่าย ผู้ใช้ต่างชื่นชมตัวเลือกการกำหนดค่าขั้นสูงและความสามารถในการประมวลผลแบบแบตช์ ซึ่งทำให้เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการแปลรูปภาพเป็นข้อความ
สิ่งที่ทำให้ WD14 แตกต่างคือความสามารถในการสร้างแท็กที่ละเอียดและ “โดนใจ” กว่า โดยให้คำอธิบายรูปภาพที่ลึกซึ้งกว่าเมื่อเทียบกับโมเดลอื่นๆ ในขณะที่โมเดลนี้มีโอกาสน้อยที่จะสร้างแท็กที่ไม่เกี่ยวข้อง แต่การเน้นไปที่อนิเมะอาจเป็นข้อจำกัดสำหรับรูปภาพบางประเภท
Q: ตัวแท็ก WD14 ดีกว่า BLIP หรือ deepdanbooru ที่อยู่ใน Automatic1111 ไหม?
A: ส่วนขยายนี้มีตัวเลือกที่ดีกว่าสำหรับการกำหนดค่าและการประมวลผลแบบแบตช์ และผมพบว่ามีโอกาสน้อยกว่าที่จะสร้างแท็กที่ไม่เกี่ยวข้องเลยเมื่อเทียบกับ deepdanbooruCLIP/BLIP นั้นแตกต่างออกไปเนื่องจากสร้างประโยคอธิบายมากกว่ารายการแท็ก แต่แบบหลังมักจะตรงกับความต้องการของผมมากกว่า และตัวสอบถาม CLIP ในตัวก็มีแนวโน้มที่จะสร้างสิ่งต่างๆ เช่น “รูปภาพของ (คำอธิบาย) และรูปภาพของ (คำอธิบายที่แตกต่างกันเล็กน้อยของสิ่งเดียวกัน)” หรือ “(คำอธิบายที่ค่อนข้างสมบูรณ์) และผมสีชมพูและผมสีชมพูและผมสีชมพูและ (ทำซ้ำหลายครั้ง)”
แม้ว่าจะสร้างมาสำหรับอนิเมะ แต่ตัวแท็ก WD14 ก็ทำงานได้ค่อนข้างดีกับรูปถ่าย
MorganTheDual at Reddit
SigLIP 2: กลไกแปลงรูปภาพเป็นข้อความที่ทรงพลัง
โมเดลโอเพนซอร์สและฟรี SigLIP 2 จาก Google ไม่ได้เป็นเพียงแค่โมเดล vision-language เท่านั้น แต่เป็นกลไกที่ทรงพลังในการเปลี่ยนรูปภาพให้เป็นข้อความที่มีความหมาย แม้ว่าจะโดดเด่นในงานต่างๆ เช่น การดึงข้อมูลรูปภาพ-ข้อความและการจัดประเภทแบบ Zero-shot แต่สถาปัตยกรรมและการปรับปรุงการฝึกอบรมทำให้เป็นคู่แข่งที่แข็งแกร่งสำหรับการสร้างและทำความเข้าใจรูปภาพเป็นข้อความ นี่คือรายละเอียดว่า SigLIP 2 ทำงานอย่างไรในบริบทนี้:
พื้นฐาน: Vision Transformer (ViT) และ Sigmoid Loss
- Vision Transformer (ViT): แตกต่างจากโครงข่ายประสาทเทียมแบบคอนโวลูชัน (CNNs) SigLIP 2 ใช้สถาปัตยกรรม Vision Transformer (ViT) ViT มองรูปภาพเหมือนลำดับของแพตช์ คล้ายกับวิธีที่คำถูกมองว่าเป็นโทเค็นในการประมวลผลภาษาธรรมชาติ แต่ละแพตช์จะถูกแปลงเป็นตัวแทนเวกเตอร์ (การฝัง) สิ่งนี้ทำให้โมเดลสามารถใช้สถาปัตยกรรม Transformer ที่ทรงพลัง ซึ่งเป็นที่รู้จักในด้านความสามารถในการจับความสัมพันธ์ระยะยาว เพื่อทำความเข้าใจความสัมพันธ์ระหว่างส่วนต่างๆ ของรูปภาพ
- Sigmoid Loss (ไม่ใช่ Contrastive): ข้อแตกต่างที่สำคัญของ SigLIP (และ SigLIP 2) คือการใช้ฟังก์ชัน sigmoid loss แทนที่จะเป็น contrastive loss ที่ใช้กันทั่วไป (ใช้ในโมเดลเช่น CLIP) การเรียนรู้แบบ Contrastive จำเป็นต้องเปรียบเทียบรูปภาพกับตัวเลือกข้อความหลายตัวเลือก ในทางกลับกัน Sigmoid loss จะถือว่าการจับคู่รูปภาพ-ข้อความเป็นปัญหาการจัดประเภทไบนารีสำหรับแต่ละคู่รูปภาพ-ข้อความ การเปลี่ยนแปลงเล็กน้อยนี้มีผลกระทบอย่างมาก: ช่วยให้การฝึกอบรมมีเสถียรภาพมากขึ้นและประสิทธิภาพที่ดีขึ้น โดยเฉพาะอย่างยิ่งกับขนาดแบตช์ที่ใหญ่ขึ้น โดยจะเน้นไปที่การจับคู่คู่รูปภาพ-ข้อความแต่ละคู่
การฝึกอบรมขั้นสูงสำหรับการสร้างข้อความ
SigLIP 2 ใช้พื้นฐานของ SigLIP และเพิ่มการปรับปรุงที่สำคัญหลายประการซึ่งเป็นประโยชน์โดยตรงต่อความสามารถในการแปลงรูปภาพเป็นข้อความ:
- การ Pretraining แบบ Captioning: นี่เป็นก้าวที่ยิ่งใหญ่ SigLIP 2 ได้รวมเอา captioning เข้าเป็นส่วนหนึ่งของกระบวนการ pretraining ซึ่งหมายความว่าได้รับการฝึกฝนอย่างชัดเจนเพื่อสร้างคำอธิบายข้อความของรูปภาพ ซึ่งแตกต่างจากโมเดลอย่าง CLIP รุ่นดั้งเดิม ซึ่งได้รับการฝึกฝนเป็นหลักในการจับคู่รูปภาพ-ข้อความ ไม่ใช่การสร้างข้อความ
- ได้แรงบันดาลใจจากการเรียนรู้แบบ Self-Supervised: SigLIP 2 ใช้ประโยชน์จากเทคนิคที่มีประสิทธิภาพ:
- Self-Distillation: โมเดลเรียนรู้จากการคาดการณ์ของตัวเอง ปรับปรุงความเข้าใจเมื่อเวลาผ่านไป
- Masked Prediction: ส่วนหนึ่งของอินพุต (ทั้งแพตช์รูปภาพหรือโทเค็นข้อความ) ถูกซ่อนไว้ และโมเดลเรียนรู้ที่จะคาดการณ์ส่วนที่ขาดหายไป สิ่งนี้บังคับให้พัฒนาความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับทั้งสอง modalities
- LocCa Loss และ Decoder: SigLIP 2 ผสานรวม LocCa loss ซึ่งเพิ่ม Transformer decoder ด้วย cross-attention ตัวถอดรหัสนี้ได้รับการฝึกฝนโดยเฉพาะสำหรับงานต่างๆ เช่น การใส่คำบรรยายรูปภาพ การคาดการณ์นิพจน์อ้างอิง (การระบุภูมิภาคตามข้อความ) และ grounded captioning สิ่งนี้ช่วยเพิ่มประสิทธิภาพการ localization แบบละเอียดและการดึงคุณลักษณะโดยละเอียด
ทุกอย่างทำงานร่วมกันได้อย่างไร (รูปภาพ -> ข้อความ)
- อินพุตรูปภาพ: รูปภาพถูกป้อนเข้าสู่ตัวเข้ารหัส ViT
- Patch Embedding: รูปภาพถูกแบ่งออกเป็นแพตช์ และแต่ละแพตช์จะถูกแปลงเป็นเวกเตอร์การฝัง
- Transformer Encoding: เลเยอร์ Transformer ประมวลผล patch embeddings เหล่านี้ จับความสัมพันธ์ระหว่างส่วนต่างๆ ของรูปภาพ Learned positional embeddings ให้ข้อมูลเกี่ยวกับตำแหน่งของแต่ละแพตช์
- Attention Pooling: กลไกการรวมกลุ่มแบบ attention-based (หัว MAP) รวบรวมข้อมูลจาก patch embeddings ลงในตัวแทนรูปภาพที่ครอบคลุมเพียงหนึ่งเดียว
- ตัวถอดรหัสข้อความ (สำคัญสำหรับการแปลงรูปภาพเป็นข้อความ): นี่คือจุดที่ความสามารถในการใส่คำบรรยายของ SigLIP 2 เข้ามามีบทบาท ตัวแทนรูปภาพจากตัวเข้ารหัสจะถูกป้อนเข้าสู่ตัวถอดรหัส Transformer (เพิ่มโดย LocCa loss) ตัวถอดรหัสใช้ cross-attention เพื่อโฟกัสไปที่ส่วนที่เกี่ยวข้องของตัวแทนรูปภาพในขณะที่สร้างข้อความ
- เอาต์พุตข้อความ: ตัวถอดรหัสสร้างลำดับของโทเค็นข้อความ ก่อตัวเป็นคำบรรยายหรือคำอธิบายของรูปภาพ
พลังหลายภาษา
SigLIP 2 ไม่ได้จำกัดอยู่แค่ภาษาอังกฤษ ได้รับการฝึกฝนบนชุดข้อมูลหลายภาษา (WebLI) ทำให้มีความสามารถในการทำความเข้าใจและสร้างข้อความในหลายภาษา ทำให้เป็นเครื่องมือแปลงรูปภาพเป็นข้อความระดับโลกอย่างแท้จริง
โดยสรุป
การผสมผสานระหว่างสถาปัตยกรรมที่ใช้ ViT ที่แข็งแกร่ง, sigmoid loss และที่สำคัญที่สุดคือ pretraining แบบ decoder-based พร้อม captioning และ self-distillation ของ SigLIP 2 ทำให้เป็นโมเดลที่มีประสิทธิภาพสูงสำหรับงานแปลงรูปภาพเป็นข้อความ ซึ่งก้าวข้ามการจับคู่รูปภาพ-ข้อความแบบง่ายๆ ไปสู่การสร้างข้อความอธิบายอย่างจริงจัง เปิดโอกาสสำหรับแอปพลิเคชันต่างๆ เช่น การใส่คำบรรยายรูปภาพอัตโนมัติ การตอบคำถามเชิงภาพ และการวิเคราะห์รูปภาพโดยละเอียด
ลิงก์
ChatGPT with Vision
หากคุณต้องการอธิบายชุดข้อมูลรูปภาพที่ไม่ใหญ่มากนัก คุณสามารถใช้เครื่องมือ Image Describer ใน ChatGPT ได้ ไม่เหมาะสำหรับรูปภาพจำนวนมาก แต่เหมาะอย่างยิ่งสำหรับชุดรูปภาพขนาดเล็กกว่าเพราะให้คำอธิบายที่ดีที่สุดในภาษาธรรมชาติ คำอธิบายจากเครื่องมือนี้มีความแม่นยำและละเอียดมาก ไม่ใช่แค่แท็ก แต่เป็นข้อความที่สอดคล้องและให้ข้อมูล ซึ่งยังคำนึงถึงความสัมพันธ์ระหว่างวัตถุในรูปภาพด้วย
ตัวอย่าง:
ชุดรูปภาพทดสอบ:



ผลลัพธ์ Image Describer สำหรับรูปภาพ 3 รูปนี้:
คุณได้อัปโหลดรูปภาพสามรูป นี่คือคำอธิบายของแต่ละรูป:
- 1. รูปภาพแรกแสดงภาพลูกแมวการ์ตูนน่ารัก มีสไตล์ ดวงตาโตและแสดงอารมณ์ ส่วนใหญ่เป็นสีส้มมีสีขาวแซมที่ใบหน้า หน้าอก และอุ้งเท้า ลูกแมวกำลังถือปากกาซึ่งมีขนาดเกือบเท่าตัว และกำลังวาดหน้ายิ้มบนลูกบอลสีเหลืองสดใส สไตล์ศิลปะมีความประณีตและมีลักษณะคล้ายผิวมัน พื้นหลังสื่อถึงฉากที่แปลกประหลาดด้วยรูปทรงนามธรรมสีสันสดใสและคำแนะนำของท้องฟ้าที่เต็มไปด้วยดวงดาว
- 2. รูปภาพที่สองดูเหมือนจะเป็นภาพหน้าจอของส่วนแชทหรือความคิดเห็นจากแพลตฟอร์มโซเชียลมีเดีย ผู้ใช้หลายคนได้แสดงความคิดเห็น ซึ่งหลายคนรวมถึงการหัวเราะหรือความสนุกสนานที่ระบุโดยตัวย่อเช่น “LMAO” และอิโมจิ ชื่อผู้ใช้และรูปโปรไฟล์ถูกทำให้เป็นพิกเซลเพื่อความเป็นส่วนตัว โดยมีสีสันหลากหลายแสดงอยู่ในพิกเซล
- 3. รูปภาพที่สามเป็นภาพประกอบที่มีรายละเอียดสูงและสมจริงของหญิงสาวที่มีสีหน้าเป็นมิตร เธอมีผมยาวสีดำ ผิวขาว และสวมเสื้อฮู้ดสีม่วง ผู้หญิงคนนี้ยังสวมชุดหูฟัง ซึ่งบ่งบอกว่าเธออาจเป็นสตรีมเมอร์วิดีโอเกมหรือเกี่ยวข้องกับการสื่อสารออนไลน์บางรูปแบบ ฉากหลังดูเหมือนจะเป็นห้องที่สว่างไสวด้วยโทนสีม่วง อาจมาจากไฟ LED ซึ่งบ่งบอกถึงการตั้งค่าเกม
แต่ละรูปภาพมีบริบทและสไตล์ภาพที่แตกต่างกันมาก ตั้งแต่ภาพประกอบที่แปลกประหลาดไปจนถึงภาพหน้าจอของการโต้ตอบทางดิจิทัล ไปจนถึงภาพวาดดิจิทัลที่สมจริงยิ่งขึ้น
สรุป
การเลือกระหว่าง CLIP, BLIP, WD 1.4, SigLIP 2 และ Image Describer ขึ้นอยู่กับความต้องการเฉพาะของโปรเจกต์ หากความแม่นยำและรายละเอียดเป็นสิ่งสำคัญที่สุด WD 1.4 เป็นตัวเลือกที่น่าสนใจด้วยการกำหนดค่าขั้นสูงและความสามารถในการติดแท็กโดยละเอียด สำหรับแอปพลิเคชันที่เรียบง่ายกว่า แนวทางที่ตรงไปตรงมาของ BLIP อาจเหมาะสมกว่า ในขณะเดียวกัน CLIP ให้ความสมดุลระหว่างรายละเอียดและความเรียบง่าย แม้ว่าจะมีแนวโน้มที่จะเยิ่นเย้อ
Image Describer ให้ผลลัพธ์ที่ดีที่สุด แต่ไม่เหมาะสำหรับการอธิบายหรือติดแท็กชุดรูปภาพขนาดใหญ่
ในขณะที่โมเดลเหล่านี้ยังคงพัฒนาและปรับปรุงต่อไป พวกเขามีศักยภาพที่สดใสสำหรับแอปพลิเคชันที่หลากหลาย ตั้งแต่การสร้างเนื้อหาไปจนถึงการวิเคราะห์ข้อมูล แม้ว่าจะมีข้อแตกต่างกัน แต่โมเดล CLIP, BLIP, WD 1.4, SigLIP 2 และ GPT-Vision ก็เป็นเครื่องพิสูจน์ถึงความก้าวหน้าอย่างรวดเร็วในเทคโนโลยีการแปลงรูปภาพเป็นข้อความ ซึ่งแต่ละโมเดลก็มีจุดแข็งที่เป็นเอกลักษณ์ในสาขาที่น่าตื่นเต้นนี้