Gắn thẻ, dán nhãn hoặc mô tả ảnh một cách tự động là một công việc quan trọng trong nhiều ứng dụng, đặc biệt là trong việc chuẩn bị bộ dữ liệu cho máy học. Đây là lúc các mô hình chuyển đổi ảnh thành văn bản phát huy tác dụng. Trong số các mô hình chuyển đổi ảnh thành văn bản hàng đầu có CLIP, BLIP, WD 1.4 (còn được gọi là WD14 hoặc Waifu Diffusion 1.4 Tagger), SigLIP 2 và ChatGPT with Vision.
CLIP: Bước Đột Phá Mang Tính Cách Mạng
Mô hình Contrastive Language–Image Pretraining (CLIP) của OpenAI đã được công nhận rộng rãi nhờ cách tiếp cận mang tính cách mạng trong việc hiểu và tạo ra các mô tả cho hình ảnh. CLIP tận dụng một lượng lớn dữ liệu văn bản và hình ảnh trên internet để học vô số khái niệm trực quan, từ đó tạo ra các câu mô tả cho hình ảnh.
Tuy nhiên, theo đánh giá của người dùng, các câu mô tả của CLIP đôi khi có thể bị dư thừa hoặc quá dài dòng. Một chỉ trích thường gặp xoay quanh xu hướng lặp lại các mô tả tương tự cho cùng một đối tượng hoặc cường điệu hóa một số thuộc tính nhất định, chẳng hạn như màu sắc của một vật thể.
BLIP: Đơn Giản Nhưng Hiệu Quả
Mô hình BLIP, mặc dù mô tả không chi tiết bằng CLIP, nhưng lại mang đến một cách tiếp cận đơn giản và trực tiếp hơn cho việc xử lý ảnh thành văn bản. Như một nhà phê bình đã nhận xét, BLIP “hay đấy nhưng khá cơ bản”. Sự đơn giản của mô hình này có thể là một lợi thế cho các ứng dụng yêu cầu thẻ hoặc mô tả đơn giản, ít dài dòng.
Tuy nhiên, một số người dùng nhận thấy rằng đầu ra của BLIP thường thiếu chiều sâu và độ chi tiết mà các mô hình như WD14 cung cấp. Mặc dù nó có thể tạo ra kết quả đạt yêu cầu, nhưng BLIP có thể không phải là lựa chọn tốt nhất cho các ứng dụng đòi hỏi thẻ chi tiết và phức tạp.
Tôi thấy WD14, dù tập trung vào anime, vẫn hoạt động rất tốt với ảnh chụp người thật. Tôi thường kết hợp nó với BLIP và hầu hết thời gian nó nhận diện được nhiều chi tiết hơn BLIP.
Toni Corvera tại bình luận trên YouTube
Blip hay đấy nhưng khá cơ bản.
Gắn thẻ bằng WD 1.4 (WD14) tốt hơn nhiều – chi tiết hơn, thẻ “chất” hơn.
OrphBean tại GitHub
WD 1.4 (hay WD14): Độ Chính Xác Đến Từng Chi Tiết
Mô hình WD 1.4 (còn được gọi là WD14 hoặc Waifu Diffusion 1.4 Tagger), ban đầu được thiết kế cho ảnh anime, đã thể hiện sự linh hoạt đáng ngạc nhiên, hoạt động tốt ngay cả với ảnh chụp. Người dùng đã ca ngợi các tùy chọn cấu hình nâng cao và khả năng xử lý hàng loạt của nó, khiến nó trở thành một công cụ mạnh mẽ để chuyển đổi ảnh thành văn bản.
Điều khiến WD14 trở nên khác biệt là khả năng tạo ra các thẻ chi tiết, “chất” hơn, cung cấp mô tả chuyên sâu hơn về hình ảnh so với các đối thủ. Mặc dù mô hình này ít có khả năng tạo ra các thẻ sai lệch, nhưng việc tập trung vào anime có thể là một hạn chế đối với một số loại hình ảnh nhất định.
Hỏi: Công cụ gắn thẻ WD14 có tốt hơn BLIP hoặc deepdanbooru tích hợp trong Automatic1111 không?
Đáp: Tiện ích mở rộng này cung cấp các tùy chọn tốt hơn cho cấu hình và xử lý hàng loạt, và tôi thấy nó ít có khả năng tạo ra các thẻ hoàn toàn sai lệch hơn deepdanbooru.CLIP/BLIP thì khác vì chúng tạo ra các câu mô tả thay vì danh sách thẻ, nhưng vế sau thường phù hợp với nhu cầu của tôi hơn. Và công cụ thẩm vấn CLIP tích hợp sẵn có xu hướng đưa ra những thứ như “một bức ảnh về (mô tả) và một bức ảnh về (mô tả hơi khác một chút về cùng một thứ)” hoặc “(mô tả gần như đầy đủ) và tóc hồng và tóc hồng và tóc hồng và (lặp lại nhiều lần)”
Mặc dù được tạo ra cho anime, nhưng công cụ gắn thẻ WD14 hoạt động khá tốt trên ảnh chụp.
MorganTheDual tại Reddit
SigLIP 2: Một Cỗ Máy Chuyển Đổi Ảnh Thành Văn Bản Mạnh Mẽ
Mô hình miễn phí và mã nguồn mở SigLIP 2 của Google, không chỉ là một mô hình ngôn ngữ-thị giác; nó là một cỗ máy mạnh mẽ để biến hình ảnh thành văn bản có ý nghĩa. Mặc dù nó vượt trội trong các tác vụ như truy xuất ảnh-văn bản và phân loại zero-shot, nhưng kiến trúc và các cải tiến đào tạo của nó khiến nó trở thành một ứng cử viên nặng ký cho việc tạo và hiểu văn bản từ ảnh. Dưới đây là phân tích chi tiết về cách SigLIP 2 hoạt động trong bối cảnh này:
Nền tảng: Vision Transformer (ViT) và Hàm Mất Mát Sigmoid
- Vision Transformer (ViT): Không giống như mạng nơ-ron tích chập (CNN), SigLIP 2 sử dụng kiến trúc Vision Transformer (ViT). ViT coi một hình ảnh như một chuỗi các vùng nhỏ (patch), tương tự như cách các từ được coi là token trong xử lý ngôn ngữ tự nhiên. Mỗi vùng nhỏ được chuyển đổi thành một biểu diễn vector (một embedding). Điều này cho phép mô hình sử dụng kiến trúc Transformer mạnh mẽ, nổi tiếng với khả năng nắm bắt các phụ thuộc tầm xa, để hiểu mối quan hệ giữa các phần khác nhau của hình ảnh.
- Hàm Mất Mát Sigmoid (Không Đối Tương Phản): Một điểm khác biệt chính của SigLIP (và SigLIP 2) là việc sử dụng hàm mất mát sigmoid thay vì hàm mất mát đối tương phản phổ biến hơn (được sử dụng trong các mô hình như CLIP). Học đối tương phản yêu cầu so sánh một hình ảnh với nhiều tùy chọn văn bản. Mặt khác, hàm mất mát Sigmoid coi việc khớp ảnh-văn bản như một bài toán phân loại nhị phân cho mỗi cặp ảnh-văn bản. Sự thay đổi có vẻ nhỏ này lại có tác động lớn: nó cho phép đào tạo ổn định hơn và hiệu suất tốt hơn, đặc biệt với kích thước batch lớn hơn. Nó tập trung vào các kết quả khớp cặp ảnh-văn bản riêng lẻ.
Đào Tạo Nâng Cao để Tạo Văn Bản
SigLIP 2 kế thừa nền tảng của SigLIP và bổ sung một số cải tiến quan trọng có lợi trực tiếp cho khả năng chuyển đổi ảnh thành văn bản của nó:
- Tiền Đào Tạo Dựa Trên Chú Thích Ảnh: Đây là một bước tiến lớn. SigLIP 2 kết hợp chú thích ảnh như một phần của quy trình tiền đào tạo. Điều này có nghĩa là nó được đào tạo rõ ràng để tạo ra các mô tả văn bản cho hình ảnh. Điều này trái ngược với các mô hình như CLIP ban đầu, vốn chủ yếu được đào tạo về khớp ảnh-văn bản, chứ không phải tạo ra văn bản.
- Lấy Cảm Hứng Từ Học Tự Giám Sát: SigLIP 2 tận dụng các kỹ thuật mạnh mẽ:
- Tự Chưng Cất: Mô hình học hỏi từ các dự đoán của chính nó, tinh chỉnh sự hiểu biết của nó theo thời gian.
- Dự Đoán Che Mặt Nạ: Các phần của đầu vào (vùng nhỏ ảnh hoặc token văn bản) bị ẩn đi và mô hình học cách dự đoán các phần bị thiếu. Điều này buộc nó phải phát triển sự hiểu biết sâu sắc hơn về cả hai phương thức.
- Hàm Mất Mát LocCa và Bộ Giải Mã: SigLIP 2 tích hợp hàm mất mát LocCa, hàm này thêm một bộ giải mã Transformer với cơ chế cross-attention. Bộ giải mã này được đào tạo đặc biệt trên các tác vụ như chú thích ảnh, dự đoán biểu thức tham chiếu (xác định các vùng dựa trên văn bản) và chú thích có căn cứ. Điều này tăng cường khả năng định vị chi tiết và trích xuất đặc trưng chi tiết.
Cách Tất Cả Kết Hợp Với Nhau (Ảnh -> Văn Bản)
- Đầu Vào Ảnh: Một hình ảnh được đưa vào bộ mã hóa ViT.
- Embedding Vùng Nhỏ: Hình ảnh được chia thành các vùng nhỏ và mỗi vùng nhỏ được chuyển đổi thành một vector embedding.
- Mã Hóa Transformer: Các lớp Transformer xử lý các embedding vùng nhỏ này, nắm bắt các mối quan hệ giữa các phần khác nhau của hình ảnh. Các embedding vị trí được học cung cấp thông tin về vị trí của mỗi vùng nhỏ.
- Pooling Chú Ý: Một cơ chế pooling dựa trên sự chú ý (đầu MAP) tổng hợp thông tin từ các embedding vùng nhỏ thành một biểu diễn hình ảnh toàn diện duy nhất.
- Bộ Giải Mã Văn Bản (Quan Trọng cho Ảnh-Thành-Văn Bản): Đây là nơi các khả năng chú thích ảnh của SigLIP 2 phát huy tác dụng. Biểu diễn hình ảnh từ bộ mã hóa được đưa vào bộ giải mã Transformer (được thêm vào bởi hàm mất mát LocCa). Bộ giải mã sử dụng cross-attention để tập trung vào các phần liên quan của biểu diễn hình ảnh trong khi tạo văn bản.
- Đầu Ra Văn Bản: Bộ giải mã tạo ra một chuỗi các token văn bản, tạo thành chú thích hoặc mô tả của hình ảnh.
Sức Mạnh Đa Ngôn Ngữ
SigLIP 2 không giới hạn ở tiếng Anh. Nó được đào tạo trên một bộ dữ liệu đa ngôn ngữ (WebLI), giúp nó có khả năng hiểu và tạo văn bản bằng nhiều ngôn ngữ, biến nó thành một công cụ chuyển đổi ảnh thành văn bản thực sự toàn cầu.
Tóm Tắt
Sự kết hợp của SigLIP 2 giữa kiến trúc mạnh mẽ dựa trên ViT, hàm mất mát sigmoid và quan trọng nhất là tiền đào tạo dựa trên bộ giải mã với chú thích ảnh và tự chưng cất, khiến nó trở thành một mô hình rất hiệu quả cho các tác vụ chuyển đổi ảnh thành văn bản. Nó vượt xa việc khớp ảnh-văn bản đơn giản để chủ động tạo ra văn bản mô tả, mở ra khả năng cho các ứng dụng như chú thích ảnh tự động, trả lời câu hỏi trực quan và phân tích hình ảnh chi tiết.
Liên Kết
ChatGPT with Vision
Nếu bạn cần mô tả một bộ dữ liệu hình ảnh không quá lớn, bạn có thể sử dụng công cụ Image Describer trong ChatGPT. Nó không phù hợp với số lượng lớn hình ảnh, nhưng nó hoàn hảo cho các tập hợp hình ảnh nhỏ hơn vì nó cung cấp các mô tả tốt nhất bằng ngôn ngữ tự nhiên. Các mô tả từ công cụ này rất chính xác và chi tiết. Nó không chỉ là thẻ mà còn là văn bản mạch lạc và giàu thông tin, đồng thời cũng tính đến mối quan hệ giữa các đối tượng trong hình ảnh.
Ví dụ:
Bộ ảnh thử nghiệm:



Image Describer đưa ra cho 3 ảnh này:
Bạn đã tải lên ba hình ảnh. Dưới đây là mô tả cho từng hình:
- Hình ảnh đầu tiên có một chú mèo con hoạt hình cách điệu đáng yêu với đôi mắt to, biểu cảm. Nó chủ yếu có màu cam với các điểm nhấn màu trắng trên mặt, ngực và chân. Mèo con đang cầm một cây bút, gần như to bằng chính nó, và đang vẽ một khuôn mặt tươi cười trên một quả bóng màu vàng tươi. Phong cách nghệ thuật rất bóng bẩy và có một lớp hoàn thiện bóng loáng. Bối cảnh gợi ý một khung cảnh kỳ lạ với các hình dạng trừu tượng đầy màu sắc và gợi ý về một bầu trời đầy sao.
- Hình ảnh thứ hai dường như là ảnh chụp màn hình của một phần trò chuyện hoặc bình luận từ một nền tảng truyền thông xã hội. Nhiều người dùng đã để lại bình luận, nhiều bình luận trong số đó bao gồm tiếng cười hoặc sự thích thú được biểu thị bằng các từ viết tắt như “LMAO” và biểu tượng cảm xúc. Tên người dùng và ảnh hồ sơ bị pixel hóa để bảo vệ quyền riêng tư, với nhiều màu sắc khác nhau được hiển thị trong quá trình pixel hóa.
- Hình ảnh thứ ba là một hình minh họa chi tiết và chân thực về một phụ nữ trẻ với vẻ mặt thân thiện. Cô ấy có mái tóc đen dài, làn da trắng và mặc một chiếc áo hoodie màu tím. Người phụ nữ cũng đang đeo tai nghe, cho thấy cô ấy có thể là một streamer trò chơi điện tử hoặc tham gia vào một số hình thức giao tiếp trực tuyến nào đó. Bối cảnh dường như là một căn phòng được chiếu sáng bằng ánh sáng màu tím, có thể là từ đèn LED, cho thấy một thiết lập chơi game.
Mỗi hình ảnh có một bối cảnh và phong cách hình ảnh rất khác nhau, từ hình minh họa kỳ lạ đến ảnh chụp màn hình tương tác kỹ thuật số, đến một bức tranh kỹ thuật số chân thực hơn.
Tổng Kết
Việc lựa chọn giữa CLIP, BLIP, WD 1.4, SigLIP 2 và Image Describer phần lớn phụ thuộc vào nhu cầu cụ thể của một dự án. Nếu độ chính xác và chi tiết là tối quan trọng, WD 1.4 và SigLIP 2 mang đến một lựa chọn hấp dẫn với cấu hình nâng cao và khả năng gắn thẻ chi tiết. Đối với các ứng dụng đơn giản hơn, cách tiếp cận đơn giản của BLIP có thể phù hợp hơn. Trong khi đó, CLIP cung cấp sự cân bằng giữa chi tiết và đơn giản, mặc dù có xu hướng dài dòng.
Image Describer mang lại kết quả tốt nhất nhưng không phù hợp để mô tả hoặc gắn thẻ số lượng lớn hình ảnh.
Khi các mô hình này tiếp tục phát triển và cải thiện, chúng nắm giữ tiềm năng đầy hứa hẹn cho một loạt các ứng dụng rộng lớn, từ tạo nội dung đến phân tích dữ liệu. Bất chấp sự khác biệt của chúng, CLIP, BLIP, WD 1.4, SigLIP 2 và các mô hình GPT-Vision là minh chứng cho những tiến bộ nhanh chóng trong công nghệ chuyển đổi ảnh thành văn bản, mỗi mô hình đóng góp những thế mạnh riêng cho lĩnh vực thú vị này.