Μοντέλα Τεχνητής Νοημοσύνης Μετατροπής Εικόνας σε Κείμενο: CLIP, BLIP, WD 1.4 (γνωστό και ως WD14), SigLIP 2 και ChatGPT με Όραση

Κατηγοριοποιημένα ως AI/ML, Art, Open Source Με ετικέτα: , , ,
Save and Share:

Η αυτόματη προσθήκη ετικετών, η επισήμανση ή η περιγραφή εικόνων είναι μια κρίσιμη εργασία σε πολλές εφαρμογές, ιδιαίτερα στην προετοιμασία συνόλων δεδομένων για μηχανική μάθηση. Εδώ ακριβώς έρχονται να βοηθήσουν τα μοντέλα μετατροπής εικόνας σε κείμενο. Ανάμεσα στα κορυφαία μοντέλα μετατροπής εικόνας σε κείμενο συγκαταλέγονται τα CLIP, BLIP, WD 1.4 (επίσης γνωστό ως WD14 ή Waifu Diffusion 1.4 Tagger), SigLIP 2 και ChatGPT με Όραση.

CLIP: Ένα Επαναστατικό Άλμα

Το μοντέλο Contrastive Language–Image Pretraining (CLIP) της OpenAI έχει αναγνωριστεί ευρέως για την επαναστατική του προσέγγιση στην κατανόηση και δημιουργία περιγραφών για εικόνες. Το CLIP αξιοποιεί μεγάλο όγκο διαδικτυακού κειμένου και δεδομένων εικόνας για να μάθει μια πληθώρα οπτικών εννοιών, παράγοντας έτσι περιγραφικές προτάσεις για εικόνες.

Ωστόσο, σύμφωνα με κριτικές χρηστών, οι περιγραφικές προτάσεις του CLIP μπορεί μερικές φορές να είναι περιττές ή υπερβολικά μακροσκελείς. Μια κοινή κριτική αφορά την τάση του μοντέλου να επαναλαμβάνει παρόμοιες περιγραφές για το ίδιο αντικείμενο ή να δίνει υπερβολική έμφαση σε ορισμένα χαρακτηριστικά, όπως το χρώμα ενός αντικειμένου.

BLIP: Απλότητα και Λειτουργικότητα

Το μοντέλο BLIP, αν και λιγότερο λεπτομερές στις περιγραφές του σε σύγκριση με το CLIP, προσφέρει μια απλούστερη και πιο άμεση προσέγγιση στην επεξεργασία εικόνας σε κείμενο. Όπως σημείωσε ένας κριτικός, το BLIP είναι “ενδιαφέρον, αλλά αρκετά βασικό”. Η απλότητα αυτού του μοντέλου μπορεί να είναι πλεονέκτημα για εφαρμογές που απαιτούν απλές, λιγότερο μακροσκελείς ετικέτες ή περιγραφές.

Ωστόσο, ορισμένοι χρήστες διαπίστωσαν ότι η έξοδος του BLIP συχνά στερείται το βάθος και τη λεπτομέρεια που παρέχουν μοντέλα όπως το WD14. Αν και μπορεί να παράγει ικανοποιητικά αποτελέσματα, το BLIP μπορεί να μην είναι η καλύτερη επιλογή για εφαρμογές που απαιτούν λεπτομερείς, σύνθετες ετικέτες.

Έχω διαπιστώσει ότι το WD14, παρόλο που εστιάζει σε anime, λειτουργεί εξαιρετικά και για πραγματικές φωτογραφίες ανθρώπων. Συνήθως το συνδυάζω με το BLIP και τις περισσότερες φορές ανιχνεύει πολύ περισσότερες λεπτομέρειες από το BLIP.

Toni Corvera στα σχόλια του YouTube

Το Blip είναι ενδιαφέρον, αλλά αρκετά βασικό.

Η προσθήκη ετικετών WD 1.4 (WD14) είναι πολύ καλύτερη – περισσότερες λεπτομέρειες, πιο “ζουμερές” ετικέτες.

OrphBean στο GitHub

WD 1.4 (γνωστό και ως WD14): Ακρίβεια στη Λεπτομέρεια

Το μοντέλο WD 1.4 (επίσης γνωστό ως WD14 ή Waifu Diffusion 1.4 Tagger), αρχικά σχεδιασμένο για εικόνες anime, έχει επιδείξει εκπληκτική ευελιξία, αποδίδοντας καλά ακόμη και με φωτογραφίες. Οι χρήστες έχουν επαινέσει τις προηγμένες επιλογές διαμόρφωσης και τις δυνατότητες επεξεργασίας παρτίδων, οι οποίες το καθιστούν ένα ισχυρό εργαλείο για τη μετάφραση εικόνας σε κείμενο.

Αυτό που ξεχωρίζει το WD14 είναι η ικανότητά του να δημιουργεί λεπτομερείς, “ζουμερές” ετικέτες, παρέχοντας πιο εμπεριστατωμένες περιγραφές εικόνων σε σύγκριση με τους ανταγωνιστές του. Αν και αυτό το μοντέλο είναι λιγότερο πιθανό να παράγει ψευδείς ετικέτες, η εστίασή του στα anime μπορεί να αποτελεί περιορισμό για ορισμένους τύπους εικόνων.

Ε: Είναι το tagger WD14 καλύτερο από τα ενσωματωμένα BLIP ή deepdanbooru στο Automatic1111;

Α: Η επέκταση παρέχει καλύτερες επιλογές για διαμόρφωση και επεξεργασία παρτίδων, και έχω διαπιστώσει ότι είναι λιγότερο πιθανό να παράγει εντελώς ψευδείς ετικέτες από το deepdanbooru.

Τα CLIP/BLIP είναι διαφορετικά, καθώς παράγουν περιγραφικές προτάσεις αντί για λίστες ετικετών, αλλά το δεύτερο είναι συνήθως πιο σύμφωνο με τις ανάγκες μου. Και ο ενσωματωμένος ανακριτής CLIP είναι επιρρεπής στο να βγάζει πράγματα όπως “μια φωτογραφία από (περιγραφή) και μια φωτογραφία από (ελαφρώς διαφορετική περιγραφή του ίδιου πράγματος” ή “(σχεδόν πλήρης περιγραφή) και ροζ μαλλιά και ροζ μαλλιά και ροζ μαλλιά και (επανάληψη πολλές φορές)”

Παρόλο που φτιάχτηκε για anime, το tagger WD14 λειτουργεί αρκετά καλά σε φωτογραφίες.

MorganTheDual στο Reddit

SigLIP 2: Μια Ισχυρή Μηχανή Μετατροπής Εικόνας σε Κείμενο

Το δωρεάν και ανοιχτού κώδικα μοντέλο SigLIP 2 από την Google, δεν είναι απλώς ένα μοντέλο όρασης-γλώσσας· είναι μια ισχυρή μηχανή για τη μετατροπή εικόνων σε ουσιαστικό κείμενο. Αν και διαπρέπει σε εργασίες όπως η ανάκτηση εικόνας-κειμένου και η ταξινόμηση μηδενικού δείγματος, η αρχιτεκτονική του και οι βελτιώσεις στην εκπαίδευση το καθιστούν έναν ισχυρό ανταγωνιστή για τη δημιουργία και την κατανόηση εικόνας σε κείμενο. Ακολουθεί μια ανάλυση του τρόπου λειτουργίας του SigLIP 2 σε αυτό το πλαίσιο:

Το Θεμέλιο: Vision Transformer (ViT) και Sigmoid Loss

  • Vision Transformer (ViT): Σε αντίθεση με τα συνελικτικά νευρωνικά δίκτυα (CNN), το SigLIP 2 χρησιμοποιεί μια αρχιτεκτονική Vision Transformer (ViT). Το ViT αντιμετωπίζει μια εικόνα σαν μια ακολουθία τμημάτων, παρόμοια με τον τρόπο που οι λέξεις αντιμετωπίζονται ως tokens στην επεξεργασία φυσικής γλώσσας. Κάθε τμήμα μετατρέπεται σε μια διανυσματική αναπαράσταση (ένα embedding). Αυτό επιτρέπει στο μοντέλο να χρησιμοποιήσει την ισχυρή αρχιτεκτονική Transformer, γνωστή για την ικανότητά της να καταγράφει εξαρτήσεις μεγάλης εμβέλειας, για να κατανοήσει τις σχέσεις μεταξύ διαφορετικών τμημάτων της εικόνας.
  • Sigmoid Loss (Όχι Contrastive): Ένα βασικό στοιχείο διαφοροποίησης του SigLIP (και του SigLIP 2) είναι η χρήση μιας συνάρτησης sigmoid loss αντί για την πιο κοινή contrastive loss (που χρησιμοποιείται σε μοντέλα όπως το CLIP). Η contrastive μάθηση απαιτεί τη σύγκριση μιας εικόνας με πολλαπλές επιλογές κειμένου. Η sigmoid loss, από την άλλη πλευρά, αντιμετωπίζει την αντιστοίχιση εικόνας-κειμένου ως ένα πρόβλημα δυαδικής ταξινόμησης για κάθε ζεύγος εικόνας-κειμένου. Αυτή η φαινομενικά μικρή αλλαγή έχει μεγάλο αντίκτυπο: επιτρέπει πιο σταθερή εκπαίδευση και καλύτερη απόδοση, ειδικά με μεγαλύτερα μεγέθη παρτίδων. Εστιάζει στις μεμονωμένες αντιστοιχίσεις ζευγών εικόνας-κειμένου.

Βελτιωμένη Εκπαίδευση για Δημιουργία Κειμένου

Το SigLIP 2 παίρνει το θεμέλιο του SigLIP και προσθέτει αρκετές κρίσιμες βελτιώσεις που ωφελούν άμεσα τις δυνατότητές του μετατροπής εικόνας σε κείμενο:

  • Pretraining Βασισμένο σε Λεζάντες: Αυτό είναι ένα τεράστιο βήμα. Το SigLIP 2 ενσωματώνει την δημιουργία λεζάντας ως μέρος της διαδικασίας pretraining. Αυτό σημαίνει ότι εκπαιδεύεται ρητά για να δημιουργεί περιγραφές κειμένου για εικόνες. Αυτό έρχεται σε αντίθεση με μοντέλα όπως το αρχικό CLIP, τα οποία εκπαιδεύτηκαν κυρίως στην αντιστοίχιση εικόνας-κειμένου, όχι στη δημιουργία.

  • Εμπνευσμένο από την Αυτοεπιβλεπόμενη Μάθηση: Το SigLIP 2 αξιοποιεί ισχυρές τεχνικές:
    • Αυτο-απόσταξη: Το μοντέλο μαθαίνει από τις δικές του προβλέψεις, βελτιώνοντας την κατανόησή του με την πάροδο του χρόνου.
    • Μασκαρισμένη Πρόβλεψη: Τμήματα της εισόδου (είτε τμήματα εικόνας είτε tokens κειμένου) είναι κρυμμένα και το μοντέλο μαθαίνει να προβλέπει τα κομμάτια που λείπουν. Αυτό το αναγκάζει να αναπτύξει μια βαθύτερη κατανόηση και των δύο μορφοτροπιών.
  • LocCa Loss και Decoder: Το SigLIP 2 ενσωματώνει το LocCa loss, το οποίο προσθέτει έναν Transformer decoder με cross-attention. Αυτός ο decoder εκπαιδεύεται ειδικά σε εργασίες όπως η δημιουργία λεζάντας εικόνας, η πρόβλεψη εκφράσεων αναφοράς (αναγνώριση περιοχών με βάση το κείμενο) και η grounded captioning. Αυτό ενισχύει την λεπτομερή εντοπισμό θέσης και την λεπτομερή εξαγωγή χαρακτηριστικών.

Πώς Συνδυάζονται Όλα (Εικόνα -> Κείμενο)

  1. Είσοδος Εικόνας: Μια εικόνα τροφοδοτείται στον ViT encoder.
  2. Patch Embedding: Η εικόνα χωρίζεται σε τμήματα και κάθε τμήμα μετατρέπεται σε ένα διανυσματικό embedding.
  3. Transformer Encoding: Τα στρώματα Transformer επεξεργάζονται αυτά τα patch embeddings, καταγράφοντας σχέσεις μεταξύ διαφορετικών τμημάτων της εικόνας. Τα εκπαιδευμένα positional embeddings παρέχουν πληροφορίες σχετικά με τη θέση κάθε τμήματος.
  4. Attention Pooling: Ένας μηχανισμός attention-based pooling (MAP head) συγκεντρώνει τις πληροφορίες από τα patch embeddings σε μια ενιαία, ολοκληρωμένη αναπαράσταση εικόνας.
  5. Text Decoder (Κρίσιμο για Μετατροπή Εικόνας σε Κείμενο): Εδώ ακριβώς μπαίνουν στο παιχνίδι οι δυνατότητες δημιουργίας λεζάντας του SigLIP 2. Η αναπαράσταση εικόνας από τον encoder τροφοδοτείται στον Transformer decoder (που προστέθηκε από το LocCa loss). Ο decoder χρησιμοποιεί cross-attention για να εστιάσει σε σχετικά μέρη της αναπαράστασης εικόνας κατά τη δημιουργία κειμένου.
  6. Έξοδος Κειμένου: Ο decoder δημιουργεί μια ακολουθία tokens κειμένου, σχηματίζοντας μια λεζάντα ή περιγραφή της εικόνας.

Πολυγλωσσική Δύναμη

Το SigLIP 2 δεν περιορίζεται μόνο στα αγγλικά. Εκπαιδεύεται σε ένα πολύγλωσσο σύνολο δεδομένων (WebLI), δίνοντάς του τη δυνατότητα να κατανοεί και να δημιουργεί κείμενο σε πολλές γλώσσες, καθιστώντας το ένα πραγματικά παγκόσμιο εργαλείο μετατροπής εικόνας σε κείμενο.

Συνοπτικά

Ο συνδυασμός του SigLIP 2 μιας ισχυρής αρχιτεκτονικής βασισμένης σε ViT, sigmoid loss, και, κυρίως, pretraining βασισμένη σε decoder με δημιουργία λεζάντας και αυτο-απόσταξη, το καθιστά ένα εξαιρετικά αποτελεσματικό μοντέλο για εργασίες μετατροπής εικόνας σε κείμενο. Ξεπερνά την απλή αντιστοίχιση εικόνας-κειμένου για να δημιουργήσει ενεργά περιγραφικό κείμενο, ανοίγοντας δυνατότητες για εφαρμογές όπως η αυτόματη δημιουργία λεζάντας εικόνων, η απάντηση σε οπτικές ερωτήσεις και η λεπτομερής ανάλυση εικόνων.

Σύνδεσμοι

ChatGPT με Όραση

Εάν χρειάζεται να περιγράψετε ένα όχι πολύ μεγάλο σύνολο δεδομένων εικόνων, μπορείτε να χρησιμοποιήσετε το εργαλείο Image Describer στο ChatGPT. Δεν είναι κατάλληλο για μεγάλες παρτίδες εικόνων, αλλά είναι ιδανικό για μικρότερα σύνολα εικόνων επειδή παρέχει απολύτως τις καλύτερες περιγραφές σε φυσική γλώσσα. Οι περιγραφές από αυτό το εργαλείο είναι πολύ ακριβείς και λεπτομερείς. Δεν είναι απλώς ετικέτες, αλλά συνεκτικό και ενημερωτικό κείμενο που λαμβάνει επίσης υπόψη τις σχέσεις μεταξύ των αντικειμένων στην εικόνα.

Παράδειγμα:

Σύνολο εικόνων δοκιμής:

Image Describer έξοδος για αυτές τις 3 εικόνες:

Έχετε ανεβάσει τρεις εικόνες. Ακολουθεί μια περιγραφή για κάθε μία:

  1. Η πρώτη εικόνα απεικονίζει ένα αξιολάτρευτο, στυλιζαρισμένο κινούμενο σχέδιο γατάκι με μεγάλα, εκφραστικά μάτια. Είναι κυρίως πορτοκαλί με λευκές πινελιές στο πρόσωπο, το στήθος και τα πόδια του. Το γατάκι κρατάει ένα στυλό, το οποίο είναι σχεδόν τόσο μεγάλο όσο το ίδιο, και σχεδιάζει ένα χαμογελαστό πρόσωπο σε μια φωτεινή κίτρινη μπάλα. Το στυλ τέχνης είναι πολύ καλοδουλεμένο και έχει ένα είδος γυαλιστερού φινιρίσματος. Το φόντο υποδηλώνει ένα ιδιόρρυθμο σκηνικό με πολύχρωμα, αφηρημένα σχήματα και μια υπόδειξη έναστρου ουρανού.
  2. Η δεύτερη εικόνα φαίνεται να είναι ένα στιγμιότυπο οθόνης μιας ενότητας συνομιλίας ή σχολίων από μια πλατφόρμα κοινωνικών μέσων. Διάφοροι χρήστες έχουν αφήσει σχόλια, πολλά από τα οποία περιλαμβάνουν γέλιο ή διασκέδαση που υποδεικνύονται από ακρωνύμια όπως “LMAO” και emojis. Τα ονόματα χρήστη και οι εικόνες προφίλ είναι pixelated για λόγους ιδιωτικότητας, με μια ποικιλία χρωμάτων που εμφανίζονται στο pixelation.
  3. Η τρίτη εικόνα είναι μια εξαιρετικά λεπτομερής και ρεαλιστική απεικόνιση μιας νεαρής γυναίκας με φιλική έκφραση. Έχει μακριά μαύρα μαλλιά, ανοιχτόχρωμο δέρμα και φοράει ένα μωβ hoodie. Η γυναίκα φοράει επίσης ένα headset, υποδηλώνοντας ότι μπορεί να είναι streamer βιντεοπαιχνιδιών ή να εμπλέκεται σε κάποια μορφή διαδικτυακής επικοινωνίας. Το σκηνικό φαίνεται να είναι ένα δωμάτιο φωτισμένο με μια μωβ απόχρωση, πιθανώς από φώτα LED, ενδεικτικό ενός gaming setup.

Κάθε εικόνα έχει ένα πολύ διαφορετικό πλαίσιο και οπτικό στυλ, που κυμαίνεται από ιδιόρρυθμη εικονογράφηση έως ένα στιγμιότυπο οθόνης μιας ψηφιακής αλληλεπίδρασης, έως έναν πιο ρεαλιστικό ψηφιακό πίνακα ζωγραφικής.

Συνοψίζοντας

Η επιλογή μεταξύ CLIP, BLIP, WD 1.4, SigLIP 2 και Image Describer εξαρτάται σε μεγάλο βαθμό από τις συγκεκριμένες ανάγκες ενός έργου. Εάν η ακρίβεια και η λεπτομέρεια είναι πρωταρχικής σημασίας, το WD 1.4 προσφέρει μια συναρπαστική επιλογή με την προηγμένη διαμόρφωση και τις λεπτομερείς δυνατότητες προσθήκης ετικετών. Για απλούστερες εφαρμογές, η απλή προσέγγιση του BLIP μπορεί να είναι πιο κατάλληλη. Εν τω μεταξύ, το CLIP παρέχει μια ισορροπία μεταξύ λεπτομέρειας και απλότητας, αν και με μια τάση προς τη μακρολογία.

Το Image Describer παρέχει τα καλύτερα αποτελέσματα, αλλά δεν είναι κατάλληλο για περιγραφή ή προσθήκη ετικετών σε μεγάλα σύνολα εικόνων.

Καθώς αυτά τα μοντέλα συνεχίζουν να εξελίσσονται και να βελτιώνονται, διατηρούν πολλά υποσχόμενες δυνατότητες για ένα ευρύ φάσμα εφαρμογών, από τη δημιουργία περιεχομένου έως την ανάλυση δεδομένων. Παρά τις διαφορές τους, τα μοντέλα CLIP, BLIP, WD 1.4, SigLIP 2 και GPT-Vision αποτελούν απόδειξη των ραγδαίων προόδων στην τεχνολογία μετατροπής εικόνας σε κείμενο, συμβάλλοντας το καθένα με μοναδικά πλεονεκτήματα σε αυτόν τον συναρπαστικό τομέα.

Γράψτε ένα σχόλιο

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *