画像の自動タグ付け、ラベル付け、または説明文生成は、特に機械学習用データセットの準備において、多くのアプリケーションで非常に重要なタスクです。そこで役立つのが、画像-テキストモデルです。主要な画像-テキストモデルとしては、CLIP、BLIP、WD 1.4(別名WD14またはWaifu Diffusion 1.4 Tagger)、SigLIP 2、そしてVision搭載ChatGPTなどが挙げられます。
CLIP:革新的な飛躍
OpenAIのContrastive Language–Image Pretraining(CLIP)モデルは、画像に対する理解と説明文生成における革新的なアプローチで広く認識されています。CLIPは、大量のインターネットテキストと画像データを活用し、多種多様な視覚的概念を学習することで、画像の記述的な文章を生成します。
しかし、ユーザーレビューによると、CLIPが生成する説明文は、冗長であったり、過度に冗長になる場合があります。よくある批判としては、同じオブジェクトに対して類似した説明を繰り返したり、オブジェクトの色など特定の属性を強調しすぎたりする傾向が挙げられます。
BLIP:シンプルさと機能性の融合
BLIPモデルは、CLIPと比較して説明の細かさでは劣るものの、画像-テキスト処理に対してよりシンプルで直接的なアプローチを提供します。あるレビューアーが指摘したように、BLIPは「クールで良いけど、かなりベーシック」です。このモデルのシンプルさは、簡潔で冗長でないタグや説明文を必要とするアプリケーションにとっては利点となります。
それでも、一部のユーザーは、BLIPの出力にはWD14のようなモデルが提供するような深みと粒度が欠けていると感じています。満足のいく結果を生成できるとはいえ、BLIPは詳細で複雑なタグを必要とするアプリケーションには最適ではないかもしれません。
WD14はアニメに特化しているにもかかわらず、人物の実際の写真にも非常に有効であることがわかりました。普段はBLIPと組み合わせて使用していますが、ほとんどの場合、BLIPよりもはるかに多くの詳細を拾い上げてくれます。
YouTubeコメントでのToni Corvera
Blipはクールで良いけど、かなりベーシックだね。
WD 1.4(WD14)のタグ付けは、もっと優れているよ – より詳細で、より魅力的なタグが付く。
GitHubでのOrphBean
WD 1.4 (別名WD14):細部へのこだわり
WD 1.4モデル(別名WD14またはWaifu Diffusion 1.4 Tagger)は、当初アニメ画像を対象に設計されましたが、写真でも優れた性能を発揮し、驚くべき汎用性を示しています。ユーザーは、その高度な構成オプションとバッチ処理機能を手放しで賞賛しており、画像-テキスト変換のための堅牢なツールとなっています。
WD14を際立たせているのは、詳細で「よりジューシーな」タグを生成する能力であり、競合モデルと比較して、画像のより詳細な説明を提供します。このモデルは、誤ったタグを生成する可能性は低いものの、アニメに焦点を当てている点が、特定の種類の画像にとっては制約となる可能性があります。
Q: WD14タガーは、Automatic1111に組み込まれているBLIPやdeepdanbooruよりも優れていますか?
A: この拡張機能は、構成とバッチ処理のためのより優れたオプションを提供してくれますし、deepdanbooruよりも完全に誤ったタグを生成する可能性が低いと感じています。CLIP/BLIPは、タグのリストではなく説明的な文章を生成するという点で異なりますが、後者の方が私のニーズに合致していることが多いです。そして、組み込みのCLIP interrogatorは、「(説明)の写真と(同じもののわずかに異なる説明)の写真」とか、「(ほぼ完全な説明)とピンクの髪とピンクの髪とピンクの髪と(何度も繰り返す)」のようなものを吐き出す傾向があります。
アニメ用に作られたにもかかわらず、WD14タガーは写真でもかなりうまく機能します。
RedditでのMorganTheDual
SigLIP 2:強力な画像-テキストエンジン
Googleによる無料かつオープンなモデルであるSigLIP 2は、単なる視覚言語モデルではありません。画像を意味のあるテキストに変換する強力なエンジンです。画像-テキスト検索やゼロショット分類などのタスクに優れているだけでなく、そのアーキテクチャとトレーニングの強化により、画像-テキスト生成と理解においても有力な候補となっています。SigLIP 2がこのコンテキストでどのように機能するかを以下に解説します。
基盤:Vision Transformer(ViT)とシグモイド損失
- Vision Transformer (ViT): SigLIP 2は、畳み込みニューラルネットワーク(CNN)とは異なり、Vision Transformer(ViT)アーキテクチャを使用しています。ViTは、画像を自然言語処理における単語のトークンと同様に、パッチのシーケンスとして扱います。各パッチは、ベクトル表現(埋め込み)に変換されます。これによりモデルは、長距離依存関係を捉える能力で知られる強力なTransformerアーキテクチャを利用して、画像のさまざまな部分間の関係を理解できます。
- シグモイド損失(非コントラスト学習): SigLIP(およびSigLIP 2)の重要な差別化要因は、(CLIPのようなモデルで使用されている)より一般的なコントラスト損失ではなく、シグモイド損失関数を使用していることです。コントラスト学習では、画像を複数のテキストオプションと比較する必要があります。一方、シグモイド損失は、画像-テキストのマッチングを各画像-テキストペアに対して二値分類問題として扱います。この一見小さな変更が、大きな影響を与えます。より安定したトレーニングと、特に大きなバッチサイズでのパフォーマンス向上を可能にします。個々の画像-テキストペアのマッチングに焦点を当てています。
テキスト生成のための強化されたトレーニング
SigLIP 2は、SigLIPの基盤の上に、画像-テキスト機能に直接的に貢献するいくつかの重要な強化機能を追加しています。
- キャプションベースの事前学習: これは非常に大きな進歩です。SigLIP 2は、事前学習プロセスの一部としてキャプション生成を組み込んでいます。つまり、画像のテキスト説明を生成するように明示的にトレーニングされているということです。これは、元のCLIPのようなモデルが、主に画像-テキストのマッチングでトレーニングされており、生成ではないのとは対照的です。
- 自己教師あり学習に触発された手法: SigLIP 2は、強力な手法を活用しています。
- 自己蒸留: モデルは自身の予測から学習し、時間の経過とともに理解を洗練します。
- マスク化予測: 入力の一部(画像パッチまたはテキストトークンのいずれか)が隠され、モデルは欠落部分を予測することを学習します。これにより、モデルは両方のモダリティのより深い理解を深めることができます。
- LocCa損失とデコーダー: SigLIP 2は、Transformerデコーダーをクロスアテンションと統合するLocCa損失を組み込んでいます。このデコーダーは、画像キャプション生成、指示表現予測(テキストに基づいて領域を識別)、およびグラウンディングされたキャプション生成などのタスクで特にトレーニングされています。これにより、きめ細かいローカライズと詳細な特徴抽出が強化されます。
すべてがどのように連携するか(画像 -> テキスト)
- 画像入力: 画像がViTエンコーダーに入力されます。
- パッチ埋め込み: 画像はパッチに分割され、各パッチは埋め込みベクトルに変換されます。
- Transformerエンコーディング: Transformerレイヤーは、これらのパッチ埋め込みを処理し、画像のさまざまな部分間の関係を捉えます。学習された位置埋め込みは、各パッチの位置に関する情報を提供します。
- アテンションプーリング: アテンションベースのプーリングメカニズム(MAPヘッド)は、パッチ埋め込みからの情報を単一の包括的な画像表現に集約します。
- テキストデコーダー(画像-テキストに不可欠): ここでSigLIP 2のキャプション機能が活躍します。エンコーダーからの画像表現がTransformerデコーダー(LocCa損失によって追加)に入力されます。デコーダーはクロスアテンションを使用して、テキストを生成しながら画像表現の関連部分に焦点を当てます。
- テキスト出力: デコーダーは、テキストトークンのシーケンスを生成し、画像のキャプションまたは説明を形成します。
多言語対応能力
SigLIP 2は英語に限定されません。多言語データセット(WebLI)でトレーニングされているため、複数の言語でテキストを理解および生成する能力を備えており、真にグローバルな画像-テキストツールとなっています。
まとめ
SigLIP 2は、強力なViTベースのアーキテクチャ、シグモイド損失、そして最も重要なことに、キャプション生成と自己蒸留によるデコーダーベースの事前学習の組み合わせにより、画像-テキストタスクに非常に効果的なモデルとなっています。単純な画像-テキストマッチングを超えて、説明的なテキストを積極的に生成し、自動画像キャプション生成、視覚的な質問応答、詳細な画像分析などのアプリケーションの可能性を広げます。
リンク
Vision搭載ChatGPT
それほど大きくない画像データセットの説明が必要な場合は、ChatGPTのImage Describerツールを使用できます。大量の画像バッチには適していませんが、少量の画像セットには最適です。なぜなら、自然言語で絶対的に最高の記述を提供してくれるからです。このツールによる説明は非常に正確かつ詳細です。単なるタグではなく、画像内のオブジェクト間の関係も考慮した、一貫性のある有益なテキストです。
例:
テスト画像セット:



Image Describerによるこれら3つの画像の出力:
3枚の画像をアップロードしていただきありがとうございます。それぞれの画像の説明は以下の通りです。
- 1枚目の画像は、大きくて表情豊かな目を持つ、愛らしい様式化された漫画の子猫が特徴です。全体的にオレンジ色で、顔、胸、前足に白いアクセントがあります。子猫は自分とほぼ同じ大きさのペンを持っており、明るい黄色のボールに笑顔を描いています。アートスタイルは非常に洗練されており、ある種の光沢のある仕上がりになっています。背景は、カラフルで抽象的な形と、星空を連想させるものがあり、気まぐれな設定を示唆しています。
- 2枚目の画像は、ソーシャルメディアプラットフォームのチャットまたはコメント欄のスクリーンショットのようです。さまざまなユーザーがコメントを残しており、その多くには「LMAO」などの頭字語や絵文字で示される笑いや面白さが含まれています。ユーザー名とプロフィール写真はプライバシー保護のためピクセル化されており、ピクセル化にはさまざまな色が表示されています。
- 3枚目の画像は、フレンドリーな表情の若い女性の、非常に詳細でリアルなイラストです。彼女は長い黒髪、白い肌で、紫色のパーカーを着ています。女性はヘッドセットも着用しており、ビデオゲームのストリーマーであるか、何らかの形のオンラインコミュニケーションに関わっている可能性を示唆しています。背景は紫色の色合いで照らされた部屋のようで、おそらくLEDライトによるもので、ゲームの設定を示しています。
それぞれの画像は、気まぐれなイラストからデジタルインタラクションのスクリーンショット、よりリアルなデジタル絵画まで、非常に異なるコンテキストと視覚スタイルを持っています。
まとめ
CLIP、BLIP、WD 1.4、SigLIP 2、そしてImage Describerの中からどれを選ぶかは、プロジェクトの具体的なニーズに大きく依存します。精度と詳細さが最優先事項である場合、WD 1.4は高度な構成と詳細なタグ付け機能により、説得力のある選択肢となります。よりシンプルなアプリケーションには、BLIPの直接的なアプローチがより適しているかもしれません。一方、CLIPは詳細さとシンプルさのバランスを提供しますが、冗長になる傾向があります。
Image Describerは最高の結果を提供しますが、大量の画像セットの説明やタグ付けには適していません。
これらのモデルは進化と改善を続けており、コンテンツ作成からデータ分析まで、幅広いアプリケーションに有望な可能性を秘めています。CLIP、BLIP、WD 1.4、SigLIP 2、そしてGPT-Visionモデルは、それぞれがこのエキサイティングな分野に独自の強みを提供し、画像-テキスト技術の急速な進歩を証明するものです。