Modelos de IA Imagem-para-Texto: CLIP, BLIP, WD 1.4 (também conhecido como WD14), SigLIP 2 e ChatGPT com Visão

Categorizado como AI/ML, Art, Código aberto Marcado com , , ,
Save and Share:

A marcação, rotulagem ou descrição automatizada de imagens é uma tarefa crucial em diversas aplicações, particularmente na preparação de conjuntos de dados para aprendizado de máquina. É aqui que os modelos imagem-para-texto vêm ao resgate. Entre os principais modelos imagem-para-texto, destacam-se CLIP, BLIP, WD 1.4 (também conhecido como WD14 ou Waifu Diffusion 1.4 Tagger), SigLIP 2 e ChatGPT com Visão.

CLIP: Um Salto Revolucionário

O modelo Contrastive Language–Image Pretraining (CLIP) da OpenAI tem sido amplamente reconhecido por sua abordagem revolucionária para entender e gerar descrições para imagens. O CLIP utiliza uma grande quantidade de texto e dados de imagem da internet para aprender uma infinidade de conceitos visuais, produzindo assim frases descritivas para imagens.

No entanto, de acordo com avaliações de usuários, as frases descritivas do CLIP podem, por vezes, ser redundantes ou excessivamente prolixas. Uma crítica comum gira em torno da propensão do modelo a repetir descrições semelhantes para o mesmo objeto ou superenfatizar certos atributos, como a cor de um objeto.

BLIP: Simplicidade e Funcionalidade

O modelo BLIP, embora menos detalhado em suas descrições em comparação com o CLIP, oferece uma abordagem mais simples e direta ao processamento imagem-para-texto. Como observou um revisor, o BLIP é “legal e tudo, mas é bem básico”. A simplicidade deste modelo pode ser uma vantagem para aplicações que requerem tags ou descrições diretas e menos verbosas.

No entanto, alguns usuários descobriram que a saída do BLIP frequentemente carece da profundidade e granularidade fornecidas por modelos como o WD14. Embora possa gerar resultados satisfatórios, o BLIP pode não ser a melhor escolha para aplicações que exigem tags detalhadas e complexas.

Descobri que o WD14, apesar de ser focado em anime, funciona muito bem também para fotos reais de pessoas. Geralmente combino com o BLIP e, na maioria das vezes, ele capta muito mais detalhes do que o BLIP.

Toni Corvera em comentários do YouTube

Blip é legal e tudo, mas é bem básico.

A marcação do WD 1.4 (WD14) é muito melhor – mais detalhes, tags mais “suculentas”.

OrphBean em GitHub

WD 1.4 (também conhecido como WD14): Precisão em Detalhes

O modelo WD 1.4 (também conhecido como WD14 ou Waifu Diffusion 1.4 Tagger), inicialmente projetado para imagens de anime, demonstrou uma versatilidade surpreendente, funcionando bem até mesmo com fotos. Os usuários elogiaram suas opções avançadas de configuração e capacidades de processamento em lote, o que o torna uma ferramenta robusta para tradução de imagem para texto.

O que diferencia o WD14 é sua capacidade de gerar tags detalhadas, “mais suculentas”, fornecendo descrições mais aprofundadas de imagens em comparação com seus concorrentes. Embora este modelo seja menos propenso a produzir tags espúrias, seu foco em anime pode ser uma limitação para certos tipos de imagens.

P: O tagger WD14 é melhor que o BLIP ou deepdanbooru integrado no Automatic1111?

R: A extensão oferece melhores opções para configuração e processamento em lote, e descobri que é menos propenso a produzir tags completamente espúrias do que o deepdanbooru.

CLIP/BLIP é diferente, pois eles produzem frases descritivas em vez de listas de tags, mas o último geralmente está mais alinhado com minhas necessidades. E o interrogador CLIP integrado é propenso a apresentar coisas como “uma foto de (descrição) e uma foto de (descrição ligeiramente diferente da mesma coisa)” ou “(descrição quase completa) e cabelo rosa e cabelo rosa e cabelo rosa e (repetir muitas vezes)”

Apesar de ser feito para anime, o tagger WD14 funciona muito bem em fotos.

MorganTheDual em Reddit

SigLIP 2: Um Poderoso Motor Imagem-para-Texto

O modelo gratuito e aberto SigLIP 2 do Google não é apenas um modelo de visão-linguagem; é um motor poderoso para transformar imagens em texto significativo. Embora se destaque em tarefas como recuperação de imagem-texto e classificação zero-shot, sua arquitetura e aprimoramentos de treinamento o tornam um forte concorrente para geração e compreensão de imagem-para-texto. Aqui está um detalhamento de como o SigLIP 2 funciona neste contexto:

A Base: Vision Transformer (ViT) e Função de Perda Sigmoid

  • Vision Transformer (ViT): Diferentemente das redes neurais convolucionais (CNNs), o SigLIP 2 usa uma arquitetura Vision Transformer (ViT). O ViT trata uma imagem como uma sequência de patches, semelhante a como as palavras são tratadas como tokens no processamento de linguagem natural. Cada patch é convertido em uma representação vetorial (um embedding). Isso permite que o modelo use a poderosa arquitetura Transformer, conhecida por sua capacidade de capturar dependências de longo alcance, para entender as relações entre diferentes partes da imagem.
  • Função de Perda Sigmoid (Não Contrastiva): Um diferencial chave do SigLIP (e SigLIP 2) é o uso de uma função de perda sigmoid em vez da função de perda contrastiva mais comum (usada em modelos como o CLIP). O aprendizado contrastivo requer comparar uma imagem com múltiplas opções de texto. A função de perda sigmoid, por outro lado, trata a correspondência imagem-texto como um problema de classificação binária para cada par imagem-texto. Essa mudança aparentemente pequena tem um grande impacto: permite um treinamento mais estável e um melhor desempenho, especialmente com tamanhos de lote maiores. Ele se concentra nas correspondências individuais de pares imagem-texto.

Treinamento Aprimorado para Geração de Texto

O SigLIP 2 pega a base do SigLIP e adiciona vários aprimoramentos cruciais que beneficiam diretamente suas capacidades de imagem-para-texto:

  • Pré-treinamento Baseado em Legendas: Este é um passo enorme. O SigLIP 2 incorpora a legendagem como parte de seu processo de pré-treinamento. Isso significa que ele é explicitamente treinado para gerar descrições textuais de imagens. Isso contrasta com modelos como o CLIP original, que foram primariamente treinados em correspondência imagem-texto, não em geração.
  • Inspirado no Aprendizado Auto-Supervisionado: O SigLIP 2 aproveita técnicas poderosas:
    • Auto-Destilação: O modelo aprende com suas próprias previsões, refinando sua compreensão ao longo do tempo.
    • Previsão Mascarada: Partes da entrada (patches de imagem ou tokens de texto) são ocultadas, e o modelo aprende a prever as peças faltantes. Isso o força a desenvolver uma compreensão mais profunda de ambas as modalidades.
  • Função de Perda LocCa e Decoder: O SigLIP 2 integra a função de perda LocCa, que adiciona um decoder Transformer com atenção cruzada. Este decoder é especificamente treinado em tarefas como legendagem de imagens, previsão de expressões referenciais (identificação de regiões com base em texto) e legendagem fundamentada. Isso aprimora a localização de grão fino e a extração detalhada de recursos.

Como tudo se junta (Imagem -> Texto)

  1. Entrada de Imagem: Uma imagem é alimentada no encoder ViT.
  2. Embedding de Patch: A imagem é dividida em patches, e cada patch é transformado em um vetor de embedding.
  3. Codificação Transformer: As camadas Transformer processam esses embeddings de patch, capturando relações entre diferentes partes da imagem. Embeddings posicionais aprendidos fornecem informações sobre a localização de cada patch.
  4. Pooling de Atenção: Um mecanismo de pooling baseado em atenção (cabeçalho MAP) agrega as informações dos embeddings de patch em uma única representação de imagem abrangente.
  5. Decoder de Texto (Crucial para Imagem-para-Texto): É aqui que as capacidades de legendagem do SigLIP 2 entram em jogo. A representação da imagem do encoder é alimentada no decoder Transformer (adicionado pela função de perda LocCa). O decoder usa atenção cruzada para focar em partes relevantes da representação da imagem enquanto gera texto.
  6. Saída de Texto: O decoder gera uma sequência de tokens de texto, formando uma legenda ou descrição da imagem.

Poder Multilíngue

O SigLIP 2 não se limita ao inglês. Ele é treinado em um conjunto de dados multilíngue (WebLI), dando-lhe a capacidade de entender e gerar texto em vários idiomas, tornando-o uma ferramenta imagem-para-texto verdadeiramente global.

Em Resumo

A combinação do SigLIP 2 de uma arquitetura forte baseada em ViT, função de perda sigmoid e, crucialmente, pré-treinamento baseado em decoder com legendagem e auto-destilação, o torna um modelo altamente eficaz para tarefas imagem-para-texto. Ele vai além da simples correspondência imagem-texto para gerar ativamente texto descritivo, abrindo possibilidades para aplicações como legendagem automática de imagens, questionamento visual e análise detalhada de imagens.

Links

ChatGPT com Visão

Se você precisa descrever um conjunto de dados de imagens não muito grande, pode usar a ferramenta Image Describer no ChatGPT. Não é adequado para grandes lotes de imagens, mas é perfeito para conjuntos de imagens menores, porque fornece absolutamente as melhores descrições em linguagem natural. As descrições desta ferramenta são muito precisas e detalhadas. Não são apenas tags, mas texto coerente e informativo que também leva em consideração as relações entre os objetos na imagem.

Exemplo:

Conjunto de imagens de teste:

Saída do Image Describer para estas 3 imagens:

Você enviou três imagens. Aqui está uma descrição de cada uma:

  1. A primeira imagem apresenta um adorável gatinho de desenho animado estilizado com olhos grandes e expressivos. Ele é predominantemente laranja com detalhes brancos no rosto, peito e patas. O gatinho está segurando uma caneta, que é quase tão grande quanto ele, e está desenhando um rosto feliz em uma bola amarela brilhante. O estilo de arte é muito refinado e tem uma espécie de acabamento brilhante. O fundo sugere um cenário fantasioso com formas abstratas coloridas e uma sugestão de um céu estrelado.
  2. A segunda imagem parece ser uma captura de tela de uma seção de bate-papo ou comentários de uma plataforma de mídia social. Vários usuários deixaram comentários, muitos dos quais incluem risadas ou diversão indicadas por acrônimos como “LMAO” e emojis. Os nomes de usuário e fotos de perfil estão pixelados para privacidade, com uma variedade de cores exibidas na pixelização.
  3. A terceira imagem é uma ilustração altamente detalhada e realista de uma jovem mulher com uma expressão amigável. Ela tem longos cabelos pretos, pele clara e usa um moletom roxo com capuz. A mulher também está usando um headset, sugerindo que ela pode ser uma streamer de videogame ou envolvida em alguma forma de comunicação online. O cenário parece ser um quarto iluminado com um tom roxo, possivelmente de luzes LED, indicativo de uma configuração de jogos.

Cada imagem tem um contexto e estilo visual muito diferentes, variando de ilustração fantasiosa a uma captura de tela de uma interação digital, a uma pintura digital mais realista.

Concluindo

Escolher entre CLIP, BLIP, WD 1.4, SigLIP 2 e Image Describer depende muito das necessidades específicas de um projeto. Se precisão e detalhes são primordiais, o WD 1.4 oferece uma opção atraente com sua configuração avançada e capacidades de marcação detalhada. Para aplicações mais simples, a abordagem direta do BLIP pode ser mais adequada. Enquanto isso, o CLIP oferece um equilíbrio entre detalhe e simplicidade, embora com uma tendência à verbosidade.

O Image Describer fornece os melhores resultados, mas não é adequado para descrever ou marcar grandes conjuntos de imagens.

À medida que esses modelos continuam a evoluir e melhorar, eles guardam um potencial promissor para um amplo espectro de aplicações, desde a criação de conteúdo até a análise de dados. Apesar de suas diferenças, os modelos CLIP, BLIP, WD 1.4, SigLIP 2 e GPT-Vision são um testemunho dos rápidos avanços na tecnologia imagem-para-texto, cada um contribuindo com pontos fortes únicos para este campo fascinante.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *