A Stability AI lançou o seu mais recente modelo de IA de texto para imagem, o Stable Diffusion 3, marcando um avanço significativo no campo em rápida evolução da IA generativa. Este novo modelo apresenta melhorias impressionantes na qualidade da imagem, na renderização de texto e na capacidade de compreender prompts complexos, tudo isto sendo mais eficiente em termos de recursos.
O Stable Diffusion 3 não é apenas uma atualização incremental. Introduz uma arquitetura inovadora chamada Multimodal Diffusion Transformer (MMDiT), que representa uma mudança de paradigma na forma como a IA processa e gera imagens a partir de texto.
O Que Há de Novo no Stable Diffusion 3?
- Qualidade de Imagem Aprimorada: O Stable Diffusion 3 produz imagens visualmente mais apelativas e realistas, rivalizando com a qualidade das criadas por artistas profissionais.
- Tipografia Superior: Uma das melhorias mais notáveis é a capacidade do modelo de gerar texto claro e legível dentro das imagens, uma tarefa notoriamente difícil para os modelos de IA anteriores.
- Compreensão Mais Profunda de Prompts: Os utilizadores podem agora criar prompts altamente específicos e matizados, e o Stable Diffusion 3 traduzirá com precisão a sua visão em visuais impressionantes.
- Eficiência de Recursos: Apesar das suas capacidades aprimoradas, o Stable Diffusion 3 foi projetado para ser mais eficiente, exigindo menos poder de processamento e memória, tornando-o mais acessível a um público mais amplo.
Como Funciona o Stable Diffusion 3?
A magia por trás do Stable Diffusion 3 reside na sua arquitetura MMDiT inovadora. Este novo sistema emprega conjuntos separados de pesos para dados de imagem e linguagem, permitindo que a IA compreenda e processe melhor as informações textuais e visuais de forma independente. Esta separação de preocupações permite uma interação mais sofisticada entre os dois, resultando em imagens que não são apenas visualmente impressionantes, mas também refletem com precisão o texto de entrada.
Stable Diffusion 3: Superando a Concorrência

A Stability AI realizou extensas avaliações de preferência humana, colocando o Stable Diffusion 3 contra outros modelos de texto para imagem líderes como o DALL·E 3, Midjourney v6 e Ideogram v1. Os resultados falam por si: o Stable Diffusion 3 classifica-se consistentemente como tão bom ou melhor do que a concorrência em qualidade de imagem, adesão a prompts e tipografia.
Stable Diffusion 3: Exemplos de Geração




Escalando para o Futuro
A Stability AI também conduziu estudos de escalonamento completos, treinando modelos Stable Diffusion 3 com diferentes números de parâmetros. Os resultados mostram uma melhoria clara e consistente no desempenho com tamanhos de modelo maiores, sugerindo um potencial ainda maior para o futuro desta tecnologia.
Licenciamento e Disponibilidade
O Stable Diffusion 3 é atualmente lançado sob a Stability Non-Commercial Research Community License, tornando-o gratuito para usos não comerciais, como pesquisa académica e projetos pessoais. As licenças comerciais estão disponíveis através da Stability AI para artistas profissionais, designers e empresas.
Stable Diffusion 3: Tamanhos e Sabores
Lançado publicamente e disponível para download:
- SD3 Medium – o modelo de 2 mil milhões de parâmetros, disponível para download em https://huggingface.co/stabilityai/stable-diffusion-3-medium
Disponível apenas através da API da Stability AI
- SD3 Large – o modelo de 8 mil milhões de parâmetros
- SD3 Large Turbo – o modelo de 8 mil milhões de parâmetros com um tempo de inferência mais rápido
O Futuro da Geração de Imagens por IA
O Stable Diffusion 3 não é apenas um avanço tecnológico; é um vislumbre do futuro da criatividade. Com as suas capacidades avançadas e design amigável, este modelo tem o potencial de revolucionar a forma como criamos e interagimos com conteúdo visual. Desde artistas profissionais a expandir os limites da sua arte até indivíduos a darem vida às suas imaginações mais loucas, o Stable Diffusion 3 está preparado para democratizar e redefinir o panorama da geração de imagens.
Recursos
- Repositório do Stable Diffusion 3 Medium: https://huggingface.co/stabilityai/stable-diffusion-3-medium
- Artigo de pesquisa: https://arxiv.org/pdf/2403.03206