Stability AI har udgivet deres nyeste tekst-til-billede AI-model, Stable Diffusion 3, der markerer et betydeligt fremskridt inden for det hurtigt udviklende felt af generativ AI. Denne nye model kan prale af imponerende forbedringer i billedkvalitet, tekstgengivelse og evnen til at forstå komplekse prompts, alt imens den er mere ressourceeffektiv.
Stable Diffusion 3 er ikke bare en gradvis opgradering. Den introducerer en banebrydende arkitektur kaldet Multimodal Diffusion Transformer (MMDiT), der repræsenterer et paradigmeskifte i, hvordan AI behandler og genererer billeder fra tekst.
Hvad er Nyt i Stable Diffusion 3?
- Forbedret Billedkvalitet: Stable Diffusion 3 producerer billeder, der er mere visuelt tiltalende og realistiske og kan konkurrere med kvaliteten af dem, der er skabt af professionelle kunstnere.
- Overlegen Typografi: En af de mest markante forbedringer er modellens evne til at generere klar, læselig tekst i billeder, hvilket har været en notorisk vanskelig opgave for tidligere AI-modeller.
- Dybere Prompt-forståelse: Brugere kan nu udforme meget specifikke og nuancerede prompts, og Stable Diffusion 3 vil nøjagtigt omsætte deres vision til fantastiske visuals.
- Ressourceeffektivitet: På trods af sine forbedrede evner er Stable Diffusion 3 designet til at være mere effektiv og kræver mindre processorkraft og hukommelse, hvilket gør den mere tilgængelig for et bredere publikum.
Hvordan Fungerer Stable Diffusion 3?
Magien bag Stable Diffusion 3 ligger i dens innovative MMDiT-arkitektur. Dette nye system anvender separate vægtsæt for billed- og sprogdata, hvilket gør det muligt for AI’en bedre at forstå og behandle både tekst og visuel information uafhængigt. Denne adskillelse af ansvarsområder giver mulighed for et mere sofistikeret samspil mellem de to, hvilket resulterer i billeder, der ikke kun er visuelt fantastiske, men også nøjagtigt afspejler den indtastede tekst.
Stable Diffusion 3: Overgår Konkurrenterne

Stability AI har gennemført omfattende evalueringer af menneskelige præferencer, hvor Stable Diffusion 3 er blevet sat op imod andre førende tekst-til-billede-modeller som DALL·E 3, Midjourney v6 og Ideogram v1. Resultaterne taler for sig selv: Stable Diffusion 3 rangerer konsekvent lige så godt eller bedre end konkurrenterne inden for billedkvalitet, overholdelse af prompts og typografi.
Stable Diffusion 3: Genereringseksempler




Skalering for Fremtiden
Stability AI har også gennemført grundige skaleringsstudier, hvor de har trænet Stable Diffusion 3-modeller med varierende antal parametre. Resultaterne viser en klar og konsekvent forbedring i ydeevnen med større modelstørrelser, hvilket tyder på et endnu større potentiale for fremtiden for denne teknologi.
Licensering og Tilgængelighed
Stable Diffusion 3 er i øjeblikket udgivet under Stability Non-Commercial Research Community License, hvilket gør den gratis til ikke-kommercielle anvendelser som akademisk forskning og personlige projekter. Kommercielle licenser er tilgængelige via Stability AI for professionelle kunstnere, designere og virksomheder.
Stable Diffusion 3: Størrelser og Varianter
Udgivet offentligt og tilgængeligt til download:
- SD3 Medium – 2-milliarder parametermodel, tilgængelig til download på https://huggingface.co/stabilityai/stable-diffusion-3-medium
Kun tilgængelig via Stability AI API
- SD3 Large – 8-milliarder parametermodel
- SD3 Large Turbo – 8-milliarder parametermodel med en hurtigere inferenstid
Fremtiden for AI-billedgenerering
Stable Diffusion 3 er ikke bare et teknologisk gennembrud; det er et glimt ind i kreativitetens fremtid. Med sine avancerede funktioner og brugervenlige design har denne model potentiale til at revolutionere, hvordan vi skaber og interagerer med visuelt indhold. Fra professionelle kunstnere, der flytter grænserne for deres håndværk, til enkeltpersoner, der bringer deres vildeste fantasier til live, er Stable Diffusion 3 klar til at demokratisere og omdefinere landskabet for billedgenerering.
Ressourcer
- Stable Diffusion 3 Medium-repository: https://huggingface.co/stabilityai/stable-diffusion-3-medium
- Forskningsartikel: https://arxiv.org/pdf/2403.03206