Stability AI har lansert sin nyeste AI-modell for tekst-til-bilde, Stable Diffusion 3, som markerer et betydelig fremskritt innen det raskt utviklende feltet for generativ AI. Denne nye modellen kan skilte med imponerende forbedringer i bildekvalitet, tekstgjengivelse og evnen til å forstå komplekse spørsmål, samtidig som den er mer ressurseffektiv.
Stable Diffusion 3 er ikke bare en inkrementell oppgradering. Den introduserer en banebrytende arkitektur kalt Multimodal Diffusion Transformer (MMDiT), som representerer et paradigmeskifte i hvordan AI behandler og genererer bilder fra tekst.
Hva er nytt i Stable Diffusion 3?
- Forbedret bildekvalitet: Stable Diffusion 3 produserer bilder som er mer visuelt tiltalende og realistiske, og som konkurrerer med kvaliteten til de som er laget av profesjonelle kunstnere.
- Overlegen typografi: En av de mest slående forbedringene er modellens evne til å generere klar, leselig tekst i bilder, en notorisk vanskelig oppgave for tidligere AI-modeller.
- Dypere spørsmålsforståelse: Brukere kan nå lage svært spesifikke og nyanserte spørsmål, og Stable Diffusion 3 vil nøyaktig oversette deres visjon til imponerende bilder.
- Ressurseffektivitet: Til tross for sine forbedrede evner, er Stable Diffusion 3 designet for å være mer effektiv, og krever mindre prosessorkraft og minne, noe som gjør den mer tilgjengelig for et bredere publikum.
Hvordan fungerer Stable Diffusion 3?
Magien bak Stable Diffusion 3 ligger i dens innovative MMDiT-arkitektur. Dette nye systemet bruker separate sett med vekter for bilde- og språkdata, noe som gjør det mulig for AI å bedre forstå og behandle både tekst og visuell informasjon uavhengig. Denne separasjonen av bekymringer muliggjør et mer sofistikert samspill mellom de to, noe som resulterer i bilder som ikke bare er visuelt imponerende, men som også nøyaktig gjenspeiler inndatateksten.
Stable Diffusion 3: Presterer bedre enn konkurrentene

Stability AI har gjennomført omfattende evalueringer av menneskelige preferanser, og satt Stable Diffusion 3 opp mot andre ledende tekst-til-bilde-modeller som DALL·E 3, Midjourney v6 og Ideogram v1. Resultatene taler for seg selv: Stable Diffusion 3 rangeres konsekvent som like god eller bedre enn konkurrentene når det gjelder bildekvalitet, overholdelse av spørsmål og typografi.
Stable Diffusion 3: Genereringseksempler




Skalering for fremtiden
Stability AI har også gjennomført grundige skaleringsstudier, og trent Stable Diffusion 3-modeller med varierende antall parametere. Resultatene viser en klar og konsekvent forbedring i ytelsen med større modellstørrelser, noe som antyder et enda større potensial for fremtiden til denne teknologien.
Lisensiering og tilgjengelighet
Stable Diffusion 3 er for tiden utgitt under Stability Non-Commercial Research Community License, noe som gjør den gratis for ikke-kommersielle bruksområder som akademisk forskning og personlige prosjekter. Kommersielle lisenser er tilgjengelige gjennom Stability AI for profesjonelle kunstnere, designere og bedrifter.
Stable Diffusion 3: Størrelser og varianter
Utgitt offentlig og tilgjengelig for nedlasting:
- SD3 Medium – modellen med 2 milliarder parametere, tilgjengelig for nedlasting på https://huggingface.co/stabilityai/stable-diffusion-3-medium
Kun tilgjengelig via Stability AI API
- SD3 Large – modellen med 8 milliarder parametere
- SD3 Large Turbo – modellen med 8 milliarder parametere med raskere inferenstid
Fremtiden for AI-bildegenerering
Stable Diffusion 3 er ikke bare et teknologisk gjennombrudd; det er et innblikk i kreativitetens fremtid. Med sine avanserte funksjoner og brukervennlige design har denne modellen potensial til å revolusjonere hvordan vi skaper og samhandler med visuelt innhold. Fra profesjonelle kunstnere som flytter grensene for sitt håndverk til enkeltpersoner som bringer sine villeste fantasier til live, er Stable Diffusion 3 klar til å demokratisere og redefinere landskapet for bildegenerering.
Ressurser
- Stable Diffusion 3 Medium-arkiv: https://huggingface.co/stabilityai/stable-diffusion-3-medium
- Forskningsartikkel: https://arxiv.org/pdf/2403.03206