Verdenen av kunstig intelligens er i konstant utvikling, og et nylig gjennombrudd innen AI-forskning har tatt ting til et nytt nivå. En ny artikkel introduserer «Refleksjon», en autonom agent med dynamisk hukommelse og evne til selvrefleksjon, som lar AI-modeller lære av egne feil og forbedre seg over tid. Denne utviklingen gir AI-modeller menneskelignende resonneringsevner og lover en betydelig ytelsesforbedring.

Hva er Refleksjon, og hvorfor er det viktig?
En av de største svakhetene ved dagens AI-modeller er deres manglende evne til å lære av feilene sine. Refleksjon adresserer dette ved å gi en agent dynamisk hukommelse og evne til selvrefleksjon, noe som forbedrer deres eksisterende resonnerings-, sporings- og oppgavespesifikke handlingsvalgsevner. Enkelt sagt, modellen kan nå huske handlingene den har utført, gjennomgå disse handlingene og korrigere feilene sine.
Det fine med denne tilnærmingen er at den ikke er begrenset til GPT-4-modeller; den kan fungere med enhver stor språkmodell uten behov for finjustering. Refleksjonsmodellen evaluerer ganske enkelt belønningsfunksjonen og oppdaterer handlingen som må utføres av den opprinnelige store språkmodellen, noe som gir en stor ytelsesforbedring.
Den originale artikkelen om Refleksjon
Den originale artikkelen om refleksjon presenterer resultater på to forskjellige datasett, og viser modellens evne til å resonnere:
- Hotpot QA: Et datasett for mangfoldig, forklarbar flerleddet spørsmålsbesvarelse, som krever at språkmodellen resonnerer gjennom flere dokumenter.
- ELF World: Samordning av tekst og legemliggjorte miljøer for interaktiv læring, som kombinerer tekstinndata og -utdata med den fysiske verden, og lar modellen samhandle med den fysiske verden ved hjelp av tekstprompter.
Å legge til refleksjon i disse modellene førte til betydelige ytelsesforbedringer, uten behov for finjustering.
Avklaring av misforståelser om artikkelen
Mange tror feilaktig at artikkelen bruker GPT-4, men den bruker faktisk GPT-3 og 3.5 (ChatGPT). Dette skillet er viktig fordi det åpner for muligheten for å kombinere refleksjon med Auto GPT, noe som gjør at AI-modeller kan endre oppgaver i sanntid, og dermed oppnå ekte intelligens.
Refleksjon i praksis: Et eksempel
I en Hotpot QA-oppgave måtte modellen finne navnet på en skuespiller som er mest kjent for en rolle i en spesifikk serie. Etter et første mislykket forsøk brukte modellen refleksjon for å identifisere feilen i søkestrategien, korrigere den, og til slutt finne det riktige svaret. Dette er akkurat slik et menneske ville angripe et problem, ved å reflektere over feilene sine og justere strategien deretter.
Begrensninger og hvordan håndtere situasjoner uten en klar fasit
En stor begrensning med artikkelen er at den krever en fasit for å fungere. Men i mange situasjoner i den virkelige verden finnes det ikke en definitiv fasit eller en enkelt optimal løsning. Forfatterne av artikkelen foreslår en metode som etterligner menneskelig problemløsning, ved å lage en intern testpakke basert på deres forståelse og deretter justere løsninger til de tilfredsstiller de fleste testene.
Ved å flytte nøyaktighetsflaskehalsen fra korrekt syntaktisk og semantisk kode generering til korrekt syntaktisk og semantisk testgenerering, kan modellen oppnå høyere nøyaktighetsrater.
Fremtiden for AI og Refleksjon
Etter hvert som AI-modeller med refleksjonsevner blir mer utbredt, kan vi forvente å se betydelige forbedringer i AI-generert kode og andre komplekse oppgaver. Med evnen til iterativt å forbedre sitt eget arbeid, vil AI-modeller bli mer effektive og virkningsfulle i å løse problemer og generere løsninger.
Det er viktig for oss som mennesker å reflektere over utviklingen vi gjør innen AI, og vurdere hvilken retning vi ønsker å ta den i. Dette gjennombruddet innen AI-resonnement er bare begynnelsen, og det er ingen tvil om at enda mer spennende fremskritt ligger foran oss.
Video av Prompt Engineering
Referanser:
- Reflexion paper: https://arxiv.org/pdf/2303.11366.pdf
- Reflecting on Reflexion Blogpost: https://nanothoughts.substack.com/p/reflecting-on-reflexion
- HotpotQA paper: https://arxiv.org/pdf/1809.09600.pdf
- Alfworld paper: https://arxiv.org/pdf/2010.03768.pdf
- AutoGPT: https://github.com/Torantulino/Auto-GPT
- HumanEval: https://arxiv.org/pdf/2107.03374.pdf