Mākslīgā intelekta pasaule nemitīgi attīstās, un nesens izrāviens MI pētniecībā ir pacēlis lietas jaunā līmenī. Jaunā rakstā tiek iepazīstināts ar “Refleksiju” – autonomu aģentu ar dinamisku atmiņu un pašrefleksijas spējām, kas ļauj MI modeļiem mācīties no savām kļūdām un laika gaitā pilnveidoties. Šis sasniegums piešķir MI modeļiem cilvēkam līdzīgas spriešanas spējas un sola ievērojamu veiktspējas uzlabojumu.

Kas ir Refleksija un kāpēc tā ir nozīmīga?
Viens no lielākajiem pašreizējo MI modeļu trūkumiem ir nespēja mācīties no savām kļūdām. Refleksija novērš šo problēmu, piešķirot aģentam dinamisku atmiņu un pašrefleksijas spējas, uzlabojot viņu esošās spriešanas, izsekošanas un uzdevumam specifiskas rīcības izvēles spējas. Vienkāršiem vārdiem sakot, modelis tagad var iegaumēt veiktās darbības, pārskatīt tās un labot savas kļūdas.
Lieliski šajā pieejā ir tas, ka tā neaprobežojas tikai ar GPT-4 modeļiem; tā var darboties ar jebkuru lielo valodu modeli bez nepieciešamības pēc precīzas noregulēšanas. Refleksijas modelis vienkārši novērtē atlīdzības funkciju un atjaunina darbību, kas jāveic sākotnējam lielajam valodu modelim, tādējādi ievērojami uzlabojot veiktspēju.
Oriģinālais refleksijas raksts
Oriģinālajā refleksijas rakstā ir sniegti rezultāti par diviem dažādiem datu kopumiem, demonstrējot tā spēju spriest:
- Hotpot QA: datu kopa daudzveidīgai, izskaidrojamai daudzpakāpju jautājumu atbildēšanai, kas prasa, lai valodu modelis spriestu, izmantojot vairākus dokumentus.
- ELF World: Teksta un iemiesotu vidi saskaņošana interaktīvai mācīšanās pieredzei, apvienojot teksta ievadi un izvadi ar fizisko pasauli, ļaujot modelim mijiedarboties ar fizisko pasauli, izmantojot teksta uzvednes.
Refleksijas pievienošana šiem modeļiem noveda pie ievērojamiem veiktspējas uzlabojumiem, bez nepieciešamības pēc precīzas noregulēšanas.
Kliedējot maldīgus priekšstatus par rakstu
Daudzi cilvēki kļūdaini uzskata, ka rakstā tiek izmantots GPT-4, bet patiesībā tajā tiek izmantots GPT-3 un 3.5 (ChatGPT). Šī atšķirība ir nozīmīga, jo tā paver iespēju apvienot refleksiju ar Auto GPT, ļaujot MI modeļiem modificēt uzdevumus lidojumā, nodrošinot patiesu intelektu.
Refleksija darbībā: Piemērs
Hotpot QA uzdevumā modelim bija jāatrod aktiera vārds, kurš vislabāk pazīstams ar lomu konkrētā šovā. Pēc sākotnēja neveiksmīga mēģinājuma modelis izmantoja refleksiju, lai identificētu kļūdu savā meklēšanas stratēģijā, to labotu un galu galā atrastu pareizo atbildi. Tieši tā cilvēks pieietu problēmai, pārdomājot savas kļūdas un attiecīgi pielāgojot savu stratēģiju.
Ierobežojumi un situāciju risināšana bez noteiktas patiesības
Viens no galvenajiem raksta ierobežojumiem ir tas, ka tam nepieciešama patiesība, lai darbotos. Tomēr daudzās reālās pasaules situācijās nav noteiktas patiesības vai viena optimāla risinājuma. Raksta autori ierosina metodi, kas atspoguļo cilvēku problēmu risināšanu, izveidojot iekšēju testu komplektu, pamatojoties uz savu izpratni, un pēc tam pielāgojot risinājumus, līdz tie atbilst lielākajai daļai testu.
Pārvirzot precizitātes vājo posmu no pareizas sintaktiskās un semantiskās koda ģenerēšanas uz pareizu sintaktisko un semantisko testu ģenerēšanu, modelis var sasniegt augstākus precizitātes rādītājus.
MI nākotne un Refleksija
Tā kā MI modeļi ar refleksijas spējām kļūst arvien izplatītāki, mēs varam sagaidīt ievērojamus uzlabojumus MI ģenerētajā kodā un citos sarežģītos uzdevumos. Ar spēju iteratīvi uzlabot savu darbu, MI modeļi kļūs efektīvāki un iedarbīgāki problēmu risināšanā un risinājumu ģenerēšanā.
Mums kā cilvēkiem ir būtiski pārdomāt MI attīstību un apsvērt virzienu, kādā mēs vēlamies to virzīt. Šis izrāviens MI spriešanā ir tikai sākums, un nav šaubu, ka priekšā vēl ir daudz aizraujošu sasniegumu.
Video no Prompt Engineering
Atsauces:
- Reflexion raksts: https://arxiv.org/pdf/2303.11366.pdf
- Reflecting on Reflexion Blogpost: https://nanothoughts.substack.com/p/reflecting-on-reflexion
- HotpotQA raksts: https://arxiv.org/pdf/1809.09600.pdf
- Alfworld raksts: https://arxiv.org/pdf/2010.03768.pdf
- AutoGPT: https://github.com/Torantulino/Auto-GPT
- HumanEval: https://arxiv.org/pdf/2107.03374.pdf