Svijet umjetne inteligencije neprestano se razvija, a nedavni proboj u istraživanju umjetne inteligencije podigao je stvari na višu razinu. Novi rad predstavlja “Refleksiju”, autonomnog agenta s dinamičkom memorijom i sposobnostima samorefleksije, omogućujući AI modelima da uče iz vlastitih pogrešaka i vremenom se poboljšavaju. Ovaj razvoj daje AI modelima sposobnosti zaključivanja slične ljudskim i obećava značajno povećanje performansi.

Što je Refleksija i zašto je značajna?
Jedna od najvećih slabosti trenutnih AI modela je njihova nesposobnost učenja na vlastitim pogreškama. Refleksija rješava ovaj problem dajući agentu dinamičku memoriju i sposobnosti samorefleksije, poboljšavajući njihove postojeće sposobnosti zaključivanja, praćenja i odabira akcija specifičnih za zadatak. Jednostavnije rečeno, model sada može pamtiti radnje koje je poduzeo, pregledati te radnje i ispraviti svoje pogreške.
Sjajna stvar u vezi s ovim pristupom je da nije ograničen na GPT-4 modele; može raditi s bilo kojim velikim jezičnim modelom bez potrebe za finim ugađanjem. Model refleksije jednostavno procjenjuje funkciju nagrađivanja i ažurira radnju koju treba poduzeti originalni veliki jezični model, dajući ogroman poticaj performansama.
Izvorni rad o refleksiji
Izvorni rad o refleksiji prikazuje rezultate na dva različita skupa podataka, pokazujući njegovu sposobnost zaključivanja:
- Hotpot QA: Skup podataka za raznolika, objašnjiva pitanja i odgovore s više koraka, koji zahtijeva od jezičnog modela da zaključuje kroz više dokumenata.
- ELF World: Usklađivanje teksta i utjelovljenih okruženja za interaktivno učenje, kombinirajući tekstualne unose i izlaze s fizičkim svijetom, omogućujući modelu interakciju s fizičkim svijetom pomoću tekstualnih uputa.
Dodavanje refleksije ovim modelima dovelo je do značajnih poboljšanja performansi, bez potrebe za finim ugađanjem.
Razbijanje zabluda o radu
Mnogi ljudi pogrešno vjeruju da rad koristi GPT-4, ali zapravo koristi GPT-3 i 3.5 (ChatGPT). Ova razlika je značajna jer otvara mogućnost kombiniranja refleksije s Auto GPT-om, omogućujući AI modelima da modificiraju zadatke u hodu, pružajući pravu inteligenciju.
Refleksija na djelu: Primjer
U zadatku Hotpot QA, model je trebao pronaći ime glumca najpoznatijeg po ulozi u određenoj seriji. Nakon početnog neuspješnog pokušaja, model je koristio refleksiju kako bi identificirao pogrešku u svojoj strategiji pretraživanja, ispravio je i u konačnici pronašao točan odgovor. Upravo tako bi čovjek pristupio problemu, reflektirajući o svojim pogreškama i prilagođavajući svoju strategiju u skladu s tim.
Ograničenja i rješavanje situacija bez definitivne ground truth
Jedno od glavnih ograničenja rada je to što zahtijeva ground truth da bi radio. Međutim, u mnogim situacijama u stvarnom svijetu ne postoji definitivan ground truth ili jedinstveno optimalno rješenje. Autori rada predlažu metodu koja oponaša ljudsko rješavanje problema, stvarajući interni testni paket na temelju svog razumijevanja, a zatim prilagođavajući rješenja dok ne zadovolje većinu testova.
Premještanjem uskog grla točnosti s ispravne sintaktičke i semantičke generacije koda na ispravnu sintaktičku i semantičku generaciju testova, model može postići veće stope točnosti.
Budućnost AI i refleksije
Kako AI modeli sa sposobnostima refleksije postaju sve rašireniji, možemo očekivati značajna poboljšanja u AI generiranom kodu i drugim složenim zadacima. Sa sposobnošću iterativnog poboljšanja vlastitog rada, AI modeli postat će učinkovitiji i djelotvorniji u rješavanju problema i generiranju rješenja.
Ključno je da mi kao ljudi reflektiramo o razvoju koji postižemo u AI i razmotrimo smjer u kojem ga želimo odvesti. Ovaj proboj u AI zaključivanju samo je početak i nema sumnje da nas čekaju još uzbudljivija napredovanja.
Video od Prompt Engineering
Reference:
- Rad o refleksiji: https://arxiv.org/pdf/2303.11366.pdf
- Blogpost o refleksiji o refleksiji: https://nanothoughts.substack.com/p/reflecting-on-reflexion
- Rad o HotpotQA: https://arxiv.org/pdf/1809.09600.pdf
- Rad o Alfworld: https://arxiv.org/pdf/2010.03768.pdf
- AutoGPT: https://github.com/Torantulino/Auto-GPT
- HumanEval: https://arxiv.org/pdf/2107.03374.pdf