Svet umelej inteligencie sa neustále vyvíja a nedávny prelom vo výskume AI posunul veci na vyššiu úroveň. Nová štúdia predstavuje „Reflexiu“, autonómneho agenta s dynamickou pamäťou a schopnosťou sebareflexie, ktorý umožňuje modelom AI učiť sa z vlastných chýb a postupom času sa zlepšovať. Tento vývoj dáva modelom AI schopnosti uvažovania podobné ľudským a sľubuje výrazné zvýšenie výkonu.

Čo je Reflexia a prečo je významná?
Jednou z najväčších slabín súčasných modelov AI je ich neschopnosť poučiť sa z vlastných chýb. Reflexia to rieši tým, že agentovi poskytuje dynamickú pamäť a schopnosti sebareflexie, čím zlepšuje ich existujúce schopnosti uvažovania, sledovania a výberu akcií špecifických pre danú úlohu. Jednoducho povedané, model si teraz dokáže zapamätať akcie, ktoré vykonal, prehodnotiť tieto akcie a opraviť svoje chyby.
Skvelé na tomto prístupe je, že sa neobmedzuje len na modely GPT-4; môže fungovať s akýmkoľvek rozsiahlym jazykovým modelom bez potreby dolaďovania. Reflexný model jednoducho vyhodnotí funkciu odmeny a aktualizuje akciu, ktorú má pôvodný rozsiahly jazykový model vykonať, čo vedie k obrovskému zvýšeniu výkonu.
Pôvodná štúdia o Reflexii
Pôvodná štúdia o reflexii prezentuje výsledky na dvoch rôznych dátových súboroch, ktoré demonštrujú jej schopnosť uvažovať:
- Hotpot QA: Dátový súbor pre rôznorodé, vysvetliteľné viacúrovňové otázky a odpovede, ktorý vyžaduje, aby jazykový model uvažoval prostredníctvom viacerých dokumentov.
- ELF World: Zosúladenie textu a stelesneného prostredia pre interaktívne učenie, kombinovanie textových vstupov a výstupov s fyzickým svetom, čo modelu umožňuje interagovať s fyzickým svetom pomocou textových podnetov.
Pridanie reflexie k týmto modelom viedlo k výraznému zlepšeniu výkonu bez potreby dolaďovania.
Vyvrátenie mylných predstáv o štúdii
Mnohí ľudia sa mylne domnievajú, že štúdia používa GPT-4, ale v skutočnosti používa GPT-3 a 3.5 (ChatGPT). Toto rozlíšenie je významné, pretože otvára možnosť kombinovať reflexiu s Auto GPT, čo umožňuje modelom AI modifikovať úlohy za behu, a tým poskytovať skutočnú inteligenciu.
Reflexia v akcii: Príklad
V úlohe Hotpot QA model potreboval nájsť meno herca najznámejšieho pre rolu v konkrétnom seriáli. Po prvom neúspešnom pokuse model použil reflexiu na identifikáciu chyby vo svojej stratégií vyhľadávania, opravil ju a nakoniec našiel správnu odpoveď. Presne takto by k problému pristupoval človek, ktorý reflektuje svoje chyby a prispôsobuje tomu svoju stratégiu.
Obmedzenia a riešenie situácií bez definitívnej správnej odpovede
Jedným z hlavných obmedzení štúdie je, že na fungovanie potrebuje ground truth (overenú správnu odpoveď). Avšak v mnohých reálnych situáciách neexistuje definitívna správna odpoveď alebo jediné optimálne riešenie. Autori štúdie navrhujú metódu, ktorá kopíruje ľudské riešenie problémov, vytvára interný testovací balík na základe ich chápania a potom upravuje riešenia, kým nevyhovujú väčšine testov.
Presunutím úzkeho hrdla presnosti z korektnej syntaktickej a sémantickej generácie kódu na korektnú syntaktickú a sémantickú generáciu testov, model môže dosiahnuť vyššiu mieru presnosti.
Budúcnosť AI a Reflexie
Keďže modely AI so schopnosťami reflexie sa stávajú čoraz rozšírenejšími, môžeme očakávať výrazné zlepšenia v kóde generovanom AI a iných komplexných úlohách. Vďaka schopnosti iteratívne zlepšovať svoju vlastnú prácu budú modely AI efektívnejšie a účinnejšie pri riešení problémov a generovaní riešení.
Je pre nás ako ľudí nevyhnutné zamyslieť sa nad vývojom, ktorý v AI robíme, a zvážiť smer, ktorým sa chceme uberať. Tento prelom v AI uvažovaní je len začiatok a niet pochýb o tom, že nás čakajú ešte vzrušujúcejšie pokroky.
Video od Prompt Engineering
Referencie:
- Štúdia o reflexii: https://arxiv.org/pdf/2303.11366.pdf
- Blogový príspevok Reflecting on Reflexion: https://nanothoughts.substack.com/p/reflecting-on-reflexion
- Štúdia HotpotQA: https://arxiv.org/pdf/1809.09600.pdf
- Štúdia Alfworld: https://arxiv.org/pdf/2010.03768.pdf
- AutoGPT: https://github.com/Torantulino/Auto-GPT
- HumanEval: https://arxiv.org/pdf/2107.03374.pdf