Modely GPT-4, ktoré sa učia z vlastných chýb: Prelom v AI uvažovaní

Kategorizované ako AI/ML Označené ako , , , , ,
Save and Share:

Svet umelej inteligencie sa neustále vyvíja a nedávny prelom vo výskume AI posunul veci na vyššiu úroveň. Nová štúdia predstavuje „Reflexiu“, autonómneho agenta s dynamickou pamäťou a schopnosťou sebareflexie, ktorý umožňuje modelom AI učiť sa z vlastných chýb a postupom času sa zlepšovať. Tento vývoj dáva modelom AI schopnosti uvažovania podobné ľudským a sľubuje výrazné zvýšenie výkonu.

Čo je Reflexia a prečo je významná?

Jednou z najväčších slabín súčasných modelov AI je ich neschopnosť poučiť sa z vlastných chýb. Reflexia to rieši tým, že agentovi poskytuje dynamickú pamäť a schopnosti sebareflexie, čím zlepšuje ich existujúce schopnosti uvažovania, sledovania a výberu akcií špecifických pre danú úlohu. Jednoducho povedané, model si teraz dokáže zapamätať akcie, ktoré vykonal, prehodnotiť tieto akcie a opraviť svoje chyby.

Skvelé na tomto prístupe je, že sa neobmedzuje len na modely GPT-4; môže fungovať s akýmkoľvek rozsiahlym jazykovým modelom bez potreby dolaďovania. Reflexný model jednoducho vyhodnotí funkciu odmeny a aktualizuje akciu, ktorú má pôvodný rozsiahly jazykový model vykonať, čo vedie k obrovskému zvýšeniu výkonu.

Pôvodná štúdia o Reflexii

Pôvodná štúdia o reflexii prezentuje výsledky na dvoch rôznych dátových súboroch, ktoré demonštrujú jej schopnosť uvažovať:

  1. Hotpot QA: Dátový súbor pre rôznorodé, vysvetliteľné viacúrovňové otázky a odpovede, ktorý vyžaduje, aby jazykový model uvažoval prostredníctvom viacerých dokumentov.
  2. ELF World: Zosúladenie textu a stelesneného prostredia pre interaktívne učenie, kombinovanie textových vstupov a výstupov s fyzickým svetom, čo modelu umožňuje interagovať s fyzickým svetom pomocou textových podnetov.

Pridanie reflexie k týmto modelom viedlo k výraznému zlepšeniu výkonu bez potreby dolaďovania.

Vyvrátenie mylných predstáv o štúdii

Mnohí ľudia sa mylne domnievajú, že štúdia používa GPT-4, ale v skutočnosti používa GPT-3 a 3.5 (ChatGPT). Toto rozlíšenie je významné, pretože otvára možnosť kombinovať reflexiu s Auto GPT, čo umožňuje modelom AI modifikovať úlohy za behu, a tým poskytovať skutočnú inteligenciu.

Reflexia v akcii: Príklad

V úlohe Hotpot QA model potreboval nájsť meno herca najznámejšieho pre rolu v konkrétnom seriáli. Po prvom neúspešnom pokuse model použil reflexiu na identifikáciu chyby vo svojej stratégií vyhľadávania, opravil ju a nakoniec našiel správnu odpoveď. Presne takto by k problému pristupoval človek, ktorý reflektuje svoje chyby a prispôsobuje tomu svoju stratégiu.

Obmedzenia a riešenie situácií bez definitívnej správnej odpovede

Jedným z hlavných obmedzení štúdie je, že na fungovanie potrebuje ground truth (overenú správnu odpoveď). Avšak v mnohých reálnych situáciách neexistuje definitívna správna odpoveď alebo jediné optimálne riešenie. Autori štúdie navrhujú metódu, ktorá kopíruje ľudské riešenie problémov, vytvára interný testovací balík na základe ich chápania a potom upravuje riešenia, kým nevyhovujú väčšine testov.

Presunutím úzkeho hrdla presnosti z korektnej syntaktickej a sémantickej generácie kódu na korektnú syntaktickú a sémantickú generáciu testov, model môže dosiahnuť vyššiu mieru presnosti.

Budúcnosť AI a Reflexie

Keďže modely AI so schopnosťami reflexie sa stávajú čoraz rozšírenejšími, môžeme očakávať výrazné zlepšenia v kóde generovanom AI a iných komplexných úlohách. Vďaka schopnosti iteratívne zlepšovať svoju vlastnú prácu budú modely AI efektívnejšie a účinnejšie pri riešení problémov a generovaní riešení.

Je pre nás ako ľudí nevyhnutné zamyslieť sa nad vývojom, ktorý v AI robíme, a zvážiť smer, ktorým sa chceme uberať. Tento prelom v AI uvažovaní je len začiatok a niet pochýb o tom, že nás čakajú ešte vzrušujúcejšie pokroky.

Video od Prompt Engineering

Referencie:

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *