Dirbtinio intelekto pasaulis nuolat tobulėja, o neseniai dirbtinio intelekto tyrimų srityje pasiektas proveržis perkėlė viską į kitą lygį. Naujame straipsnyje pristatomas „Reflection“ – autonominis agentas su dinamine atmintimi ir savirefleksijos galimybėmis, leidžiantis DI modeliams mokytis iš savo klaidų ir laikui bėgant tobulėti. Šis pasiekimas suteikia DI modeliams į žmogų panašius argumentavimo gebėjimus ir žada gerokai padidinti našumą.

Kas yra „Reflection“ ir kodėl tai reikšminga?
Vienas didžiausių dabartinių DI modelių trūkumų yra nesugebėjimas mokytis iš savo klaidų. „Reflection“ tai sprendžia suteikdama agentui dinaminę atmintį ir savirefleksijos galimybes, pagerindama esamus jų argumentavimo, sekimo ir konkrečioms užduotims pritaikytus veiksmų pasirinkimo gebėjimus. Paprastai tariant, modelis dabar gali įsiminti atliktus veiksmus, peržiūrėti tuos veiksmus ir ištaisyti savo klaidas.
Puikus dalykas šiame metode yra tai, kad jis neapsiriboja GPT-4 modeliais; jis gali veikti su bet kokiu dideliu kalbos modeliu, nereikalaujant tikslinimo. „Reflection“ modelis tiesiog įvertina atlygio funkciją ir atnaujina veiksmą, kurį turi atlikti pradinis didelis kalbos modelis, taip gerokai padidindamas našumą.
Originalus „Reflection“ straipsnis
Originaliame „Reflection“ straipsnyje pateikiami rezultatai, gauti naudojant du skirtingus duomenų rinkinius, demonstruojant jo gebėjimą argumentuoti:
- Hotpot QA: duomenų rinkinys, skirtas įvairiems, paaiškinamiems kelių žingsnių klausimų ir atsakymų uždaviniams, reikalaujantis, kad kalbos modelis argumentuotų per kelis dokumentus.
- ELF World: teksto ir įkūnytos aplinkos suderinimas interaktyviam mokymuisi, derinant teksto įvestis ir išvestis su fiziniu pasauliu, leidžiant modeliui sąveikauti su fiziniu pasauliu naudojant tekstinius raginimus.
Pridėjus „Reflection“ prie šių modelių, buvo pasiektas reikšmingas našumo pagerėjimas, nereikalaujant tikslinimo.
Klaidingų nuomonių apie straipsnį išsklaidymas
Daugelis žmonių klaidingai mano, kad straipsnyje naudojamas GPT-4, tačiau iš tikrųjų jame naudojami GPT-3 ir 3.5 (ChatGPT). Šis skirtumas yra reikšmingas, nes jis atveria galimybę derinti „Reflection“ su Auto GPT, suteikiant DI modeliams galimybę keisti užduotis realiu laiku, užtikrinant tikrą intelektą.
„Reflection“ veiksme: pavyzdys
Vykdant „Hotpot QA“ užduotį, modelis turėjo rasti aktoriaus, labiausiai žinomo dėl vaidmens konkrečiame seriale, vardą. Po pradinio nesėkmingo bandymo modelis panaudojo „Reflection“, kad nustatytų klaidą savo paieškos strategijoje, ją ištaisytų ir galiausiai rastų teisingą atsakymą. Būtent taip žmogus spręstų problemą, apmąstydamas savo klaidas ir atitinkamai koreguodamas savo strategiją.
Apribojimai ir situacijų be galutinės tiesos sprendimas
Vienas pagrindinių straipsnio apribojimų yra tas, kad jam reikalinga „ground truth“ (tikroji padėtis) darbui. Tačiau daugelyje realaus pasaulio situacijų nėra galutinės tiesos ar vieno optimalaus sprendimo. Straipsnio autoriai siūlo metodą, kuris atspindi žmogaus problemų sprendimą, sukuriant vidinį testų rinkinį, pagrįstą jų supratimu, ir tada koreguojant sprendimus, kol jie patenkins daugumą testų.
Perkeliant tikslumo „bottleneck“ (siaurąją vietą) nuo teisingo sintaksinio ir semantinio kodo generavimo prie teisingo sintaksinio ir semantinio testų generavimo, modelis gali pasiekti didesnį tikslumo lygį.
Dirbtinio intelekto ir „Reflection“ ateitis
Kadangi DI modeliai su „Reflection“ galimybėmis tampa vis labiau paplitę, galime tikėtis didelių DI generuoto kodo ir kitų sudėtingų užduočių patobulinimų. Turėdami galimybę iteratyviai tobulinti savo pačių darbą, DI modeliai taps efektyvesni ir veiksmingesni sprendžiant problemas ir generuojant sprendimus.
Mums, žmonėms, būtina apmąstyti DI srityje daromus pasiekimus ir apsvarstyti kryptį, kuria norime jį nukreipti. Šis DI argumentavimo proveržis yra tik pradžia, ir neabejotinai ateityje laukia dar įdomesnių laimėjimų.
Vaizdo įrašas pagal „Prompt Engineering“
Nuorodos:
- „Reflexion“ straipsnis: https://arxiv.org/pdf/2303.11366.pdf
- Apmąstymai apie „Reflexion“ tinklaraščio įrašas: https://nanothoughts.substack.com/p/reflecting-on-reflexion
- „HotpotQA“ straipsnis: https://arxiv.org/pdf/1809.09600.pdf
- „Alfworld“ straipsnis: https://arxiv.org/pdf/2010.03768.pdf
- AutoGPT: https://github.com/Torantulino/Auto-GPT
- HumanEval: https://arxiv.org/pdf/2107.03374.pdf