A mesterséges intelligencia világa folyamatosan fejlődik, és a MI-kutatás legújabb áttörése egy újabb szintre emelte a dolgokat. Egy új tanulmány bemutatja a „Reflexió”-t, egy autonóm ügynököt dinamikus memóriával és önreflexiós képességekkel, amely lehetővé teszi a MI modellek számára, hogy saját hibáikból tanuljanak és idővel fejlődjenek. Ez a fejlesztés emberhez hasonló érvelési képességeket biztosít a MI modelleknek, és jelentős teljesítménynövekedést ígér.

Mi az a Reflexió, és miért jelentős?
A jelenlegi MI modellek egyik legnagyobb gyengesége, hogy nem képesek tanulni a hibáikból. A Reflexió ezt úgy orvosolja, hogy dinamikus memóriát és önreflexiós képességeket ad az ügynöknek, ezáltal javítva a meglévő érvelési, követési és feladatspecifikus cselekvésválasztási képességeiket. Egyszerűen fogalmazva, a modell mostantól meg tudja jegyezni a megtett lépéseit, át tudja tekinteni ezeket a lépéseket, és ki tudja javítani a hibáit.
Az ebben a megközelítésben az a nagyszerű, hogy nem korlátozódik a GPT-4 modellekre; bármilyen nagyméretű nyelvi modellel működhet finomhangolás nélkül. A reflexiós modell egyszerűen kiértékeli a jutalomfüggvényt, és frissíti az eredeti nagyméretű nyelvi modell által végrehajtandó műveletet, ami hatalmas teljesítménynövekedést eredményez.
Az eredeti Reflexió tanulmány
Az eredeti reflexió tanulmány két különböző adathalmazon mutatja be az eredményeket, bemutatva az érvelési képességét:
- Hotpot QA: Egy adathalmaz sokrétű, magyarázható, több lépéses kérdés-válaszadáshoz, amely megköveteli a nyelvi modelltől, hogy több dokumentumon keresztül érveljen.
- ELF World: Szöveg és megtestesült környezetek összehangolása az interaktív tanulás érdekében, amely ötvözi a szöveges bemeneteket és kimeneteket a fizikai világgal, lehetővé téve a modell számára, hogy szöveges utasítások segítségével interakcióba lépjen a fizikai világgal.
A reflexió hozzáadása ezekhez a modellekhez jelentős teljesítményjavulást eredményezett, finomhangolás nélkül.
A tanulmánnyal kapcsolatos tévhitek eloszlatása
Sokan tévesen azt hiszik, hogy a tanulmány GPT-4-et használ, de valójában GPT-3-at és 3.5-öt (ChatGPT) használ. Ez a különbség jelentős, mert megnyitja a lehetőséget a reflexió Auto GPT-vel való kombinálására, lehetővé téve a MI modellek számára, hogy menet közben módosítsák a feladatokat, valódi intelligenciát biztosítva.
Reflexió működés közben: Egy példa
Egy Hotpot QA feladatban a modellnek meg kellett találnia egy színész nevét, aki egy adott sorozatban játszott szerepéről a legismertebb. Egy kezdeti sikertelen kísérlet után a modell reflexiót használt a keresési stratégiájában lévő hiba azonosítására, kijavította azt, és végül megtalálta a helyes választ. Pontosan így közelítene meg egy problémát egy ember is, reflektálva a hibáira és ennek megfelelően módosítva a stratégiáját.
Korlátozások és helyzetek kezelése, ahol nincs egyértelműen helyes válasz
A tanulmány egyik fő korlátja, hogy a működéséhez helyes válaszra van szükség. Azonban sok valós helyzetben nincs egyértelműen helyes válasz vagy egyetlen optimális megoldás. A tanulmány szerzői egy olyan módszert javasolnak, amely az emberi problémamegoldást tükrözi, létrehozva egy belső tesztcsomagot a saját megértésük alapján, majd addig igazítva a megoldásokat, amíg azok a legtöbb tesztnek megfelelnek.
A pontossági szűk keresztmetszetet a helyes szintaktikai és szemantikai kódgenerálásról a helyes szintaktikai és szemantikai tesztgenerálásra helyezve a modell magasabb pontossági arányokat érhet el.
A MI és a Reflexió jövője
Ahogy a reflexiós képességekkel rendelkező MI modellek egyre szélesebb körben elterjednek, jelentős javulást várhatunk a MI által generált kódokban és más összetett feladatokban. Azzal a képességgel, hogy iteratívan javítsák a saját munkájukat, a MI modellek hatékonyabbá és eredményesebbé válnak a problémák megoldásában és a megoldások generálásában.
Emberként elengedhetetlen számunkra, hogy reflektáljunk a MI területén elért fejlesztéseinkre, és mérlegeljük, milyen irányba szeretnénk vinni azt. Ez az áttörés a MI érvelésében csak a kezdet, és kétségtelen, hogy még izgalmasabb előrelépések várnak ránk.
Videó a Prompt Engineeringtől
Hivatkozások:
- Reflexió tanulmány: https://arxiv.org/pdf/2303.11366.pdf
- Reflecting on Reflexion blogbejegyzés: https://nanothoughts.substack.com/p/reflecting-on-reflexion
- HotpotQA tanulmány: https://arxiv.org/pdf/1809.09600.pdf
- Alfworld tanulmány: https://arxiv.org/pdf/2010.03768.pdf
- AutoGPT: https://github.com/Torantulino/Auto-GPT
- HumanEval: https://arxiv.org/pdf/2107.03374.pdf