Svět umělé inteligence se neustále vyvíjí a nedávný průlom ve výzkumu AI posunul hranice zase o kus dál. Nová studie představuje „Reflexi“, autonomního agenta s dynamickou pamětí a schopností sebereflexe, který umožňuje modelům AI učit se z vlastních chyb a postupem času se zlepšovat. Tento vývoj dává modelům AI schopnosti uvažování podobné lidským a slibuje výrazné zvýšení výkonu.

Co je Reflexe a proč je tak významná?
Jednou z největších slabin současných modelů AI je jejich neschopnost učit se z vlastních chyb. Reflexe tento problém řeší tím, že agentovi dává dynamickou paměť a schopnost sebereflexe, čímž posiluje jeho stávající schopnosti uvažování, sledování a volby akcí specifických pro daný úkol. Jednoduše řečeno, model si nyní dokáže zapamatovat kroky, které podnikl, zkontrolovat je a opravit své chyby.
Skvělé na tomto přístupu je, že se neomezuje pouze na modely GPT-4; může fungovat s jakýmkoli velkým jazykovým modelem bez nutnosti dolaďování. Reflexní model jednoduše vyhodnotí funkci odměny a aktualizuje akci, kterou má původní velký jazykový model provést, což přináší obrovské zvýšení výkonu.
Původní studie o Reflexi
Původní studie o reflexi prezentuje výsledky na dvou různých datasetech, které demonstrují její schopnost uvažovat:
- Hotpot QA: Dataset pro různorodé, vysvětlitelné multi-hop dotazování, vyžadující, aby jazykový model uvažoval napříč více dokumenty.
- ELF World: Propojení textu a ztělesněných prostředí pro interaktivní učení, kombinující textové vstupy a výstupy s fyzickým světem, umožňující modelu interagovat s fyzickým světem pomocí textových výzev.
Přidání reflexe k těmto modelům vedlo k významnému zlepšení výkonu, a to bez nutnosti dolaďování.
Vyvracení mylných představ o studii
Mnoho lidí se mylně domnívá, že studie používá GPT-4, ale ve skutečnosti používá GPT-3 a 3.5 (ChatGPT). Tento rozdíl je významný, protože otevírá možnost kombinovat reflexi s Auto GPT, což umožňuje modelům AI modifikovat úkoly za běhu a poskytovat skutečnou inteligenci.
Reflexe v akci: Příklad
V úkolu Hotpot QA model potřeboval najít jméno herce nejznámějšího pro roli v konkrétním pořadu. Po počátečním neúspěšném pokusu model použil reflexi k identifikaci chyby ve své vyhledávací strategii, opravil ji a nakonec našel správnou odpověď. Přesně takto by k problému přistoupil člověk, který reflektuje své chyby a podle toho upravuje svou strategii.
Omezení a řešení situací bez definitivní pravdy
Jedním z hlavních omezení studie je, že pro svou funkčnost vyžaduje základní pravdu (ground truth). Nicméně, v mnoha reálných situacích neexistuje definitivní základní pravda nebo jediné optimální řešení. Autoři studie navrhují metodu, která zrcadlí lidské řešení problémů, vytváří interní testovací sadu založenou na jejich porozumění a poté upravuje řešení, dokud nevyhovují většině testů.
Přesunutím úzkého hrdla přesnosti z korektní syntaktické a sémantické generace kódu na korektní syntaktickou a sémantickou generaci testů může model dosáhnout vyšší míry přesnosti.
Budoucnost AI a Reflexe
S tím, jak se modely AI s reflexními schopnostmi stávají stále rozšířenějšími, můžeme očekávat výrazné zlepšení v AI generovaném kódu a dalších komplexních úkolech. Díky schopnosti iterativně zlepšovat vlastní práci se modely AI stanou efektivnějšími a účinnějšími při řešení problémů a generování řešení.
Je pro nás jako lidi zásadní, abychom reflektovali vývoj, kterého v AI dosahujeme, a zvážili směr, kterým se chceme ubírat. Tento průlom v AI uvažování je pouze začátek a není pochyb o tom, že nás čekají další vzrušující pokroky.
Video od Prompt Engineering
Reference:
- Studie o Reflexi: https://arxiv.org/pdf/2303.11366.pdf
- Blogový příspěvek Reflecting on Reflexion: https://nanothoughts.substack.com/p/reflecting-on-reflexion
- Studie HotpotQA: https://arxiv.org/pdf/1809.09600.pdf
- Studie Alfworld: https://arxiv.org/pdf/2010.03768.pdf
- AutoGPT: https://github.com/Torantulino/Auto-GPT
- HumanEval: https://arxiv.org/pdf/2107.03374.pdf