GPT-4 Modely, které se učí z vlastních chyb: Průlom v AI uvažování

V rubrikách AI/ML Štítky , , , , ,
Save and Share:

Svět umělé inteligence se neustále vyvíjí a nedávný průlom ve výzkumu AI posunul hranice zase o kus dál. Nová studie představuje „Reflexi“, autonomního agenta s dynamickou pamětí a schopností sebereflexe, který umožňuje modelům AI učit se z vlastních chyb a postupem času se zlepšovat. Tento vývoj dává modelům AI schopnosti uvažování podobné lidským a slibuje výrazné zvýšení výkonu.

Co je Reflexe a proč je tak významná?

Jednou z největších slabin současných modelů AI je jejich neschopnost učit se z vlastních chyb. Reflexe tento problém řeší tím, že agentovi dává dynamickou paměť a schopnost sebereflexe, čímž posiluje jeho stávající schopnosti uvažování, sledování a volby akcí specifických pro daný úkol. Jednoduše řečeno, model si nyní dokáže zapamatovat kroky, které podnikl, zkontrolovat je a opravit své chyby.

Skvělé na tomto přístupu je, že se neomezuje pouze na modely GPT-4; může fungovat s jakýmkoli velkým jazykovým modelem bez nutnosti dolaďování. Reflexní model jednoduše vyhodnotí funkci odměny a aktualizuje akci, kterou má původní velký jazykový model provést, což přináší obrovské zvýšení výkonu.

Původní studie o Reflexi

Původní studie o reflexi prezentuje výsledky na dvou různých datasetech, které demonstrují její schopnost uvažovat:

  1. Hotpot QA: Dataset pro různorodé, vysvětlitelné multi-hop dotazování, vyžadující, aby jazykový model uvažoval napříč více dokumenty.
  2. ELF World: Propojení textu a ztělesněných prostředí pro interaktivní učení, kombinující textové vstupy a výstupy s fyzickým světem, umožňující modelu interagovat s fyzickým světem pomocí textových výzev.

Přidání reflexe k těmto modelům vedlo k významnému zlepšení výkonu, a to bez nutnosti dolaďování.

Vyvracení mylných představ o studii

Mnoho lidí se mylně domnívá, že studie používá GPT-4, ale ve skutečnosti používá GPT-3 a 3.5 (ChatGPT). Tento rozdíl je významný, protože otevírá možnost kombinovat reflexi s Auto GPT, což umožňuje modelům AI modifikovat úkoly za běhu a poskytovat skutečnou inteligenci.

Reflexe v akci: Příklad

V úkolu Hotpot QA model potřeboval najít jméno herce nejznámějšího pro roli v konkrétním pořadu. Po počátečním neúspěšném pokusu model použil reflexi k identifikaci chyby ve své vyhledávací strategii, opravil ji a nakonec našel správnou odpověď. Přesně takto by k problému přistoupil člověk, který reflektuje své chyby a podle toho upravuje svou strategii.

Omezení a řešení situací bez definitivní pravdy

Jedním z hlavních omezení studie je, že pro svou funkčnost vyžaduje základní pravdu (ground truth). Nicméně, v mnoha reálných situacích neexistuje definitivní základní pravda nebo jediné optimální řešení. Autoři studie navrhují metodu, která zrcadlí lidské řešení problémů, vytváří interní testovací sadu založenou na jejich porozumění a poté upravuje řešení, dokud nevyhovují většině testů.

Přesunutím úzkého hrdla přesnosti z korektní syntaktické a sémantické generace kódu na korektní syntaktickou a sémantickou generaci testů může model dosáhnout vyšší míry přesnosti.

Budoucnost AI a Reflexe

S tím, jak se modely AI s reflexními schopnostmi stávají stále rozšířenějšími, můžeme očekávat výrazné zlepšení v AI generovaném kódu a dalších komplexních úkolech. Díky schopnosti iterativně zlepšovat vlastní práci se modely AI stanou efektivnějšími a účinnějšími při řešení problémů a generování řešení.

Je pro nás jako lidi zásadní, abychom reflektovali vývoj, kterého v AI dosahujeme, a zvážili směr, kterým se chceme ubírat. Tento průlom v AI uvažování je pouze začátek a není pochyb o tom, že nás čekají další vzrušující pokroky.

Video od Prompt Engineering

Reference:

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *