GPT-4 Modeli koji uče na svojim pogreškama: Proboj u AI zaključivanju

Kategorizirano kao AI/ML Označeno , , , , ,
Save and Share:

Svijet umjetne inteligencije neprestano se razvija, a nedavni proboj u istraživanju umjetne inteligencije podigao je stvari na višu razinu. Novi rad predstavlja “Refleksiju”, autonomnog agenta s dinamičkom memorijom i sposobnostima samorefleksije, omogućujući AI modelima da uče iz vlastitih pogrešaka i vremenom se poboljšavaju. Ovaj razvoj daje AI modelima sposobnosti zaključivanja slične ljudskim i obećava značajno povećanje performansi.

Što je Refleksija i zašto je značajna?

Jedna od najvećih slabosti trenutnih AI modela je njihova nesposobnost učenja na vlastitim pogreškama. Refleksija rješava ovaj problem dajući agentu dinamičku memoriju i sposobnosti samorefleksije, poboljšavajući njihove postojeće sposobnosti zaključivanja, praćenja i odabira akcija specifičnih za zadatak. Jednostavnije rečeno, model sada može pamtiti radnje koje je poduzeo, pregledati te radnje i ispraviti svoje pogreške.

Sjajna stvar u vezi s ovim pristupom je da nije ograničen na GPT-4 modele; može raditi s bilo kojim velikim jezičnim modelom bez potrebe za finim ugađanjem. Model refleksije jednostavno procjenjuje funkciju nagrađivanja i ažurira radnju koju treba poduzeti originalni veliki jezični model, dajući ogroman poticaj performansama.

Izvorni rad o refleksiji

Izvorni rad o refleksiji prikazuje rezultate na dva različita skupa podataka, pokazujući njegovu sposobnost zaključivanja:

  1. Hotpot QA: Skup podataka za raznolika, objašnjiva pitanja i odgovore s više koraka, koji zahtijeva od jezičnog modela da zaključuje kroz više dokumenata.
  2. ELF World: Usklađivanje teksta i utjelovljenih okruženja za interaktivno učenje, kombinirajući tekstualne unose i izlaze s fizičkim svijetom, omogućujući modelu interakciju s fizičkim svijetom pomoću tekstualnih uputa.

Dodavanje refleksije ovim modelima dovelo je do značajnih poboljšanja performansi, bez potrebe za finim ugađanjem.

Razbijanje zabluda o radu

Mnogi ljudi pogrešno vjeruju da rad koristi GPT-4, ali zapravo koristi GPT-3 i 3.5 (ChatGPT). Ova razlika je značajna jer otvara mogućnost kombiniranja refleksije s Auto GPT-om, omogućujući AI modelima da modificiraju zadatke u hodu, pružajući pravu inteligenciju.

Refleksija na djelu: Primjer

U zadatku Hotpot QA, model je trebao pronaći ime glumca najpoznatijeg po ulozi u određenoj seriji. Nakon početnog neuspješnog pokušaja, model je koristio refleksiju kako bi identificirao pogrešku u svojoj strategiji pretraživanja, ispravio je i u konačnici pronašao točan odgovor. Upravo tako bi čovjek pristupio problemu, reflektirajući o svojim pogreškama i prilagođavajući svoju strategiju u skladu s tim.

Ograničenja i rješavanje situacija bez definitivne ground truth

Jedno od glavnih ograničenja rada je to što zahtijeva ground truth da bi radio. Međutim, u mnogim situacijama u stvarnom svijetu ne postoji definitivan ground truth ili jedinstveno optimalno rješenje. Autori rada predlažu metodu koja oponaša ljudsko rješavanje problema, stvarajući interni testni paket na temelju svog razumijevanja, a zatim prilagođavajući rješenja dok ne zadovolje većinu testova.

Premještanjem uskog grla točnosti s ispravne sintaktičke i semantičke generacije koda na ispravnu sintaktičku i semantičku generaciju testova, model može postići veće stope točnosti.

Budućnost AI i refleksije

Kako AI modeli sa sposobnostima refleksije postaju sve rašireniji, možemo očekivati ​​značajna poboljšanja u AI generiranom kodu i drugim složenim zadacima. Sa sposobnošću iterativnog poboljšanja vlastitog rada, AI modeli postat će učinkovitiji i djelotvorniji u rješavanju problema i generiranju rješenja.

Ključno je da mi kao ljudi reflektiramo o razvoju koji postižemo u AI i razmotrimo smjer u kojem ga želimo odvesti. Ovaj proboj u AI zaključivanju samo je početak i nema sumnje da nas čekaju još uzbudljivija napredovanja.

Video od Prompt Engineering

Reference:

Ostavite komentar

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)