GPT-4 modeli koji uče iz svojih grešaka: Proboj u AI zaključivanju

Категоризовано као AI/ML Означено , , , , ,
Save and Share:

Svet veštačke inteligencije se neprestano razvija, a nedavni proboj u istraživanju veštačke inteligencije podigao je stvari na viši nivo. U novom radu se uvodi „Refleksija,“ autonomni agent sa dinamičkom memorijom i sposobnostima samorefleksije, koji omogućava AI modelima da uče iz sopstvenih grešaka i vremenom se usavršavaju. Ovaj razvoj daje AI modelima sposobnosti rezonovanja slične ljudskim i obećava značajno poboljšanje performansi.

Šta je Refleksija i zašto je značajna?

Jedna od najvećih slabosti trenutnih AI modela je njihova nesposobnost da uče iz svojih grešaka. Refleksija ovo rešava tako što agentu daje dinamičku memoriju i sposobnosti samorefleksije, unapređujući njihove postojeće sposobnosti rezonovanja, praćenja i izbora akcija specifičnih za zadatak. Jednostavnije rečeno, model sada može da pamti akcije koje je preduzeo, da pregleda te akcije i da ispravi svoje greške.

Odlična stvar u vezi sa ovim pristupom je to što nije ograničen na GPT-4 modele; može da radi sa bilo kojim velikim jezičkim modelom bez potrebe za finim podešavanjem. Model refleksije jednostavno procenjuje funkciju nagrađivanja i ažurira akciju koju originalni veliki jezički model treba da preduzme, dajući ogroman podsticaj performansama.

Originalni rad o Refleksiji

Originalni rad o refleksiji predstavlja rezultate na dva različita skupa podataka, prikazujući njegovu sposobnost rezonovanja:

  1. Hotpot QA: Skup podataka za raznolika, objašnjiva pitanja i odgovore sa više koraka, koji zahteva od jezičkog modela da rezonuje kroz više dokumenata.
  2. ELF World: Usklađivanje teksta i utelovljenih okruženja za interaktivno učenje, kombinujući tekstualne unose i izlaze sa fizičkim svetom, omogućavajući modelu da komunicira sa fizičkim svetom koristeći tekstualne upite.

Dodavanje refleksije ovim modelima dovelo je do značajnog poboljšanja performansi, bez potrebe za finim podešavanjem.

Razbijanje zabluda o radu

Mnogi ljudi pogrešno veruju da rad koristi GPT-4, ali on zapravo koristi GPT-3 i 3.5 (ChatGPT). Ova razlika je značajna jer otvara mogućnost kombinovanja refleksije sa Auto GPT-om, omogućavajući AI modelima da modifikuju zadatke u hodu, pružajući pravu inteligenciju.

Refleksija na delu: Primer

U zadatku Hotpot QA, model je trebalo da pronađe ime glumca najpoznatijeg po ulozi u određenoj seriji. Nakon prvog neuspešnog pokušaja, model je koristio refleksiju da identifikuje grešku u svojoj strategiji pretrage, ispravi je i na kraju pronađe tačan odgovor. Upravo tako bi i čovek pristupio problemu, razmišljajući o svojim greškama i prilagođavajući svoju strategiju u skladu sa tim.

Ograničenja i rešavanje situacija bez definitivne osnovne istine

Jedno od glavnih ograničenja rada je to što zahteva osnovnu istinu da bi funkcionisao. Međutim, u mnogim situacijama u stvarnom svetu ne postoji definitivna osnovna istina ili jedinstveno optimalno rešenje. Autori rada predlažu metodu koja odražava ljudsko rešavanje problema, kreirajući interni testni skup na osnovu svog razumevanja i zatim prilagođavajući rešenja dok ne zadovolje većinu testova.

Prebacivanjem uskog grla tačnosti sa ispravne sintaktičke i semantičke generacije koda na ispravnu sintaktičku i semantičku generaciju testova, model može postići veće stope tačnosti.

Budućnost veštačke inteligencije i refleksije

Kako AI modeli sa sposobnostima refleksije postaju sve rasprostranjeniji, možemo očekivati da ćemo videti značajna poboljšanja u kodu generisanom veštačkom inteligencijom i drugim složenim zadacima. Sa sposobnošću da iterativno poboljšavaju sopstveni rad, AI modeli će postati efikasniji i efektivniji u rešavanju problema i generisanju rešenja.

Ključno je da mi kao ljudi razmislimo o razvoju koji postižemo u veštačkoj inteligenciji i razmotrimo pravac u kojem želimo da je vodimo. Ovaj proboj u AI zaključivanju je samo početak, i nema sumnje da nas očekuju još uzbudljivija napredovanja.

Video by Prompt Engineering

Reference:

Оставите коментар

Ваша адреса е-поште неће бити објављена. Неопходна поља су означена *