Tehisintellekti maailm areneb pidevalt ja hiljutine läbimurre tehisintellekti uuringutes on viinud asjad täiesti uuele tasemele. Uues teadusartiklis tutvustatakse “Refleksiooni” (Reflection), autonoomset agenti dünaamilise mälu ja eneserefleksiooni võimetega, mis võimaldab tehisintellekti mudelitel õppida oma vigadest ja aja jooksul areneda. See areng annab tehisintellekti mudelitele inimlikud arutlusvõimed ja tõotab märkimisväärset jõudluse kasvu.

Mis on Refleksioon ja miks see on oluline?
Üks suurimaid nõrkusi praeguste tehisintellekti mudelite juures on nende suutmatus oma vigadest õppida. Refleksioon lahendab seda, andes agendile dünaamilise mälu ja eneserefleksiooni võimed, parandades nende olemasolevaid arutlus-, jälgimis- ja ülesandespetsiifilisi tegevusvaliku võimeid. Lihtsamalt öeldes suudab mudel nüüd meelde jätta oma tehtud tegevused, neid tegevusi üle vaadata ja oma vigu parandada.
Selle lähenemisviisi juures on eriti hea see, et see ei piirdu ainult GPT-4 mudelitega; see võib töötada mis tahes suure keelemudeliga ilma peenhäälestamise vajaduseta. Refleksioonimudel lihtsalt hindab preemia funktsiooni ja uuendab tegevust, mida algne suur keelemudel peab tegema, andes seeläbi tohutu jõudluse kasvu.
Algne Refleksiooni teadusartikkel
Algne refleksiooni teadusartikkel esitab tulemusi kahel erineval andmekogumil, näidates selle arutlusvõimet:
- Hotpot QA: andmekogum mitmekülgsete, seletavate mitme sammuga küsimustele vastamise jaoks, mis nõuab keelemudelilt mitme dokumendi läbiarutlemist.
- ELF World: teksti ja kehastuskeskkondade ühtlustamine interaktiivseks õppimiseks, ühendades tekstisisendid ja -väljundid füüsilise maailmaga, võimaldades mudelil suhelda füüsilise maailmaga tekstiviipade abil.
Refleksiooni lisamine neile mudelitele tõi kaasa märkimisväärse jõudluse paranemise, ilma peenhäälestamise vajaduseta.
Väärarusaamade kummutamine teadusartikli kohta
Paljud inimesed ekslikult usuvad, et teadusartikkel kasutab GPT-4, kuid tegelikult kasutab see GPT-3 ja 3.5 (ChatGPT). See erinevus on oluline, sest see avab võimaluse kombineerida refleksiooni Auto GPT-ga, võimaldades tehisintellekti mudelitel ülesandeid lennult muuta, pakkudes tõelist intelligentsust.
Refleksioon tegevuses: näide
Hotpot QA ülesandes pidi mudel leidma näitleja nime, kes on kõige tuntum rolli poolest konkreetses seriaalis. Pärast esialgset ebaõnnestunud katset kasutas mudel refleksiooni, et tuvastada viga oma otsingustrateegias, parandada seda ja lõpuks leida õige vastus. Just nii läheneks probleemile ka inimene, mõeldes oma vigadele ja kohandades vastavalt oma strateegiat.
Piirangud ja olukordade lahendamine, kus puudub lõplik tõene vastus
Üks peamisi piiranguid selle teadusartikli juures on see, et see nõuab toimimiseks tõest vastust. Kuid paljudes reaalse maailma olukordades ei ole olemas lõplikku tõest vastust ega ühtainust optimaalset lahendust. Teadusartikli autorid pakuvad meetodit, mis peegeldab inimeste probleemilahendust, luues sisemise testide komplekti, mis põhineb nende arusaamisel, ja seejärel kohandades lahendusi, kuni need vastavad enamikule testidest.
Viies täpsuse pudelikaela õige süntaktilise ja semantilise koodi genereerimiselt õige süntaktilise ja semantilise testi genereerimisele, võib mudel saavutada kõrgemaid täpsusmäärasid.
Tehisintellekti ja refleksiooni tulevik
Kuna refleksioonivõimetega tehisintellekti mudelid muutuvad üha laiemalt levinuks, võime oodata märkimisväärseid parandusi tehisintellekti loodud koodi ja muude keerukate ülesannete osas. Võimalusega oma tööd iteratiivselt parandada muutuvad tehisintellekti mudelid probleemide lahendamisel ja lahenduste genereerimisel tõhusamaks ja efektiivsemaks.
Meie kui inimeste jaoks on oluline mõelda tehisintellekti arengutele ja kaaluda suunda, kuhu me seda juhtida soovime. See läbimurre tehisintellekti arutlusvõimes on alles algus ja pole kahtlustki, et ees ootavad veelgi põnevamad edusammud.
Video kanalilt Prompt Engineering
Viited:
- Reflexion teadusartikkel: https://arxiv.org/pdf/2303.11366.pdf
- Blogipostitus Reflexioni kohta: https://nanothoughts.substack.com/p/reflecting-on-reflexion
- HotpotQA teadusartikkel: https://arxiv.org/pdf/1809.09600.pdf
- Alfworld teadusartikkel: https://arxiv.org/pdf/2010.03768.pdf
- AutoGPT: https://github.com/Torantulino/Auto-GPT
- HumanEval: https://arxiv.org/pdf/2107.03374.pdf