Świat sztucznej inteligencji nieustannie ewoluuje, a niedawny przełom w badaniach nad SI przeniósł sprawy na wyższy poziom. W nowym artykule przedstawiono „Refleksję”, autonomicznego agenta z dynamiczną pamięcią i zdolnościami samorefleksji, umożliwiającego modelom SI uczenie się na własnych błędach i ciągłe doskonalenie. To osiągnięcie nadaje modelom SI zdolności rozumowania zbliżone do ludzkich i zapowiada znaczący wzrost wydajności.

Czym jest Refleksja i dlaczego jest tak istotna?
Jedną z największych słabości obecnych modeli SI jest ich niezdolność do uczenia się na błędach. Refleksja rozwiązuje ten problem, wyposażając agenta w dynamiczną pamięć i zdolności samorefleksji, wzmacniając jego dotychczasowe zdolności rozumowania, śledzenia i wyboru działań specyficznych dla zadania. Mówiąc najprościej, model może teraz zapamiętywać podjęte działania, analizować je i korygować swoje błędy.
Zaletą tego podejścia jest to, że nie ogranicza się ono do modeli GPT-4; może działać z dowolnym dużym modelem językowym bez konieczności dostrajania. Model refleksji po prostu ocenia funkcję nagrody i aktualizuje działanie, które ma zostać podjęte przez oryginalny duży model językowy, co znacząco zwiększa wydajność.
Oryginalny artykuł o Refleksji
Oryginalny artykuł o refleksji przedstawia wyniki na dwóch różnych zestawach danych, demonstrując zdolność modelu do rozumowania:
- Hotpot QA: Zbiór danych do różnorodnych, wyjaśnialnych, wieloetapowych pytań i odpowiedzi, wymagający od modelu językowego rozumowania na podstawie wielu dokumentów.
- ELF World: Dopasowywanie tekstu i środowisk ucieleśnionych do interaktywnego uczenia się, łączące wejścia i wyjścia tekstowe ze światem fizycznym, umożliwiając modelowi interakcję ze światem fizycznym za pomocą podpowiedzi tekstowych.
Dodanie refleksji do tych modeli doprowadziło do znaczącej poprawy wydajności, bez konieczności dostrajania.
Rozpraszanie błędnych przekonań na temat artykułu
Wiele osób błędnie uważa, że artykuł wykorzystuje GPT-4, ale w rzeczywistości używa GPT-3 i 3.5 (ChatGPT). To rozróżnienie jest istotne, ponieważ otwiera możliwość połączenia refleksji z Auto GPT, umożliwiając modelom SI modyfikowanie zadań na bieżąco, co zapewnia prawdziwą inteligencję.
Refleksja w działaniu: Przykład
W zadaniu Hotpot QA model musiał znaleźć imię i nazwisko aktora najbardziej znanego z roli w konkretnym serialu. Po początkowej nieudanej próbie model wykorzystał refleksję, aby zidentyfikować błąd w swojej strategii wyszukiwania, poprawić go i ostatecznie znaleźć prawidłową odpowiedź. Właśnie w taki sposób człowiek podchodzi do problemu, zastanawiając się nad swoimi błędami i odpowiednio dostosowując swoją strategię.
Ograniczenia i radzenie sobie w sytuacjach bez jednoznacznej prawdy obiektywnej
Jednym z głównych ograniczeń artykułu jest to, że wymaga on prawdy obiektywnej, aby działać. Jednak w wielu rzeczywistych sytuacjach nie ma jednoznacznej prawdy obiektywnej ani jednego optymalnego rozwiązania. Autorzy artykułu proponują metodę, która odzwierciedla ludzkie rozwiązywanie problemów, tworząc wewnętrzny zestaw testów oparty na ich zrozumieniu, a następnie dostosowując rozwiązania, aż spełnią większość testów.
Przesuwając wąskie gardło dokładności z poprawnego syntaktycznie i semantycznie generowania kodu na poprawne syntaktycznie i semantycznie generowanie testów, model może osiągnąć wyższy poziom dokładności.
Przyszłość SI i Refleksji
Wraz z coraz większym rozpowszechnianiem się modeli SI ze zdolnością do refleksji, możemy spodziewać się znaczących ulepszeń w generowanym przez SI kodzie i innych złożonych zadaniach. Dzięki możliwości iteracyjnego ulepszania własnej pracy modele SI staną się bardziej wydajne i skuteczne w rozwiązywaniu problemów i generowaniu rozwiązań.
Jest niezwykle ważne, abyśmy my, jako ludzie, zastanowili się nad postępami, które czynimy w dziedzinie SI, i rozważyli kierunek, w którym chcemy ją rozwijać. Ten przełom w rozumowaniu SI to dopiero początek i nie ma wątpliwości, że czekają nas jeszcze bardziej ekscytujące osiągnięcia.
Wideo od Prompt Engineering
Bibliografia:
- Artykuł o Refleksji: https://arxiv.org/pdf/2303.11366.pdf
- Blogpost „Reflecting on Reflexion”: https://nanothoughts.substack.com/p/reflecting-on-reflexion
- Artykuł o HotpotQA: https://arxiv.org/pdf/1809.09600.pdf
- Artykuł o Alfworld: https://arxiv.org/pdf/2010.03768.pdf
- AutoGPT: https://github.com/Torantulino/Auto-GPT
- HumanEval: https://arxiv.org/pdf/2107.03374.pdf