Мир искусственного интеллекта постоянно развивается, и недавний прорыв в исследованиях ИИ вывел ситуацию на новый уровень. В новой научной работе представлена концепция «Рефлексии» — автономного агента с динамической памятью и способностью к самоанализу, что позволяет моделям ИИ учиться на собственных ошибках и со временем совершенствоваться. Эта разработка наделяет модели ИИ способностями к рассуждению, подобными человеческим, и обещает значительное повышение производительности.

Что такое Рефлексия и Почему это Важно?
Одним из самых больших недостатков современных моделей ИИ является их неспособность учиться на своих ошибках. «Рефлексия» решает эту проблему, предоставляя агенту динамическую память и способность к самоанализу, усиливая их существующие способности к рассуждению, отслеживанию и выбору действий для конкретной задачи. Проще говоря, теперь модель может запоминать предпринятые действия, анализировать их и исправлять свои ошибки.
Замечательно в этом подходе то, что он не ограничивается моделями GPT-4; он может работать с любой большой языковой моделью без необходимости дополнительной настройки. Модель рефлексии просто оценивает функцию вознаграждения и корректирует действие, которое необходимо предпринять исходной большой языковой модели, что значительно повышает производительность.
Оригинальная Научная Работа о Рефлексии
В оригинальной научной работе о рефлексии представлены результаты на двух разных наборах данных, демонстрирующие ее способность к рассуждению:
- Hotpot QA: набор данных для разнообразных, объяснимых многошаговых ответов на вопросы, требующий от языковой модели рассуждений на основе нескольких документов.
- ELF World: согласование текста и воплощенных сред для интерактивного обучения, объединение текстовых входных и выходных данных с физическим миром, позволяющее модели взаимодействовать с физическим миром, используя текстовые запросы.
Добавление рефлексии к этим моделям привело к значительному повышению производительности без необходимости дополнительной настройки.
Развеивание Заблуждений Относительно Научной Работы
Многие ошибочно полагают, что в работе используется GPT-4, но на самом деле в ней применяются GPT-3 и 3.5 (ChatGPT). Это различие важно, поскольку оно открывает возможность объединения рефлексии с Auto GPT, позволяя моделям ИИ изменять задачи на лету, обеспечивая подлинный интеллект.
Рефлексия в Действии: Пример
В задаче Hotpot QA модели нужно было найти имя актера, наиболее известного по роли в определенном сериале. После первоначальной неудачной попытки модель использовала рефлексию, чтобы определить ошибку в своей стратегии поиска, исправить ее и в конечном итоге найти правильный ответ. Именно так поступил бы человек, столкнувшись с проблемой: размышляя над своими ошибками и соответствующим образом корректируя свою стратегию.
Ограничения и Решение Ситуаций без Однозначной Истины
Одним из основных ограничений научной работы является то, что для работы требуется «истина в последней инстанции» (ground truth). Однако во многих реальных ситуациях не существует однозначной «истины в последней инстанции» или единственного оптимального решения. Авторы работы предлагают метод, который имитирует процесс решения проблем человеком, создавая внутренний набор тестов на основе своего понимания, а затем корректируя решения до тех пор, пока они не удовлетворят большинство тестов.
Перенося «узкое место» точности с правильной генерации синтаксически и семантически верного кода на правильную генерацию синтаксически и семантически верных тестов, модель может достичь более высоких показателей точности.
Будущее ИИ и Рефлексия
По мере того, как модели ИИ со способностями к рефлексии будут получать все большее распространение, мы можем ожидать значительного улучшения в создании кода, генерируемого ИИ, и в решении других сложных задач. Благодаря способности итеративно улучшать свою собственную работу, модели ИИ станут более эффективными и действенными в решении проблем и генерации решений.
Нам, как людям, важно размышлять о достижениях, которых мы добиваемся в области ИИ, и задумываться о том, в каком направлении мы хотим двигаться. Этот прорыв в рассуждениях ИИ — только начало, и нет сомнений, что впереди нас ждут еще более захватывающие достижения.
Видео от Prompt Engineering
Ссылки:
- Научная работа о Reflexion: https://arxiv.org/pdf/2303.11366.pdf
- Блогпост «Reflecting on Reflexion»: https://nanothoughts.substack.com/p/reflecting-on-reflexion
- Научная работа о HotpotQA: https://arxiv.org/pdf/1809.09600.pdf
- Научная работа о Alfworld: https://arxiv.org/pdf/2010.03768.pdf
- AutoGPT: https://github.com/Torantulino/Auto-GPT
- HumanEval: https://arxiv.org/pdf/2107.03374.pdf