人工智能领域日新月异,最近在人工智能研究领域的一项突破将技术提升到了新的水平。一篇新的论文介绍了一种名为“反思(Reflection)”的自主代理,它具有动态记忆和自我反思能力,使人工智能模型能够从自身错误中学习并在 समय推移中不断改进。这项发展赋予了人工智能模型类似人类的推理能力,并有望显著提升性能。

什么是“反思”?它为何如此重要?
当前人工智能模型最大的弱点之一是无法从错误中学习。“反思”通过赋予代理动态记忆和自我反思能力来解决这个问题,从而增强它们现有的推理、追踪和特定任务行动选择能力。简单来说,该模型现在可以记住它所采取的行动,回顾这些行动,并纠正自己的错误。
这种方法最棒的地方在于,它不局限于 GPT-4 模型;它可以与任何大型语言模型一起工作,而无需进行微调。“反思”模型只需评估奖励函数,并更新原始大型语言模型需要采取的行动,从而大幅提升性能。
最初的“反思”论文
最初的“反思”论文在两个不同的数据集上展示了结果,突显了其推理能力:
- Hotpot QA:一个用于多样化、可解释的多跳问答的数据集,要求语言模型对多个文档进行推理。
- ELF World:将文本和具身环境对齐以进行交互式学习,将文本输入和输出与物理世界相结合,使模型能够使用文本提示与物理世界互动。
在这些模型中加入“反思”功能后,性能得到了显著提升,且无需进行微调。
消除关于这篇论文的误解
许多人错误地认为这篇论文使用了 GPT-4,但实际上它使用的是 GPT-3 和 3.5 (ChatGPT)。这种区分非常重要,因为它开启了将“反思”与 Auto GPT 结合的可能性,使人工智能模型能够动态修改任务,从而实现真正的智能。
“反思”的实际应用:一个例子
在一个 Hotpot QA 任务中,模型需要找到一位因出演特定节目而闻名的演员的名字。在最初尝试失败后,模型使用“反思”来识别其搜索策略中的错误,纠正错误,并最终找到正确答案。这与人类解决问题的方式完全相同,即反思自己的错误并相应地调整策略。
局限性以及处理没有明确真值的情况
这篇论文的一个主要局限性是它需要真值才能工作。然而,在许多现实世界的情况下,没有明确的真值或单一的最优解决方案。该论文的作者提出了一种模仿人类解决问题的方法,即基于他们自己的理解创建一个内部测试套件,然后调整解决方案,直到它们满足大部分测试。
通过将准确性瓶颈从正确的句法和语义代码生成转移到正确的句法和语义测试生成,模型可以实现更高的准确率。
人工智能和“反思”的未来
随着具有“反思”能力的人工智能模型变得越来越普及,我们可以期待看到人工智能生成的代码和其他复杂任务的显著改进。凭借迭代改进自身工作的能力,人工智能模型将在解决问题和生成解决方案方面变得更加高效和有效。
作为人类,我们必须反思我们在人工智能方面取得的进展,并思考我们希望将其引向何方。人工智能推理的这项突破仅仅是一个开始,毫无疑问,未来还会有更多激动人心的进展。
Prompt Engineering 制作的视频
参考文献:
- Reflexion 论文:https://arxiv.org/pdf/2303.11366.pdf
- 关于 Reflexion 的思考 Blogpost:https://nanothoughts.substack.com/p/reflecting-on-reflexion
- HotpotQA 论文:https://arxiv.org/pdf/1809.09600.pdf
- Alfworld 论文:https://arxiv.org/pdf/2010.03768.pdf
- AutoGPT:https://github.com/Torantulino/Auto-GPT
- HumanEval:https://arxiv.org/pdf/2107.03374.pdf