人工智慧領域不斷發展,近期一項人工智慧研究的突破將技術提升到了一個新的層次。一篇新的論文介紹了「Reflection」,這是一種具有動態記憶和自我反思能力的自主代理,使人工智慧模型能夠從自身錯誤中學習並隨著時間推移而改進。這項發展賦予了人工智慧模型類似人類的推理能力,並有望顯著提升效能。

什麼是 Reflection?為什麼它如此重要?
目前人工智慧模型最大的弱點之一是它們無法從錯誤中學習。「Reflection」透過賦予代理動態記憶和自我反思能力來解決這個問題,從而增強它們現有的推理、追蹤和特定任務的行動選擇能力。簡單來說,模型現在可以記住它所採取的行動,回顧這些行動,並糾正其錯誤。
這種方法最棒的地方在於它不限於 GPT-4 模型;它可以與任何大型語言模型一起使用,而無需進行微調。Reflection 模型只需評估獎勵函數,並更新原始大型語言模型需要採取的行動,從而大幅提升效能。
最初的 Reflection 論文
最初的 Reflection 論文展示了在兩個不同資料集上的結果,展現了其推理能力:
- Hotpot QA:一個用於多樣化、可解釋的多跳問答的資料集,要求語言模型透過多個文檔進行推理。
- ELF World:對齊文本和具身環境以進行互動式學習,將文本輸入和輸出與物理世界結合,允許模型使用文本提示與物理世界互動。
將 Reflection 添加到這些模型中,無需進行微調即可顯著提高效能。
消除關於論文的誤解
許多人錯誤地認為該論文使用了 GPT-4,但實際上它使用的是 GPT-3 和 3.5 (ChatGPT)。這種區別意義重大,因為它開啟了將 Reflection 與 Auto GPT 結合的可能性,使人工智慧模型能夠即時修改任務,從而提供真正的智慧。
Reflection 的實際應用:一個範例
在 Hotpot QA 任務中,模型需要找到一位以特定節目中的角色而聞名的演員姓名。在最初的嘗試失敗後,模型使用 Reflection 來識別其搜尋策略中的錯誤,糾正錯誤,並最終找到正確的答案。這正是人類解決問題的方式,反思自己的錯誤並相應地調整策略。
局限性以及處理沒有明確標準答案的情況
該論文的一個主要局限性是它需要標準答案才能運作。然而,在許多現實世界的情況中,沒有明確的標準答案或單一的最佳解決方案。論文的作者提出了一種模仿人類解決問題的方法,根據他們的理解創建一個內部測試套件,然後調整解決方案,直到它們滿足大多數測試。
通過將準確性瓶頸從正確的語法和語義程式碼生成轉移到正確的語法和語義測試生成,模型可以實現更高的準確性。
人工智慧與 Reflection 的未來
隨著具有 Reflection 能力的人工智慧模型變得更加普及,我們可以預期看到人工智慧生成的程式碼和其他複雜任務的顯著改進。憑藉迭代改進自身工作的能力,人工智慧模型將在解決問題和產生解決方案方面變得更加高效和有效。
作為人類,反思我們在人工智慧領域取得的發展,並思考我們希望將其引導至哪個方向至關重要。人工智慧推理方面的這項突破僅僅是個開始,毫無疑問,未來還會有更多令人興奮的進展。
Prompt Engineering 製作的影片
參考文獻:
- Reflexion 論文: https://arxiv.org/pdf/2303.11366.pdf
- Reflecting on Reflexion 部落格文章: https://nanothoughts.substack.com/p/reflecting-on-reflexion
- HotpotQA 論文: https://arxiv.org/pdf/1809.09600.pdf
- Alfworld 論文: https://arxiv.org/pdf/2010.03768.pdf
- AutoGPT: https://github.com/Torantulino/Auto-GPT
- HumanEval: https://arxiv.org/pdf/2107.03374.pdf