一次示范讓Agent適應各種新環境，浙大杭電智能體框架入選NeurIPS

2024-11-29 13:58:49

Builder首先需要分析并確定主要錯誤的來源為“Imperfect Rules”或“Imperfect Agents”，然后相應的針對性的提示會指導Builder進行規則管理。

只需一次人類示范，就能讓智能體適應新環境？

來自杭州電子科技大學和浙江大學的研究者，提出了一套新的智能體框架AutoManual。

該研究有效解決了智能體過度依賴人類專家提供的知識，難以自主適應新環境的問題。

圖片

通過模仿人類認識世界“記筆記”的過程，AutoManual可以讓智能體執行任務成功率高達97%。

不僅如此，智能體在過程中學習的經驗還可以供人類閱讀，甚至給其他智能體提供規劃指導。

現有智能體對人類依賴較大

目前，基于大語言模型的智能體（LLM Agents）展現出強大的潛力，能夠自主完成各個領域的任務，如機器人規劃、游戲角色控制與網站導航。

AgentBench: Evaluating LLMs as Agents.Xiao Liu (TH

然而，這些智能體往往是為特定環境和特定任務設計的。

如果我們分析一個 LLM Agent 的系統提示詞（System Prompts），會發現它通常由這五個部分組成：

對于新的環境，其中的前三項可以根據新環境對已有模板做調整后很快速地定義好；

但對于后兩項提示詞，會需要人工匯總環境知識，并不斷調試這些提示，以及準備多個人類專家示例，才能使 LLM Agent在新環境中順暢運行。

那么，是否能讓智能體自己從環境交互中學習這些知識呢？

已有的一些工作使用自我反思self-reflection或技能庫skill library，來讓智能體在交互中自我提升，部分緩解了對人工的依賴。

然而，這些反思和技能并沒有用于對環境形成深入的理解，即理解環境的知識或機制。

因此，直接使用經驗中的技能來作為大模型的上下文示例，容易形成路徑依賴。

AutoManual框架有效地解決這一難題，其研究者從人類認識世界的過程中獲取了靈感——

當面對陌生的環境時，人類會通過探索發現、記錄與更新自身的理解來逐漸認識到新環境的規律；

而且，人類可以將自己的理解整理出來，以文本的方式傳授給他人。

AutoManual就效仿了這種過程來記錄和更新LLM Agent對環境的理解。

最終，AutoManual框架將生成的一本指導手冊，不僅可以提高智能體對新環境的適應性，還可以為較小的模型的規劃提供指導，并且易于人類閱讀。

僅需一個人類演示，AutoManual便在機器人規劃環境ALFWorld將智能體的成功率提高到97%，在網站導航環境MiniWoB++上的任務成功率則達到98%。

具體來說，AutoManual 框架整體由三個階段組成：

Building階段：Planner Agent與Builder Agent合作從環境的交互中構建出一系列的規則。當規則超過最大限制時，Consolidator Agent將合并或刪除冗余的規則；
Formulating階段：Formulator Agent將規則制定成一個Markdown格式的指導手冊；
Testing階段：將指導手冊提供給測試時的Planner Agent，來評估效果。

△AutoManual框架總覽