成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力

發布于 2024-3-28 13:54
瀏覽
0收藏

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

論文標題:

PreAct: Predicting Future in ReAct Enhances Agent’s Planning Ability

論文鏈接:

??https://arxiv.org/abs/2402.11534??

代碼鏈接:

??https://github.com/Fu-Dayuan/PreAct??

01 概述

1.1 背景

大語言模型(LLM)已顯示出一定的規劃和決策能力。利用這種能力,ReAct 將環境信息和智能體(Agent)可執行的行動提供給大語言模型,就可以利用它確定當前狀態下需要執行的行動。

然而,ReAct 系統通常生成單一、直接的因果推理路徑,這限制了它在具有復雜因果關系的任務中的有效性。以 TOT、GOT 和 RAP 為代表的一系列推理指導范式,它們允許在每一步生成多種可能的行動,并根據多個環境反饋結果和選擇策略決定下一步路徑。

雖然這種方法提高了 agent 處理復雜因果關系的能力,但在真實世界的場景中,在同一情況下執行多個行動往往是不現實的。所以需要一種在每輪中僅生成一種行動但能夠處理多樣、復雜推理的智能體框架。

1.2 動機

處理預測與實際結果之間的差異往往有助于人們擴展思維過程和進行反思,從而促進推理朝著正確的方向發展。受科學研究的過程和任務導向對話中有關預測未來的研究成果的啟發,我們提出了一個將預測、推理和行動融為一體的 agent 推理框架——PreAct。

利用預測提供的信息,基于大語言模型的 agent 可以提供更多樣化、更具戰略導向性的推理,進而產生更有效的行動,幫助 agent 完成復雜的任務。

1.3 效果

我們在 AgentBench 中的 HH、OS、DB、LTP 等數據集上進行了大量的實驗,實驗表明 PreAct 在完成復雜任務方面優于 ReAct 方法,且可以與 Reflexion 結合,進一步增強 agent 的推理能力。

我們用不同數量的歷史預測對模型進行提示,發現歷史預測對 LLM 規劃有持續的正向影響。PreAct 和 ReAct 在單步推理上的差異表明,PreAct 在多樣性和戰略方向性方面確實比 ReAct 更有優勢。

02 方法

2.1 前置知識

2.1.1 Agent與Enviroment


動作  和觀察結果  構成了 agent 與環境交互的過程。對于處于步驟  的代理, agent 將根據歷史信息 、上次觀察結果  及其行動策略  采取動作。

決定要采取的動作后,agent 將在環境中執行動作,并通過環境策略  獲得新的觀察結果。對于 LLM 代理來說,它只能控制  和  的構建。因此,LLM agent 的目標就是設計出高效的  和 。


2.1.2 ReAct


ReAct 是一項面向 LLM agent 的開創性工作,它結合了思考 、行動  和觀察 。ReAct 使用  作為  和一組  作為 。利用 LLM 的規劃能力,ReAct agent可以探索環境并逐步解決問題。


2.1.3 Reflexion


Reflexion 是一種長時記憶策略,用于提高 agent 中  的質量。以 ReAct 的 Reflexion 為例,如果任務失敗,LLM 會被要求進行反思,比如 。一旦進行了反思, 就會更新為 。這種策略可以提示 LLM 一些信息,幫助它避免一些決策錯誤。


2.2 PreAct

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區


PreAct 的框架如圖 1 所示。它與 ReAct 有兩點不同:對于  部分,PreAct 會在每一步中要求 LLM 生成對未來觀察的預測和相應的應對措施 ,并根據預測觀察與實際觀測之間的差異提示 LLM 反思或改變其計劃方向。


通過這種提示,可以提高 LLM 所做計劃的多樣性和策略導向性。對于  部分,PreAct 會在其中添加對未來觀察的預測。雖然 PreAct 提高了 LLM 的思考和計劃能力,但還有兩個問題有待探究:


(1)PreAct 是否能與 Reflexion 結合使用并進一步提升效果?

(2)預測的效果是永久性的,還是只能影響下一輪?


基于這兩個問題,我們考慮了 3 種  模式:


1. 永久模式:所有預測都將保留在永久歷史中,如:

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

2. 即時模式: 只有最后一次預測會保留在即時歷史中,如:


簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

3. 反思模式:反射和所有預測都將保留在歷史記錄中,如:


簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

03 實驗

我們的實驗旨在解決以下研究問題(RQs)。

  1. 與 ReAct 相比,不同模式的 PreAct 在處理任務時是否表現得更好?
  2. PreAct 比 ReAct 能更好促進規劃的內在原因是什么?
  3. 歷史預測是否有助于持續提高規劃能力?

3.1 實驗設置

我們在 AgentBench 中的 HH、OS、DB 和 LTP4 4 個不同的子數據集上對 PreAct 進行了評估。我們使用 GPT3.5 和 GPT4 作為 agent 的 LLM。更多的實驗設置和所有提示詞都能在論文附錄中找到。

3.2 主要結果

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

表 1 列出了 PreAct 和 ReAct 在 Permanent 和 Reflexion 兩種不同設置下,在四個數據集上的性能表現。


在 HH 任務中,PreAct 比 ReAct 提高了約 20%。在 OS 和 DB 任務中,在 Permanent 設置下,PreAct 的平均性能相比 ReAct 分別提高了 12% 和 6%,在 Reflexion 設置下,Preact的性能相比同樣采取了 Reflexion 的 React 分別提高了 5% 和 8%。在 LTP 情景下,PreAct 的結果與僅 Act 的結果類似,這可能是由于 GPT 的安全機制導致其多次拒答,從而減少了有效的探索步驟。


總的來說,在大多數情況下,PreAct 都優于 ReAct,在某些指標上甚至超過了帶 Reflexion 的 React。此外,在 PreAct 的基礎上應用 Reflexion 還能持續提升模型性能。這表明,先驗任務信息和觀察預測可以共同提高 LLM 的規劃和決策能力。

3.3 內在原因分析

根據我們的假設,PreAct 可增強推理的多樣性和策略方向性,從而提高 LLM 的規劃能力。在本節中,我們將研究這兩個促進因素。


3.2.1 多樣性

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

圖 2 展示了 PreAct 和 ReAct 在 HH、OS 和 DB 數據集上的多樣性比較。我們向 GPT-4 輸入了兩條包含思考和行動的軌跡,要求它在 0 到 100 的范圍內對每條軌跡打分。


圖表顯示,在任何給定的數據集上,至少有 45% 的實例顯示出 PreAct 的推理多樣性優于 ReAct,而相反的情況則不超過 34%。這表明,使用 PreAct 可以顯著提高推理多樣性,從而擴大推理空間,拓寬可能行動的范圍。


3.2.2 策略方向性


我們選擇 Alfworld 任務來分析策略方向性。對于每條軌跡的每一輪,我們都向模型提供 ground truth、截至本輪次的所有思考和行動,同時去除所有預測。然后,我們要求 GPT-4 對其策略方向性進行評分,分數范圍為-1 ~ 3。策略方向性的評價指標如下:

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

其中, 為樣本, 為一輪思考和行動, 為評分器。如表 2 所示,PreAct 的策略方向性得分比 ReAct 高出至少 20%。這表明 PreAct 在確定規劃方向方面更勝一籌。

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

3.2.3 相關性研究

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

圖 5 顯示了在 HH 數據集上,多樣性、策略方向性和成功率之間的關系,揭示了成功率與這兩個指標之間的正相關關系。此外,策略方向性與成功率的相關系數分別為 99.8%(Dev)和 99.3%(Test),而多樣性與成功率的相關系數分別為 83.7%(Dev)和 91.2%(Test)。


3.2.4 案例分析

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

圖 3 顯示了 PreAct 和 ReAct 在 DB 和 HH 數據集上的部分軌跡。雖然 PreAct 和 ReAct 在這兩個數據集的初始執行階段都出現了錯誤,但 PreAct 可以借助預測糾正錯誤,而 ReAct 則不能。


在 DB 數據集中,ReAct 和 PreAct 在第一輪中都使用了相同的錯誤列名。PreAct 通過驗證實際列名糾正了這一錯誤,而 ReAct 則反復使用了錯誤的列名。Pre Act 對查詢和更正列名的考慮反映了其推理的多樣性。


在 HH 任務中,ReAct 檢查完冰箱后,與冰箱內的物體進行了互動,這與任務無關,而 PreAct 則預測到了 "冰箱內沒有生菜 "的條件,并根據 Pred 3 中的預測結果,指導其在其他地方找到生菜,最終完成了任務。這種重新考量生菜的可能位置而不是繼續在冰箱附近尋找的決定表明,PreAct 具有更好的策略方向性。


3.2.5 歷史預測影響范圍

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

圖 4 展示了不同數量的預測歷史對 LLM 推理性能的影響。在 HH、OS 和 DB 數據集上進行的實驗表明,增加預測歷史的保留量可以提高成功率。


以 PreAct(GPT4)為例,3 種設置下任務的成功率在 HH 中分別為 66%、70%、74%;在 OS 中分別為 40.9%、42.3%、43.1%;在 DB 中分別為 50%、51%、51.3%。這些發現表明,歷史預測對模型的推理能力有持續的正向影響。然而,在 LTP 數據集上,更多的歷史數據會導致更高的拒答概率,進而導致永久模式下的 Preact 性能下降。

04 結論

本文中,我們介紹了一個簡單卻有效的 agent 推理框架——PreAct,它利用預測來增強規劃的多樣性和策略方向性,從而提高 agent 完成任務的能力。這種增強是持續性的,它獨立于 Reflexion,并將隨著歷史預測的積累而不斷提高。基于 PreAct 的研究結果,我們提出了兩個評估規劃的指標,這可能有助于在未來的工作中為強化學習設置過程級的獎勵函數,以訓練出更強大的 agent。


本文轉自 PaperWeekly ,作者:黃健釗、傅大源


原文鏈接:??https://mp.weixin.qq.com/s/1R_0Q57_vu9uGr_3j0Ozwg??

已于2024-3-28 13:55:23修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 嫩草懂你的影院入口 | av一区二区三区四区 | 紧缚调教一区二区三区视频 | 国产精品久久久久久久久久久久午夜片 | 亚洲va欧美va天堂v国产综合 | 免费国产视频 | 欧美片网站免费 | 欧美一区二区三区精品免费 | 中文字幕在线视频网站 | 精品福利一区二区三区 | 懂色一区二区三区免费观看 | 成人免费视屏 | 国产在线视频一区二区 | 国产成人精品综合 | 欧美另类视频在线 | 国产一级片 | 久久亚洲一区 | 久久国产香蕉 | 日本手机看片 | 欧美成年网站 | 精品一区久久 | 99久久久久久99国产精品免 | 在线视频一区二区三区 | 精品国产乱码久久久久久牛牛 | 这里有精品 | 国产精品久久久久久久久久久久 | 久久91精品国产一区二区三区 | www.久草| 国产精品久久久久久久久久免费看 | 久久精品这里 | 成人欧美一区二区三区视频xxx | 亚洲欧美一区二区三区国产精品 | 懂色中文一区二区三区在线视频 | 精品久久香蕉国产线看观看亚洲 | 色男人天堂av | 久久88| 欧美精品一区三区 | 综合一区二区三区 | 欧美成人精品 | 蜜桃在线视频 | 欧美a级成人淫片免费看 |