Agent Q:具備自我學習、評估的智能體
GPT-4、Gemini等大模型在自然語言處理任務中取得了進步,但在交互式、多步驟環境中的泛化能力仍有欠缺。例如,當我們在網上購買一件特定的商品時,需要在眾多網頁中進行搜索、比較和選擇。
AGI平臺MultiOn和斯坦福的研究人員聯合開發了一種智能體Agent Q,能自主規劃、推理一些任務。Agent Q與其他智能體最大差別的是,它能從失敗和成功的任務中自動學習、評估,從而提高在復雜多步驟推理任務中的泛化能力。
論文地址:https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
Agent Q框架采用了蒙特卡洛樹搜索(MCTS)算法來指導智能體的探索和決策過程。
MCTS是一種啟發式搜索算法,廣泛應用于游戲和決策領域,通過模擬可能的未來路徑來評估和選擇最優的行動策略。
在Agent Q中,MCTS用于在網頁環境中導航,幫助智能體在每一步選擇最有希望的動作。這一過程涉及選擇、擴展、模擬和反向傳播四個階段,通過迭代地優化搜索樹來提高策略的性能。
MCTS算法在復雜環境中面臨的一大挑戰是環境獎勵的稀疏性,可能會導致智能體在長期任務中遇到困難。
為了解決這個難題,Agent Q引入了自我批評機制,這是一種自我評估過程,智能體在每個決策節點上使用自身的評估來提供中間獎勵。這不僅幫助智能體在搜索過程中進行自我監督,而且通過提供即時反饋能指導智能體學習正確的規劃路徑。
Agent Q的自我批評機制依賴于一個反饋語言模型,該模型對智能體在每個節點上可能采取的動作進行評分,從而形成一個加權分數。
這個分數結合了MCTS的平均Q值和反饋語言模型生成的分數,用于構建直接偏好優化(DPO)算法中的對比對。DPO算法是一種離線強化學習算法,通過比較不同動作的偏好來優化策略,使得智能體能夠從成功的和不成功的軌跡中學習。
Agent Q框架的另一個特色模塊是“迭代式微調”,也是實現自我學習的關鍵所在。在迭代中,智能體通過與環境的交互不斷學習和改進。與傳統的監督學習不同,迭代式微調允許智能體在沒有明確標簽的環境下進行學習,通過自我生成的數據和偏好對來指導優化過程。
此外,Agent Q框架還考慮了智能體的狀態表示問題。在網絡交互中,智能體的狀態可能部分不可觀察,因此構建一個有效的狀態表示對于智能體的性能至關重要。Agent Q采用了一種緊湊的歷史表示方法,將智能體迄今為止生成的動作和當前瀏覽器狀態結合起來,形成了一個高效的內存組件。
為了測試Agent Q的性能,研究人員在一種模擬電子商務平臺WebShop進行了綜合測試。實驗結果顯示,Agent Q的表現顯著優于行為克隆和強化學習微調的基線模型,在某些任務中甚至超過了平均人類表現。
尤其是在真實世界的預訂場景中,Agent Q將Llama-3 70B模型的零樣本成功率從18.6%提升至81.7%,相對提升了340%,并在配備在線搜索功能后,成功率進一步提高到了95.4%。
本文轉自 AIGC開放社區 ,作者:AIGC開放社區
