成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

智能體的「一方有難八方支援」,一種分布式AI計算新范式誕生了

人工智能 新聞
在今天介紹的這篇論文中,來自 Salesforce Research 的研究者認為,隨著任務復雜度的增加,特別是在開放域環境中,協調多個 agent 來完成一項任務會更好。

最近大型語言模型(LLM)的成功促使越來越多的人探索通過它解決各種復雜的任務,其中 LLM 增強的自主 agent(LAA)尤為引人矚目。LLA 將 LLM 的智能擴展到了順序動作執行中,在通過收集觀察結果與環境交互并解決復雜任務方面展現出了優越性能。這類代表性工作有 BabyAGI、AutoGPT3、ReAct、Langchain 等。

但這些探索可能還不夠,主要在以下三個方面存在局限:

首先,最優 agent 架構尚未確定。以 ReAct 為例,它向 agent 提示預定義的樣本,LLM 學會通過上下文學習生成下一步動作。此外,ReAct 認為一個 agent 在動作執行之前應有中間推理步驟。

其次,現有 LAA 中 LLM 能否發揮多大功效,目前并沒有全面的了解?,F在的初步工作只比較了一些 LLM 骨干的性能,比如 ReAct 將 PaLM 作為骨干 LLM,ReWOO 則將 OpenAI 的 text-davinci-003 模型作為 agent 規劃的指令調優 Alpaca 模型。同時目前很少有工作全面比較使用不同預訓練 LLM 的 LAA 性能。最近雖有一些工作發布了評估 LLM 作為 agent 的基準,但未能共同考慮 agent 架構和它們的 LLM 骨干。

最后,越來越復雜的任務可能需要多個 agent 共同發揮作用。比如 ReWOO 最近發現將推理從觀察中解耦出來可以提升 LAA 的效率。

在今天介紹的這篇論文中,來自 Salesforce Research 的研究者認為,隨著任務復雜度的增加,特別是在開放域環境中,協調多個 agent 來完成一項任務會更好。舉例而言, 對于網頁導航任務,我們可以使用一個點擊 agent 來與點擊按鈕進行交互,并請求另一個搜索智能體來檢索其他資源。

圖片

論文鏈接:https://arxiv.org/pdf/2308.05960.pdf

研究者建議全面比較 LAA 的性能,并深入探索了 LAA 的 agent 架構和 LLM 骨干。具體地講,他們基于現有環境構建了 agent 基準,從而評估建構在不同 LLM 骨干之上的不同 agent 架構的性能。該 agent 基準中的任務還劃分了不同的復雜程度,使得 agent 性能與任務復雜度的關聯分析成為可能。

此外,這些 agent 架構在設計上旨在廣泛驗證現有的設計選擇。關于多個 LAA 的編排,研究者提出了一種新穎的架構 BOLAA,它在多個協作 agent 之上有一個控制器模塊,用于多個分工 LAA 的選擇和通信。

本文的貢獻主要體現在以下幾個方面:

  • 開發了 6 種不同的 LAA agent 架構,并將這些架構與不同骨干 LLM 結合,從而在提示、自我思考和規劃中驗證 LAA 的設計直覺。同時開發了用于編排多 agent 策略的架構 BOLAA,增加了單體 agent 的動作交互能力;
  • 在決策制定網頁導航環境和知識推理任務環境中進行廣泛實驗,報告了最終稀疏獎勵和中間召回方面的性能,這為 LAA 及其兼容的 LLM 的最優選擇提供了定性指示;
  • 結果顯示,與其他 LAA 架構相比,BOLAA 在 WebShop 環境中始終取得了最佳性能。這些表明了在解決復雜任務時多個專業 agent 的協作至關重要,可以說應該與訓練具有強泛化能力的大型 LLM 同等重要。

愛丁堡大學博士生符堯認為,這項工作揭示了一種新的分布式計算范式:分布式 AI 計算。在傳統分布式計算中,每個節點處理部分任務;同樣在分布式 AI 計算中,一個 agent 就變成了處理部分任務的節點。

圖片

Agent 架構

在這部分,研究者比較了不同的 LAA 架構。他們首先展示了如何基于現有工作的直覺來設計不同的單體 LAA,然后展示了多個 LAA 的編碼設計,即 BOLAA。

每種類型的 LAA 都能夠通過自己的交互策略與環境交互。常見的 agent 類型包括:

  • Zeroshot LAA
  • ZeroshotThink LAA
  • ReAct LAA
  • PlanAct LAA
  • PlanReAct LAA

圖片

圖片

BOLAA:協調多個 agent

盡管現有的 LLM 在完成各種語言理解任務方面取得了成功,但仍有許多問題尚未得到充分探討,如上下文長度限制、上下文內學習和泛化能力等。因此,采用單體 LAA 來完成所有任務具有挑戰性,尤其是在任務復雜度較高的情況下。研究者因此提出了一種新的 agent 架構,用于協調多個 LAA。

圖片

如圖 3 所示,BOLAA 有兩個主要模塊,即分工 agent 池和控制器。

分工 agent 池管理多個 LAA,每個 LAA 可能只專注于生成一種類型的執行。例如在網絡導航環境中,可以建立點擊 LAA 和搜索 LAA。這樣,前者只生成下一個點擊按鈕,而后者只輸出搜索查詢,從而將復雜的任務劃分為可行的任務。控制器的設計目的是從 agent 池中有選擇地調用 LAA。

控制器有一個 agent 選擇層,用于選擇最相關的 LAA 進行調用。然后,控制器為選定的 LAA 構建信息并建立通信。從分工 LAA 獲得響應后,控制器將其解析為可執行的操作,然后與環境交互。

請注意,也可以將這些分工 LAA 設計為思考 / 計劃 agent。這樣,自我思考和規劃工作流也會被保留下來。

實驗結果

研究者從兩個環境中構建了評估基準,WebShop 和 HotPotQA 以及維基百科 API 的用例。

關于評估指標,研究者使用每個環境中的獎勵得分來評估 LAA 性能。在 WebShop 環境中,獎勵被定義為購買商品與 ground-truth 商品之間的屬性重疊率。在 HotPotQA 環境中,獎勵被定義為 agent 答案與 ground-truth 答案之間的 F1 分數分級。

此外,研究者為 WebShop 環境開發了召回性能,如果在一個任務會話中檢索到 ground-truth 項目,召回性能定義為 1;如果沒有檢索到地面實況項目,召回性能定義為 0。召回率以 WebShop 環境中所有任務的平均召回分數來報告。

決策模擬

研究者比較了 WebShop 環境中 LAA 的決策性能。下表 1 列出了平均獎勵方面的表現。Agent 提示是根據不同 LLM 模型的最大上下文長度構建的。關于 BOLAA,研究者設計了一個搜索 LAA 和一個點擊 LAA,分別生成搜索查詢和點擊元素。觀察結果如下:

圖片

圖片

  • 與其他 LAA 架構相比,BOLAA 的性能最佳,尤其是在高性能 LLM 上構建時。
  • 將 LLM 與最佳 LAA 架構配對至關重要。
  • 強大的 LLM 能夠在 Zeroshot LAA arch 下進行泛化。
  • 當 Agent 基于開源 LLM 構建時,規劃流通常可以提高性能。

知識推理模擬

隨后,研究者在 HotPotQA 環境中進行了基準測試,以評估 LAA 的多步驟推理能力。由于在該環境中,可用的搜索、查找和完成運算都與知識推理有關,很難分開,因此他們將 BOLAA arch 留待此后工作中使用,只比較其他 agent arch 的性能。結果如下表 3 所示:

圖片

總體來說,ReAct agent 引擎的性能最好,這可以從幾個方面來解釋。

首先,少樣本提示對于 LAA 的行為生成和推理能力是必要的,尤其是在使用較小規模語言模型進行實驗時。其次,通過比較 ReAct、PlanAct 和 PlanReAct,可以得出結論:LAA 的規劃流阻礙了其在知識推理環境和任務中的表現。原因在于,知識推理任務需要上下文信息來進行推理,而規劃流是在交互之前執行的。因此,這些生成的規劃往往會導致 LAA 產生更多幻覺。第三,在知識推理任務中,模型大小比上下文長度更重要。大型模型的推理能力更強,因此表現更好。

此外,OpenAI gpt-3.5 模型的卓越推理能力再次得到驗證。研究者還觀察到 Llama2-70b 在所有開源 LLM 中表現最佳,這表明 Llama-2 模型未來可能會進行微調。

在比較了 LAA 和 LLM 的總體性能之后,研究者對它們在任務復雜度方面的性能進行了更詳細的研究,結果如下圖所示:

圖片

圖片

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2011-11-08 09:44:48

云計算電子郵件數據中心

2010-05-13 09:56:58

統一通信領域

2010-04-22 23:18:59

負載均衡方案

2011-05-05 10:43:35

W1100W12001080p

2024-05-13 08:02:10

PostgreSQLRedisson監控

2017-12-05 14:55:56

2019-08-27 07:40:47

2024-09-27 08:00:00

2020-05-08 10:20:35

人工智能神經網絡技術

2021-05-17 09:32:18

分布式存儲問題數據

2024-02-19 14:58:34

編程范式開發

2024-01-24 09:14:27

編程范式數據

2023-09-01 11:41:48

人工智能機器學習

2023-05-25 11:13:03

CIOIT價值

2024-03-08 15:38:40

2013-07-22 10:28:00

大數據谷歌亞馬遜

2014-06-18 10:40:51

2025-05-20 07:00:00

自主式AI智能體大型語言模型

2015-12-08 16:21:15

寶利明威企業移動管理

2022-05-06 15:56:01

開源物聯網邊緣計算
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本一区二区三区四区 | 亚洲欧美一区二区三区国产精品 | 久久久久久成人 | 电影91久久久 | 五月婷婷色 | 国产精品久久久久久久免费大片 | 六月色婷| 九九综合九九 | 亚洲 中文 欧美 日韩 在线观看 | 一区二区三区视频 | 狠狠亚洲 | 日韩喷潮 | 91在线看 | 人人人人干 | 亚洲精品久久久久久国产精华液 | 免费看av大片 | 精品久久九九 | 亚洲午夜精品在线观看 | 亚洲在线| 99免费在线观看视频 | 国产日韩视频 | 草草视频在线观看 | av片在线播放 | av福利网站| 亚洲一区高清 | 久久综合婷婷 | 在线观看免费福利 | 91在线视频观看 | 亚洲一区在线日韩在线深爱 | 日韩亚洲一区二区 | 欧美1区 | www.99久久.com | 婷婷久久五月 | 91精品国产色综合久久不卡98 | 亚洲一区在线播放 | 久久久久久国产精品免费免费 | 日韩综合在线 | av一区二区在线观看 | 欧美一区二区大片 | 99精品国产一区二区三区 | 色资源站 |