AI智能體的炒作與現實:GPT-4都撐不起,現實任務成功率不到15%
隨著大語言模型的不斷進化與自我革新,性能、準確度、穩定性都有了大幅的提升,這已經被各個基準問題集驗證過了。
但是,對于現有版本的 LLM 來說,它們的綜合能力似乎并不能完全支撐得起 AI 智能體。
多模態、多任務、多領域儼然已成為 AI 智能體在公共傳媒空間內的必須要求,但是在具體的功能實踐中所展現的真實效果卻差強人意,這似乎也再次提醒各個 AI 智能體初創公司以及大型科技巨頭認清現實:腳踏實地一點,先別把攤子鋪得太大,從 AI 增強功能開始做起。
近日,一篇就 AI 智能體在宣傳和真實表現上的差距而撰寫的博客中,強調了一個觀點:「AI 智能體在宣傳上是個巨人,而現實卻很不妙。」
不可否認的是,自主 AI 智能體能夠執行復雜任務的前景已經引起極大的興奮。通過與外部工具和功能的交互,LLMs 可以在沒有人為干預的情況下完成多步驟的工作流程。
但現實證明,這比預期的要更具挑戰性。
WebArena 排行榜(一個真實可復現的網絡環境,用于評估實用智能體的性能)對 LLM 智能體在現實任務中的表現進行了基準測試,結果顯示即使是表現最好的模型,成功率也只有 35.8%。
WebArena 排行榜對 LLM 智能體在現實任務中的表現進行的基準測試結果:SteP 模型在成功率指標上表現最為良好,達到了 35.8%,而知名的 GPT-4 的成功率僅達到了 14.9%。
什么是 AI 智能體?
「AI 智能體」這個術語并沒有真正被定義,對智能體究竟是什么也存在很多的爭議。
AI 智能體可以定義為「一個被賦予行動能力的 LLM(通常在 RAG 環境中進行函數調用),以便在環境中對如何執行任務做出高層次的決策。」
當前,構建 AI 智能體主要有以下兩種架構方法:
- 單一智能體:一個大型模型處理整個任務,并基于其全面的上下文理解做出所有決策和行動。這種方法利用了大型模型的涌現能力,避免了將任務分解所帶來的信息丟失。
- 多智能體系統:將任務分解為子任務,每個子任務由一個更小、更專業的智能體處理。與嘗試使用一個難以控制和測試的大型通用智能體相比,人們可以使用許多更小的智能體來為特定子任務選擇正確的策略。由于上下文窗口長度的限制或不同技能組合的需要等實際約束,這種方法有時是必要的。
理論上,具有無限上下文長度和完美注意力的單一智能體是理想的。由于上下文較短,在特定問題上,多智能體系統總是比單一系統效果差。
實踐中的挑戰
在見證了許多 AI 智能體的嘗試之后,作者認為它們目前仍為時過早、成本過高、速度過慢且不夠可靠。許多 AI 智能體初創公司似乎在等待一個模型突破,以開啟智能體產品化的競賽。
AI 智能體在實際運用中的表現并不夠成熟,這體現在輸出不精確、性能差強人意、成本較高、賠償風險、無法獲得用戶信任等問題:
- 可靠性:眾所周知,LLMs 容易產生幻覺和不一致性。將多個 AI 步驟連接起來會加劇這些問題,尤其是對于需要精確輸出的任務。
- 性能和成本:GPT-4、Gemini-1.5 和 Claude Opus 在使用工具 / 函數調用方面表現不錯,但它們仍然較慢且成本高,特別是如果需要進行循環和自動重試時。
- 法律問題:公司可能需要對其智能體的錯誤負責。最近的一個例子是,加拿大航空被命令向一位被航空公司聊天機器人誤導的客戶賠償。
- 用戶信任:AI 智能體的「黑箱」性質以及類似示例使得用戶難以理解和信任其輸出。在涉及支付或個人信息的敏感任務中(如支付賬單、購物等),贏得用戶信任將會很困難。
現實世界中的嘗試
目前,以下幾家初創公司正在涉足 AI 智能體領域,但大多數仍處于實驗階段或僅限邀請使用:
- adept.ai - 融資 3.5 億美元,但訪問權限仍然非常有限。
- MultiOn - 融資情況未知,他們的 API 優先方法看起來很有前景。
- HypeWrite - 融資 280 萬美元,起初是一個 AI 寫作助手,后來擴展到智能體領域。
- minion.ai - 最初引起了一些關注,但現在已經沉寂,僅有等候名單。
它們中似乎只有 MultiOn 在追求「給出指令并觀察其執行」的方法,這與 AI 智能體的承諾更為一致。
其他所有公司都在走記錄和重放的 RPA(record-and-replay)路線,這在現階段可能是為保證可靠性所必需的。
同時,一些大公司也在將 AI 功能帶到桌面和瀏覽器,并且看起來將會在系統層面上獲得本地的 AI 集成。
OpenAI 宣布了他們的 Mac 桌面應用程序,可以與操作系統屏幕互動。
在 Google I/O 大會上,Google 演示了 Gemini 自動處理購物退貨。
微軟宣布了 Copilot Studio,它將允許開發人員構建 AI 智能體機器人。
這些技術演示令人印象深刻,人們可以拭目以待這些智能體功能在公開發布并在真實場景中測試時的表現,而不是僅限于精心挑選的演示案例。
AI 智能體將走向哪條路?
作者強調:「AI 智能體被過度炒作了,大多數還沒有準備好用于關鍵任務。」
然而,隨著基礎模型和架構迅速進步,他表示人們仍可以期待看到更多成功的實際應用。
AI 智能體最有前途的前進道路可能是這樣的:
- 近期的重點應放在利用 AI 增強現有工具,而不是提供廣泛的全自主獨立服務。
- 人機協同的方法,讓人類參與監督和處理邊緣案例。
- 根據當前的能力和局限,設定不脫離現實的期望。
通過結合嚴格約束的 LLMs、良好的評估數據、人機協同監督和傳統工程方法,就可以在自動化等復雜任務方面實現可靠且良好的結果。
對于 AI 智能體是否會自動化乏味重復的工作,例如網絡抓取、填表和數據錄入?
作者:「是的,絕對會。」
那 AI 智能體是否會在沒有人們干預的情況下自動預訂假期?
作者:「至少在近期內不太可能。」