成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

頂級AI智能體不會社交,創業遠不如人類!CMU等:最多完成24%任務

人工智能 新聞
智能體究竟能否應對現實世界的復雜性?The Agent Company近日提出了一項評估基準,讓多個智能體嘗試自主運營一個軟件公司。結果表明,即使是當前最先進的智能體,也無法自主完成大多數任務。

如今,基于大模型的智能體,已經能完成許多在幾年前還無法想象的任務,進步的速度是如此之快,以至于有些人甚至聲稱,在接下來的幾年內,大多數人類勞動可能都可以實現自動化。

然而近日CMU、杜克大學等機構發表的一項研究卻給這一期待潑了一盆涼水。

智能體運營公司還不可行

圖片

論文鏈接:https://arxiv.org/abs/2412.14161

該研究開發了一個全部由大模型驅動的智能體組成的虛擬軟件開發公司The Agent Company,與人類員工類似,智能體需要執行軟件開發、項目管理、財務分析等典型的商業環境中的任務。

圖片

智能體與環境互動,以及智能體間的協作以完成真實世界任務

智能體所用的環境完全基于開源軟件及主流的大模型接口,并可自行托管以實現可復現性。為了完成這些任務,智能體需要瀏覽網頁、編寫代碼,并與其他智能體同事互動。

智能體之間的交互模式也和真實世界的軟件公司十分類似,比如使用RocketChat向公司的其它成員發送消息,并獲取原始任務描述中可能未提及的信息。各智能體在交流中還被賦予了諸如姓名、職位、職責和項目隸屬關系等身份信息。

這項研究評估了當前幾種主流的大模型,包括Claude Sonnet 3.5、GPT-4o、Google的Gemini、Amazon的Nova,以及知名開源模型,包括Meta的Llama和Qwen2.5。

除了創建175個多樣化、真實、專業,且與真實公司運營模式一致的任務,這項研究還創建了不同任務對應的評估器,在每個任務中的多個階段設置檢查點。智能體每完成一步任務,都會獲得相應的積分(類似于現實員工的KPI);而當智能體只是部分正確地給出回答時,也會給予其部分過程分。

圖片

結果顯示,表現最好的是基于Claude Sonnet 3.5的智能體,然而它只能應對真實世界中24%的任務,在過程分上取得34.4%的得分。

排名第二的模型的任務完成比例更是只有11.4%,這與人們對大模型取代人類員工的預期還相距甚遠。

圖片

這個成績單中值得關注的是,開源模型Llama3.1和閉源的GPT-4o排名相近,這表明了開源模型在性能上已經十分逼近商用的閉源模型。

運營公司,AI比人類差在哪里

這項研究中有趣的一點是,可以讓我們看到智能體在無法完成任務時犯下的錯誤,而這些錯誤在人類身上是幾乎不會發生的。如果能得到解決,將有助于提升智能體在真實世界中的應用落地。

問題1:缺乏常識

某些任務失敗是因為,智能體缺乏進行隱含假設推理所需的常識和領域背景知識。

例如,一個任務要求智能體「將響應寫入/workspace/answer.docx」,但沒有明確指出這是一個Word文件。人類可以從文件擴展名推斷出這一要求,而智能體卻將其視為純文本文件,直接內容以文本形式寫入,導致任務失敗。

問題2:缺乏社交技巧

一項任務需要智能體向其它智能體尋求幫助,智能體首先成功提出了正確的問題:「你能告訴我,應該接下來向團隊中的誰請教這個問題嗎?」然后模擬同事Alex回答:「你應該向Bob請教。他在前端團隊,是一個很好的聯系人!」

之后若是人類,99.9%的人都會選擇去咨詢Bob相關問題,但智能體卻認為任務已經結束,不去向Bob請教。

問題3:瀏覽網頁容易出錯

很多時候,任務中的最大障礙在于需要瀏覽網頁的部分。這方面的障礙是預料之中的,因為對于智能體來說,由于當前網頁用戶界面的復雜性和網頁上的眾多干擾,瀏覽網頁仍然很困難。

例如,許多網頁都會不時彈出可關閉的廣告窗口,要求用戶下載手機應用程序以獲得更好的體驗。人類可以簡單地點擊「×」來關閉彈窗,而智能體則陷入了困境。

同樣,當智能體嘗試從網絡中下載文件時,需要點擊多個彈出窗口才能進行實際下載,但由于用戶界面復雜,每個步驟都容易出錯。

問題4:自欺欺人

對于某些任務,當智能體不清楚下一步應該做什么時,它有時會試圖聰明一點,創建一些省略任務困難部分的「捷徑」。

例如,如果智能體在RocketChat上找不到合適的人提問,它就會決定給另一個用戶改名為目標用戶來當做解決方案。

未來的智能體還有希望嗎

該研究的另一價值在于提供了一套框架,用來評估智能體在真實環境中的表現。

隨著向大模型灌輸網頁相關的信息,并教會大模型如何瀏覽網頁獲取信息,下載文件并不是難事,其他的辦公、工作交流等相關常識也是如此。相信未來大模型將有潛力取代人類的人力、財務、程序員等職業,至少是將這些崗位的大部分任務進行自動化處理。

與此相應的是,未來對大模型的評價也會有更多的維度。不止是完成該文列出的常規任務,還應該對創造能力進行考核。

此外,考核還應該包含那些定義模糊的任務,以及更高層次、更長遠的任務,如構思新產品并將其付諸實施。智能體只有能夠完成這些任務,才能算是真正地取代人類員工運營公司。

責任編輯:張燕妮 來源: 新智元
相關推薦

2020-09-27 14:28:21

AI 數據人工智能

2021-12-29 21:46:20

iOS蘋果系統

2023-05-10 15:10:00

人工智能工作

2024-01-02 09:16:31

GPT-4推理

2025-05-14 07:00:00

智能體自主式AI

2022-03-04 19:14:06

AI深度學習DeepMind

2018-03-02 10:58:17

人工智能AI律師

2024-03-14 11:55:21

2023-08-04 13:46:37

2023-02-28 11:21:38

CISOCIO

2024-01-02 09:26:05

AI預測

2025-03-12 12:21:27

2025-01-21 13:15:37

2024-10-10 13:40:00

2024-11-26 00:14:08

2025-01-20 15:32:41

2025-05-30 09:15:00

2019-08-19 20:20:46

2023-12-08 14:16:00

AI數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线伊人网| 99久久久久久 | 日本成人中文字幕在线观看 | 一区视频 | 黄色一级大片视频 | 天天操天天射综合网 | 国产成人99久久亚洲综合精品 | 欧美mv日韩mv国产网站91进入 | 国产精品亚洲综合 | 免费在线毛片 | 欧美一区二区三区在线视频 | 亚洲国产精品一区二区久久 | 高清视频一区 | 黑色丝袜三级在线播放 | 精品无码久久久久久国产 | 婷婷综合 | 成人三级av | www.蜜桃av| 欧美日韩三区 | 亚洲一区 中文字幕 | 欧美视频二区 | 亚洲精品视频免费观看 | 日韩日韩日韩日韩日韩日韩日韩 | 国产免费一区二区三区 | 男女午夜免费视频 | 国产精品一区二区在线免费观看 | 成人一区二区在线 | 国产我和子的乱视频网站 | 操久久| 天天夜天天操 | 日本精品久久久久久久 | 日韩精品成人 | 精品乱码一区二区三四区 | 99国产精品99久久久久久粉嫩 | 国产精品美女久久久久aⅴ国产馆 | 日韩欧美在线观看 | h视频在线观看免费 | 国产日韩欧美在线 | 国产中文字幕亚洲 | 日韩欧美精品在线 | 精品av|