成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

312條軌跡激發241%性能!上交大與SII開源電腦智能體,超越 Claude 3.7

人工智能 新聞
來自上海交通大學和 SII 的最新研究卻給出了一個非共識答案:僅需 312 條人類標注軌跡,使用 Claude 3.7 Sonnet 合成更豐富的動作決策,就能激發模型?241%?的性能。

自 Anthropic 推出 Claude Computer Use,打響電腦智能體(Computer Use Agent)的第一槍后,OpenAI 也相繼推出 Operator,用強化學習(RL)算法把電腦智能體的能力推向新高,引發全球范圍廣泛關注。

業界普遍認為,需要海量的軌跡數據或復雜的強化學習才能實現電腦智能體的水平突破——這可能意味著大量的人工軌跡標注,以及大規模虛擬機環境的構建,以支撐智能體的學習與優化。

然而,來自上海交通大學和 SII 的最新研究卻給出了一個非共識答案:僅需 312 條人類標注軌跡,使用 Claude 3.7 Sonnet 合成更豐富的動作決策,就能激發模型 241% 的性能,甚至超越 Claude 3.7 Sonnet extended thinking 模式,成為 Windows 系統上開源電腦智能體的新一代 SOTA。

圖片


  • 論文標題:Efficient Agent Training for Computer Use
  • 論文地址:https://arxiv.org/abs/2505.13909
  • 代碼地址:https://github.com/GAIR-NLP/PC-Agent-E
  • 模型地址:https://huggingface.co/henryhe0123/PC-Agent-E
  • 數據地址:https://huggingface.co/datasets/henryhe0123/PC-Agent-E

這一發現傳遞出一個關鍵信號:當前大模型已經具備了使用電腦完成任務的基礎能力,其性能瓶頸主要在于長程推理(long-horizon planning)能力的激發,而這一能力使用極少量高質量軌跡即可顯著提升。

PC Agent-E:如何用極少量軌跡訓練出強大的電腦智能體?

數據從哪來?人類提供原始操作軌跡

與以往依賴大規模人工標注或復雜自動化合成的方式不同,團隊的方法只需 312 條真實的人類操作軌跡。這些軌跡由團隊開發的工具 PC Tracker 收集而來,僅由兩位作者花一天時間操作自己的電腦,就完成了原始軌跡數據的收集。每條軌跡包含任務描述、屏幕截圖以及鍵盤鼠標操作,并確保了數據的正確性。

圖片312 條軌跡在不同軟件上的分布

思維鏈補全:讓「動作」有「思考」的支撐

人類執行每一個動作,往往都有一定的理由或「思考過程」。但在收集的原始軌跡數據中,這部分「思維鏈」是缺失的。于是,團隊對人類動作進行了「思維鏈補全」(Thought Completion),為每一個動作步驟添加了背后的思考邏輯(符合于 ReAct 范式)。此時的數據已足以用于智能體訓練,但團隊并未止步于此——接下來的關鍵一步,進一步大幅提升了軌跡質量。

軌跡增強:讓 AI 幫你「腦洞大開」

 接下來,團隊提出了一個關鍵創新點:軌跡增強(Trajectory Boost),這正是使用極少軌跡讓模型超越 Claude 3.7 Sonnet(thinking)的關鍵。

其核心觀察為:每個電腦任務其實可以通過多種路徑完成。也就是說,除了人類采取的動作以外,軌跡中的每一步其實都有多個「合理的動作決策」。為了捕捉這種軌跡內在的多樣性,團隊利用前沿模型 Claude 3.7 Sonnet,為軌跡的每一步合成更多的動作決策。團隊注意到,軌跡中每一步記錄的數據,作為「環境快照(environment snapshot)」,已足以為人類或智能體提供決策信息。于是,團隊將這些快照提供給 Claude 3.7 Sonnet,采樣多個包含思考過程的動作決策。這一過程極大豐富了軌跡數據的多樣性。

圖片

思維鏈補全與軌跡增強

模型訓練:少量數據也能訓出強大模型

最終,團隊在開源模型 Qwen2.5-VL-72B 的基礎上進行訓練,得到 PC Agent-E 智能體。作為一款原生智能體模型(native agent model),PC Agent-E 無需依賴復雜的工作流設計,即可實現端到端的任務執行。令人驚喜的是,在僅使用 312 條人工標注軌跡的情況下,模型性能便達到了訓練前的 241%,展現出極高的樣本效率。

團隊在 WindowsAgentArena-V2 上進行評測——這是對原始 WindowsAgentArena 存在問題進行改進后的新版本。實驗結果顯示,PC Agent-E 的表現甚至超過了 Claude 3.7 Sonnet 的「extended thinking」模式,而用于數據合成的 Claude 3.7 Sonnet 并未啟用這一模式。這標志著 PC Agent-E 成為當前 Windows 系統上開源電腦智能體的新一代 SOTA!與此同時,PC Agent-E 在 OSWorld 上也表現出不俗的跨平臺泛化性能。

圖片

不同電腦智能體在 WindowsAgentArena-V2 上的評估結果

軌跡增強方法的有力驗證

論文的關鍵創新之一——軌跡增強方法在人類軌跡的每一步補充了 9 個合成動作決策。為了進一步驗證該方法的效果,團隊調整訓練時使用的合成動作數量,并觀察其對模型性能的影響。

如圖所示,隨著合成動作數量的增加,模型性能顯著提升,并展現出良好的拓展趨勢。相比僅使用人類軌跡訓練(性能提升僅 15%),PC Agent-E 在引入合成動作后實現了高達 141% 的性能飛躍,充分證明了軌跡增強方法對智能體能力突破的關鍵作用。

圖片

模型能力隨訓練數據中動作決策的擴展倍數的變化

結論與展望

實驗結果有力證明了一個關鍵觀點:少量高質量軌跡,就足以激發智能體強大的長程推理(long-horizon planning)能力。無需海量人類標注,就能訓練出當前最優(SOTA)的電腦智能體。

目前,即使是最前沿的電腦智能體,其能力與人類相比仍有明顯差距。在這種情況下,在預訓練和監督微調階段引入一定的人類認知,仍然是為后續強化學習打下堅實基礎的必要步驟。

團隊方法提供了一種新的思路:在人類標注軌跡注定有限的情況下,可以通過提高軌跡質量來實現高效的性能提升。這不僅降低了數據需求,也為未來構建更智能、更自主的數字代理鋪平了道路。PC Agent-E 只是一個開始。通往真正能理解并自如操作數字世界的智能代理之路,仍在繼續。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-23 08:56:00

2025-02-07 09:00:00

2023-11-13 19:35:12

訓練數據

2022-12-12 11:31:39

數據學習

2024-12-25 09:06:44

2024-10-28 10:00:00

蘋果AI

2025-02-10 08:37:04

2024-03-11 00:20:00

模型論文

2025-06-06 14:17:11

模型訓練AI

2021-07-22 15:25:14

開源技術 框架

2025-01-03 11:02:38

OpenAIAgent大模型

2025-05-29 09:07:37

2025-03-14 12:06:07

2024-10-15 17:28:05

2024-11-14 14:00:00

機器人AI

2024-07-22 08:17:00

模型性能

2024-11-25 09:35:00

AI測試

2023-06-19 19:26:54

模型開源

2024-06-21 09:58:38

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲综合在线视频 | 成人高清在线 | 台湾a级理论片在线观看 | 中文字幕国产精品 | 日韩一区二区三区四区五区 | 久久久精品一区 | 日韩精品一区二区三区久久 | 久久成人午夜 | 成人网视频 | 亚洲免费在线观看av | 日本不卡一区二区三区在线观看 | av激情在线 | 国产视频第一页 | 欧美日韩不卡合集视频 | 国产三级国产精品 | 久久三级av | 精久久久| 伊人精品在线 | 欧美bondage紧缚视频 | 国产91丝袜在线18 | 国产羞羞视频在线观看 | 欧美日韩亚洲一区 | 成人精品国产免费网站 | a亚洲精品 | 久久久久国产一区二区三区四区 | 欧美精品99 | 国产在线一区二区三区 | 色综合久| 国产精品视频网站 | 久久精品免费 | 特黄特色大片免费视频观看 | 欧美日韩国产综合在线 | 日韩电影a| 懂色中文一区二区在线播放 | 亚洲人成在线观看 | 99九色| 99免费看 | 日韩成人在线免费视频 | 欧美一级高潮片免费的 | 伊人久久精品 | 国产偷录视频叫床高潮对白 |