突破數據瓶頸！交大研發電腦智能體，讓 AI 替你熬夜做 PPT

作者：機器之心 2024-12-25 09:06:44

他們提出認知遷移的方法，通過高效收集人類認知軌跡，打造（訓練，非 API 調用）了能夠像人類一樣閱讀電腦屏幕，精準操控鍵盤鼠標，執行長達數十步、跨軟件的復雜生產任務的 PC Agent，標志著 AI 真正為人類減負的重要一步！

本文共同第一作者為上海交通大學 ACM 班的三年級本科生何彥衡，金嘉禾，兩人均為 GAIR 實驗室成員，指導老師為劉鵬飛副教授。上海交通大學生成式人工智能實驗室 (GAIR Lab）的主要研究方向為：大模型的復雜推理，大模型預訓練中的數據工程，多模態大模型，以及智能體。實驗室主頁：https://plms.ai/

想象這樣一個場景：深夜 11 點，你已經忙碌了一天，正準備休息，卻想起明天早上還得分享一篇經典論文《Attention Is All You Need》，需要準備幻燈片。這時，你突然想到了自己的 AI 助手 —— PC Agent。你告訴它演講的要點以及 PPT 要保存的地方，然后就安心睡去。第二天醒來，一份內容完備、制作精美的 PPT 已經在電腦中準備妥當。

這個聽起來如同科幻的場景，已經被上海交通大學 GAIR 實驗室的研究者們變成了現實！他們提出認知遷移的方法，通過高效收集人類認知軌跡，打造（訓練，非 API 調用）了能夠像人類一樣閱讀電腦屏幕，精準操控鍵盤鼠標，執行長達數十步、跨軟件的復雜生產任務的 PC Agent，標志著 AI 真正為人類減負的重要一步！

Sam Altman 說，比起讓智能體「訂一家餐廳」，真正有趣的是讓它「咨詢 300 家餐廳」來找到最符合的口味。這樣大量重復性的工作，對 PC Agent 而言也不在話下。比如，它可以一口氣為多位圖靈獎得主分別制作海報：

此外，PC Agent 也能輕松對標類似 Claude 3.5 Sonnet 的演示任務 —— 展現 “AI 調用 AI” 完成工作的巧妙設計。視頻展示了它如何為自己創造一個網站：

論文標題：PC Agent: While You Sleep, AI Works - A Cognitive Journey into Digital World
論文地址：https://arxiv.org/pdf/2412.17589
代碼地址：https://github.com/GAIR-NLP/PC-Agent

我們需要真正能為人類減負的智能體

數字智能體的革命性時刻

近期，Claude 3.5 Sonnet 的升級吸引了整個領域的目光。與 Siri 等依賴后端 API 調用的傳統智能助手不同，它能根據用戶指令，像人一樣操控電腦，解讀計算機屏幕，執行鍵盤鼠標操作。這種擬人的 GUI 前端交互模式具有高度通用性，賦予 AI 幾乎無限的可能。

兩年以來，隨著大語言模型的突破性進展，AI 已經實現了一個又一個里程碑，但依然局限于對話窗口，而無法邁入真實世界工作。我們需要讓智能體切實減輕人類的負擔，邁向 OpenAI 通往 AGI 五級目標中的第三級。

關鍵性挑戰

然而，當下智能體的電腦使用能力依然遠遜色于人類，并未達到真正能為人類減負的水平，對開源社區來說更是如此。團隊指出了兩個關鍵的技術挑戰：深度的電腦理解認知與精準的視覺定位能力。

1. 視覺定位：GUI 交互的基礎

為了像人類一樣使用電腦，智能體需要能為鼠標操作輸出精確的坐標，視覺定位 —— 即精準定位元素（如 “最小化” 按鈕）位置的能力，成為了 GUI 交互的基礎。

然而，目前絕大多數的視覺語言模型，包括最先進的 GPT-4o，仍缺乏這一基本能力。近期有些研究試圖通過在大規模 GUI 視覺定位數據集上微調模型來解決此問題，但這種辦法往往犧牲了模型的通用能力。

2. 認知理解：勝任復雜任務的關鍵

即使具備了基礎的視覺定位能力，當前模型依然無法勝任真正復雜的任務。團隊認為，關鍵在于模型缺乏對電腦使用的認知理解。這體現在兩個方面：

?缺乏細粒度的電腦操作知識

例如，為了在 PowerPoint 中添加標題，需要先點擊文本框再輸入。這對人類來講非常直觀，卻能難倒目前的智能體。細粒度電腦操作知識的缺乏要求我們從人類認知的角度補充訓練數據，因為 GUI 是為人類而設計的。

?缺乏智能體導向的訓練

現有大語言模型展現出強大的能力，但未能完美勝任智能體工作流的需求，包括在長過程中充分關注上下文，根據變化的環境做出決策，并根據反饋調整策略。雖然提示工程可以在一定程度上彌補這一差距，但實現真正強大的智能體還需要專門的訓練。

認知遷移 (Congition Transfer)

AI 從對話窗口到數字世界的關鍵道路

面對認知理解的挑戰，團隊提出人類認知遷移的方法，包括首個高效采集大規模人機交互數據的輕量級工具和從原始交互數據重建背后人類認知的完整流水線。通過開源相關代碼，團隊希望加速整個社區對數字智能體的研究進展。

具體來說，他們 1）首先采集人類使用電腦的原始操作軌跡，2）然后使用大模型重建無法被采集的人類認知，最終得到包含人類認知的交互軌跡（Cognitive trajectory)。通過模仿學習人類認知軌跡，AI 不僅能夠模仿具體的動作，還能學習動作背后人類對電腦使用的認知理解。

初步實驗表明，僅在 133 條認知軌跡數據上訓練，PC Agent 就能夠學會執行高達 50 步的復雜任務，極大證明了人類認知遷移方法的高效性。

一、首個高效采集大規模人機交互數據的輕量級工具

團隊破解了一個阻礙智能體發展的關鍵瓶頸：訓練數據的稀缺。他們開發了首個高效采集人機交互數據的輕量級工具 —— PC Tracker，旨在通過大規模收集真實人類動作軌跡來應對這一數據挑戰。

類似于屏幕錄制，PC Tracker 在后臺運行，通過監控鍵盤和鼠標的活動來記錄用戶動作，同時捕捉屏幕截圖以記錄狀態觀察。

下面是 PC Tracker 采集的軌跡的示例：在桌面上創建一個標題為 “Hello，world” 的幻燈片。

具體而言，PC Tracker 具備以下關鍵特性：

1. 輕量級數據采集

不同于冗余的錄屏方案，PC Tracker 僅捕捉關鍵事件 —— 僅當用戶動作發生時，才會觸發記錄，從而減小存儲開銷。

2. 無損用戶體驗

PC Tracker 在后臺運行，在持續記錄的同時不會影響用戶體驗。軟件不會記錄可訪問樹，因為爬取過程會引入明顯的延遲，干擾用戶操作。而且隨著視覺語言模型的發展，團隊認為可訪問樹信息對未來模型不再必要。

3. 大規模數據采集

輕量級采集與無損用戶體驗的設計確保了大規模長期部署的可行性，使得 PC Tracker 支持無限規模的人機交互數據收集。團隊統計表明，一小時的電腦使用即可產生約 2000 個事件，展現出巨大的數據潛力。

4. 統一動作空間

PC Tracker 支持一個為 AI 設計的統一動作空間，人類原始的離散鍵鼠操作會被合并封裝成如雙擊、輸入（type）等更具語義信息的動作。

5. 雙采集模式

PC Tracker 支持任務（task oriented)和無任務 (non-task oriented) 兩種采集模式。無任務模式記錄用戶自由的交互軌跡，非常適合長期、大規模的數據收集；而任務模式記錄用戶完成特定任務的交互軌跡，主要用于監督微調的數據標注。

6. 數據透明與隱私

所有記錄數據均在用戶本地存儲并提供 Markdown 可視化文件，用戶也可以在采集過程中方便控制記錄的終止以及數據的丟棄，以確保隱私。

二、從原始交互數據重建認知軌跡

人類行為是大腦認知活動的外在投射。在使用電腦時，我們的腦中經歷了自然的認知活動過程，包括對歷史進展和當前狀態的分析，作出下一步決策的推理等。這一思考過程蘊含了人類對電腦使用的認知，但大腦活動無法被直接記錄。為此，團隊利用大模型分兩階段對軌跡數據進行認知重建：

1. 動作語義重建

原始點擊動作僅包括數值坐標位置，與其他動作（如鍵盤輸入）相比缺乏直接的語義信息，因此首先進行的處理是點擊動作的語義信息重建。具體而言，這一步為點擊的目標生成了自然語言描述，如下圖所示為點擊位置 (717, 387) 生成描述 “TripAdvisor 網站上方中部的搜索框”。

2. 思考過程重建

利用軌跡數據中的上下文信息和補全的動作語義，團隊迭代提示大模型生成每步動作背后的思考過程。如圖所示，人類動作 “點擊 TripAdvisor 網站上方中部的搜索框” 背后的思考過程被成功重建：“我想要找埃菲爾鐵塔的高分餐廳，雖然已經查看了關于 “埃菲爾鐵塔餐廳” 的信息，但需要擴大搜索范圍。通過點擊搜索框，我可以輸入一個更廣泛的查詢......”

三、構建能夠完成復雜任務的數字智能體

基于對當前智能體面臨的主要挑戰（視覺定位與認知理解）的深刻理解，團隊分別提出解決方案，打造了一個能夠完成真正復雜任務的 PC Agent：

1. 以認知軌跡訓練規劃智能體

使用 PC Tracker 采集并重建認知后得到的認知軌跡，是訓練智能體的高質量數據。團隊選擇了 PPT 制作（包括上網收集資源）這一綜合任務作為初步實驗場景，僅在 133 條認知軌跡上訓練以驗證其數據效率。這些軌跡分為自由（使用 Chrome 和 PowerPoint）任務與 PPT 制作任務兩類，動作數量明顯高于現有公開軌跡數據，如下圖所示。

2. 通過自我驗證實現精準視覺定位

團隊發現，Ai2 近期發布的開源通用視覺語言模型 Molmo，通過引入創新的指令微調數據 Pixmo，展現了良好的視覺定位能力。因此，團隊將其作為視覺定位智能體的基礎模型。然而，Molmo 仍會偶爾出現定位偏差，而操作電腦時微小的點擊錯位也可能導致災難性后果，如不慎關閉瀏覽器 —— 當前的智能體很難從這些錯誤中恢復。

團隊提出了一種創新方法，進一步增強其視覺定位能力，幾乎能達到人類的完美水平：Molmo 可以借助來自系統接口的外部反饋，自我驗證其視覺定位的準確性。如下圖所示，定位智能體會先根據點擊目標描述生成一個初步的坐標，然后從系統接口中獲取該坐標對應的元素信息，判斷是否與目標描述匹配。如不匹配，定位過程將重新進行。

3. 多智能體協作

在 PC Agent 的初步實現中，為了更好的利用現有模型的能力，團隊采用了一個多智能體架構。其中，規劃智能體負責動作決策，視覺定位智能體負責點擊動作執行。值得指出的是，此系統完全基于開源模型構建。

具體來說，兩個智能體如此協作：規劃智能體首先分析任務并觀察狀態，以作出動作決策。非點擊相關動作將被直接執行，而對于點擊相關動作，規劃智能體生成的點擊目標描述將被轉發給視覺定位智能體，由其生成具體坐標。如果它發現目標在屏幕上不存在，將提示規劃智能體重新決策。具體的動作執行將調用 pyautogui 函數完成。下圖為一個協作的示例。

結論與展望

團隊提出了一種創新的認知遷移框架，包括首個高效采集人機交互數據的工具 PC Tracker 和完整的認知重建過程，并初步驗證了方法的高效性。PC Agent 在 PPT 制作場景下展示了執行復雜長程任務的能力，標志 AI 真正為人類減負邁出的重要一步。

展望未來，團隊確定了幾個重要的研究方向：

1. 大規模泛化實驗：盡管已在有限的訓練數據下初步實驗，但泛化能力的驗證仍需跨軟件和跨任務的更大規模實驗。

2. 長程規劃與魯棒性：OpenAI o1 所展現的推理與自我糾錯能力，為在長序列中實現魯棒操作提供了有力支撐。在面對復雜任務時，如何保持行動與目標的一致性，以及如何建立更加完善的糾錯機制，仍是亟待深入討論的問題。

3. 無任務數據的利用：PC Tracker 可以在不限制特定任務的情況下提供近乎無限規模的自然人機交互數據，這些數據包含了豐富的人類一般操作策略與行為偏好信息，可應用于預訓練、監督微調和強化學習等多個場景。探索有效的方法來利用這些數據是重要而有前景的方向。

4. 動作空間優化：針對拖拽等復雜鼠標操作的特殊挑戰，需要開發更精確的空間關系理解機制，并優化數據收集策略。

5. 復雜任務的評估：當前對數字智能體的評估基準主要關注基礎任務的成功率。然而，對于像 PPT 制作這樣的真實世界復雜任務，我們需要更加全面的評估框架，不僅關注任務成功率，還要考慮完成質量、專業性等多維度指標。

責任編輯：張燕妮來源：機器之心

AI 數據訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看