Agent進化一小步：跳上解放雙手的臺階

作者：哎呀AIYA 2024-10-24 23:40:34

Claude 模型通過 API 實現了令人驚嘆的像人一樣操作電腦的能力。它能夠觀看屏幕截圖，精準地移動光標，在需要的位置點擊按鈕，還能使用虛擬鍵盤輸入文本。這種操作方式真正模擬了人類與計算機交互的方式，讓 AI 助手不再局限于專門定制的工具，而是可以直接使用為人類設計的各類軟件。

Anthropic深夜發布重大更新：升級版Claude 3.5 Sonnet、新型號Claude 3.5 Haiku以及超級Agent：computer use。

新的Computer Use可能是迄今為止最先進的 AI Agent之一，它可以像人類一樣使用計算機——查看屏幕、移動光標、點擊和輸入文本。通過 API，開發者可以讓 Claude 將指令翻譯成計算機指令，從而解放一些枯燥的重復性流程任務。

像人類一樣感知環境、規劃任務、執行動作（如使用工具/軟件），最終完成特定任務，是人工智能行業的下一個前沿發展方向，也是邁向通用人工智能（AGI）、超級智能（Super Intelligence）的必由之路。

Claude 3.5 Sonnet能力怎么樣

編程能力顯著提升，SWE-bench 測試從 33.4% 提升到 49.0%, 超過所有公開模型) ，在零售領域的 TAU-bench 測試中，其表現從 62.6% 提升到 69.2%，在難度更高的航空領域測試中也從 36.0% 提升至 46.0%。工具使用能力增強，價格和速度維持不變：

圖片

如何使用Anthropic 的 Computer use

開發人員可以通過 Anthropic 的 API、 Amazon Bedrock 和 Google Cloud 的 Vertex AI 平臺試用Computer Use 。

圖片

基于Computer use的示例

功能特性解析：

例如，在多個演示視頻中，Claude 可以絲滑地執行打開軟件、網頁搜索、文本輸入、編寫代碼、下載文件、debug、查找網頁表格并填入信息等任務。

圖片

實驗階段表現：

目前，Anthropic 的 Computer use 功能處于實驗階段，確實存在一些不足之處。操作速度較慢，一些簡單的操作如滾動、拖拽和縮放等，對Claude 來說仍具有相當的挑戰性。

在基準測試中，Claude 在 OSWorld 電腦操作評估測試中獲得了 14.9% 的成績，遠超其他 AI 模型的 7.8% 最高分，但與人類的 70 - 75% 的水平相比仍有相當大的差距。當用戶提供更多完成任務所需的步驟時，Claude 的得分可以提升到 22.0%。

開發者反饋與未來展望

官方提前發布這項功能，是為了獲取開發者的反饋。隨著開發者的積極參與，預計這一功能將隨著時間逐漸改進。未來，Computer use 功能有望變得更快、更可靠、更容易使用。Anthropic 可能會進一步優化 Claude 的操作速度，減少錯誤的發生。

同時，可能會通過更多的訓練和優化，讓 Claude 在處理復雜任務時更加得心應手，逐漸接近人類的操作水平。例如，在處理一些需要快速響應的任務時，Claude 可能會更加高效地移動光標、點擊按鈕和輸入文本。此外，隨著技術的不斷進步，可能會有更多的軟件和工具被 Claude 熟練掌握，為用戶提供更加豐富和便捷的服務。

如果對內容有什么疑問和建議可以私信和留言，也可以添加我加入大模型交流群，一起討論大模型在創作、RAG和agent中的應用。

責任編輯：武曉燕來源：哎呀AIYA

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Agent進化一小步：跳上解放雙手的臺階

Claude 3.5 Sonnet能力怎么樣

如何使用Anthropic 的 Computer use

基于Computer use的示例

開發者反饋與未來展望