Agent進化一小步:跳上解放雙手的臺階
Anthropic深夜發布重大更新:升級版Claude 3.5 Sonnet、新型號Claude 3.5 Haiku以及超級Agent:computer use。
新的Computer Use可能是迄今為止最先進的 AI Agent之一,它可以像人類一樣使用計算機——查看屏幕、移動光標、點擊和輸入文本。通過 API,開發者可以讓 Claude 將指令翻譯成計算機指令,從而解放一些枯燥的重復性流程任務。
像人類一樣感知環境、規劃任務、執行動作(如使用工具/軟件),最終完成特定任務,是人工智能行業的下一個前沿發展方向,也是邁向通用人工智能(AGI)、超級智能(Super Intelligence)的必由之路。
Claude 3.5 Sonnet能力怎么樣
編程能力顯著提升,SWE-bench 測試從 33.4% 提升到 49.0%, 超過所有公開模型) ,在零售領域的 TAU-bench 測試中,其表現從 62.6% 提升到 69.2%,在難度更高的航空領域測試中也從 36.0% 提升至 46.0%。工具使用能力增強 ,價格和速度維持不變:
圖片
圖片
如何使用Anthropic 的 Computer use
開發人員可以通過 Anthropic 的 API、 Amazon Bedrock 和 Google Cloud 的 Vertex AI 平臺試用Computer Use 。
圖片
基于Computer use的示例
功能特性解析:
Claude 模型通過 API 實現了令人驚嘆的像人一樣操作電腦的能力。它能夠觀看屏幕截圖,精準地移動光標,在需要的位置點擊按鈕,還能使用虛擬鍵盤輸入文本。這種操作方式真正模擬了人類與計算機交互的方式,讓 AI 助手不再局限于專門定制的工具,而是可以直接使用為人類設計的各類軟件。
例如,在多個演示視頻中,Claude 可以絲滑地執行打開軟件、網頁搜索、文本輸入、編寫代碼、下載文件、debug、查找網頁表格并填入信息等任務。
圖片
實驗階段表現:
目前,Anthropic 的 Computer use 功能處于實驗階段,確實存在一些不足之處。操作速度較慢,一些簡單的操作如滾動、拖拽和縮放等,對Claude 來說仍具有相當的挑戰性。
在基準測試中,Claude 在 OSWorld 電腦操作評估測試中獲得了 14.9% 的成績,遠超其他 AI 模型的 7.8% 最高分,但與人類的 70 - 75% 的水平相比仍有相當大的差距。當用戶提供更多完成任務所需的步驟時,Claude 的得分可以提升到 22.0%。
開發者反饋與未來展望
官方提前發布這項功能,是為了獲取開發者的反饋。隨著開發者的積極參與,預計這一功能將隨著時間逐漸改進。未來,Computer use 功能有望變得更快、更可靠、更容易使用。Anthropic 可能會進一步優化 Claude 的操作速度,減少錯誤的發生。
同時,可能會通過更多的訓練和優化,讓 Claude 在處理復雜任務時更加得心應手,逐漸接近人類的操作水平。例如,在處理一些需要快速響應的任務時,Claude 可能會更加高效地移動光標、點擊按鈕和輸入文本。此外,隨著技術的不斷進步,可能會有更多的軟件和工具被 Claude 熟練掌握,為用戶提供更加豐富和便捷的服務。
如果對內容有什么疑問和建議可以私信和留言,也可以添加我加入大模型交流群,一起討論大模型在創作、RAG和agent中的應用。