一夜之間,大模型像人一樣操控電腦了!Claude 3.5重磅升級,搶先OpenAI
幾個小時前,Claude 3.5 模型迎來了一波大更新。Anthropic 推出了升級版的 Claude 3.5 Sonnet 以及一款新模型 Claude 3.5 Haiku。
其中,升級版 Claude 3.5 Sonnet 的各項能力全面勝過之前版本,其中代碼能力提升顯著。Claude 3.5 Haiku 的性能則與之前最大模型 Claude 3 Opus 的性能相當,同時在成本和速度上與上一代 Haiku 相近。
最值得關注的是,Claude 3.5 Sonnet 版本號雖未提升,但卻迎來了史詩級大更新:能像人一樣使用計算機了!
最新版本的 Claude 3.5 Sonnet 能夠根據用戶指令移動光標、點擊相應位置以及通過虛擬鍵盤輸入信息,模仿人類與計算機的交互方式。
Anthropic 表示,Claude 3.5 Sonnet 是首個提供「計算機使用」能力公開 beta 測試的前沿 AI 模型,不過其也指出目前該工具還處于實驗階段 —— 有時候會很麻煩且容易出錯。目前這個功能更多地是面向開發者,以便獲得他們的使用反饋。
目前,「使用計算機」功能已經有了公開測試版,大家可以申請試用。申請表單:https://docs.google.com/forms/d/e/1FAIpQLSeD3IqITWsuepB19SEv889HsBvN9WOi6HRblPrJNyA9G7q02w/viewform
該功能發布后,網友紛紛點贊,都表示迫不及待想要嘗試這個功能;當然也有網友對 Claude 3.5 Sonnet 依然使用原來的名稱表達了深深地不解:「為什么這么大的更新卻連模型版本號都不改一下?」
并且發布不過幾個小時,就已經有開發者嘗試了 Claude 3.5 Sonnet 的這項新能力。網友 Mckay Wrigley 表示通過 API 使用這項新功能,設置時間不超過 10 分鐘,而這項能力卻能為 AI 開啟無限可能,堪稱 game changer。
順帶一提,在 Anthropic 更新 Claude 3.5 的同時,熱門 AI 編程工具 Cursor 也已經成功接入 Claude 系列模型。根據許多網友分享的截圖,接入 Cursor 的 Claude 3.5 Sonnet 正是最新的 20241022 版本!
另外,對于官方博客中缺少的與 OpenAI ο1 模型的性能對比,也已經有研究者搶先完成了。根據研究者 Austin Starks 的實驗,最新版 Claude 3.5 Sonnet 的性能表現優于 OpenAI ο1-mini。他自己也對這一結果深表震驚。
詳細報告請訪問:https://medium.com/@austin-starks/claudes-new-3-5-sonnet-outperformed-openai-s-o1-mini-i-m-shocked-58c9ee1993ea
讓 AI 使用計算機有什么用?
為什么說這個功能很重要?我們知道,現代的大量工作都是通過計算機完成的。如果能讓 AI 像人類一樣直接與計算機軟件交互,將解鎖大量當前一代 AI 助手無法實現的應用。
過去幾年,強 AI 已經實現了一個又一個里程碑,舉個例子,現在的強 AI 已經有能力執行復雜的邏輯推理和理解圖像內容。下一個前沿就是使用計算機,AI 模型不必通過定制工具進行交互,而是能夠遵照指示使用幾乎任何軟件。
Anthropic 表示,他們之前在工具使用和多模態方面的工作為這些新的計算機使用技能奠定了基礎。
操作計算機需要查看和解釋圖像的能力 —— 這里的圖像就是指計算機屏幕。它還需要推理能力,以了解以怎樣的方式在什么時間執行特定的操作。整合這些能力后,Claude 便可具備解讀屏幕內容并使用軟件工具執行任務的能力。
該公司舉了個例子:如果用戶是一名開發者,使用的軟件有好幾個,同時也已經給予了 Claude 適當的權限,那么 Claude 就可以查看用戶能看到的屏幕,然后統計其所要移動的垂直和水平像素的數量,從而點擊到正確位置。因此,準確統計像素數量的能力對 Claude 而言至關重要。沒有這項技能,模型就難以發出鼠標指令 —— 類似于模型難以解決「banana 中有多少個 A?」 這樣的問題。
Anthropic 表示,在訓練 Claude 使用計算機方面,僅使用少量簡單軟件(比如一個計算器和一個文本編輯器)進行的訓練就讓 Claude 可以泛化這種能力。這一點讓開發團隊自己都深感驚訝。至于為何使用這樣的簡單軟件,該團隊表示:「出于安全原因,我們并不允許模型在訓練時訪問互聯網。」
再結合 Claude 的其它能力,這種訓練賦予了它非凡的能力,可以將用戶的文本提示詞轉化為一系列邏輯步驟,然后在計算機上采取行動。開發團隊觀察到,如果遇阻,該模型甚至還能自我糾錯并重試任務。
他們表示:「雖然我們在取得初步突破后很快就取得了后續進展,但達到這一目標的過程經歷了大量反復試驗。」該公司的一些研究者指出,讓 Claude 具備使用計算機的能力接近他們剛開始從事該領域時所描繪的 AI 研究的「理想化」過程:不斷迭代和反復回到繪圖板,直到取得進展。
終于,研究獲得了回報。目前,Claude 可以說是當之無愧的 SOTA 模型,其使用計算機的方式與人類相同 —— 即查看屏幕再采取行動。在 OSWorld 這項測試模型使用計算機的能力的評估基準上,Claude 當前的準確度為 14.9%,雖然遠遠不及人類水平(通常為 70-75%),但卻遠高于在此基準上排名第二的 AI 模型(7.8%)。當給予更多的步驟來完成任務時,Claude 得分為 22.0%。
OSWorld 基準上當前排名前十的模型
確保計算機使用安全
人工智能的每一次進步都會帶來新的安全挑戰。計算機的使用主要是降低人工智能系統應用現有認知技能的障礙,而不是從根本上提高這些技能,因此 Anthropic 對計算機使用的主要關注點是當前的危害,而不是未來的危害。
Anthropic 通過評估計算機的使用是否會增加其《負責任擴展政策》中列出的前沿威脅(frontier threats)的風險來證實這一點。更新后的 Claude 3.5 Sonnet,包括其新的計算機使用技能,仍處于 AI Safety Level 2,也就是說,它不需要比 Anthropic 目前采取的安全措施更高標準的安全措施。
未來的模型可能會帶來災難性的風險,計算機的使用可能會加劇這些風險,因此需要 AI Safety Level 3 或 4 的保障措施。Anthropic 認為現在引入計算機使用可能會更好,而模型仍然只需要 AI Safety Level 2 的保障。這意味著可以在風險過高之前開始解決任何安全問題。
因此,Anthropic 的信任與安全團隊對計算機使用模型進行了廣泛的分析,以識別潛在的漏洞。他們發現的一個問題是「提示詞注入」—— 一種網絡攻擊,會輸入惡意指令到人工智能模型,導致其要么覆蓋先前的指令,要么執行偏離用戶原始意圖的意外操作。由于 Claude 可以解讀連接到互聯網的計算機的屏幕截圖,因此它可能會暴露于包含提示詞注入攻擊的內容。
默認情況下,Anthropic 不會使用用戶提交的數據(包括 Claude 收到的任何屏幕截圖)來訓練其生成式 AI 模型。
「計算機使用」的未來
計算機的使用是一種完全不同的人工智能開發方法。到目前為止,LLM 開發人員已經制作了適合模型的工具,生成了自定義環境,人工智能可以使用專門設計的工具來完成各種任務。
現在,Anthropic 的研究者可以讓模型適應工具 —— Claude 可以融入我們日常使用的計算機環境中。他們的目標是讓 Claude 能夠利用現有的計算機軟件,并像人類一樣簡單地使用它們。
研究者構建了一個 API,使 Claude 能夠感知計算機界面并與之交互。該 API 使 Claude 能夠將提示詞翻譯成計算機命令。開發人員可以使用它來自動執行重復性任務、進行測試和 QA 以及進行開放式研究。
研究者并沒有制作專門的工具來幫助 Claude 完成個別任務,而是教它通用的計算機技能,讓它能夠使用為人類設計的各種標準工具和軟件程序。
不過,Anthropic 還有很多工作要做。盡管目前 Claude 處于技術的最前沿,但它使用計算機的速度仍然緩慢且經常出錯。人們在計算機上常規進行的許多操作(如拖動、縮放等)Claude 還無法完成。
對于 Claude 來說,它觀察到的屏幕「翻頁」方式 —— 是通過拍攝屏幕截圖并將它們拼接起來的方式,而不是觀察更細粒度的視頻流。這種方式意味著 Claude 可能會錯過那些短暫的操作或通知。
甚至在錄制計算機使用演示時,研究者也遇到了一些有趣的錯誤。其中一個錯誤是,Claude 不小心點擊停止了長時間的屏幕錄制,導致所有鏡頭都丟失。另一個錯誤是,Claude 突然中斷了現場的編碼演示,開始瀏覽黃石國家公園的照片。
研究者預期對計算機的使用將迅速改進,變得更快、更可靠,并更有助于用戶完成他們想要完成的任務。對于那些軟件開發經驗較少的人來說,實施起來也將變得更加容易。并且在每一個階段,研究人員都將與安全團隊緊密合作,確保 Claude 的新功能更加安全。
Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已經開始探索「計算機使用」的各種可能性,執行那些需要幾十個、有時甚至幾百個步驟才能完成的任務。例如,Replit 正在利用 Claude 3.5 Sonnet 的計算機使用和 UI 導航能力,為其 Replit Agent 產品開發一個關鍵功能,該功能可以在構建應用程序時評估這些應用程序。
升級版的 Claude 3.5 Sonnet 現在對所有用戶開放。從今天開始,開發者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用「計算機使用」的測試版進行構建。新的 Claude 3.5 Haiku 將在本月晚些時候發布。
Claude 3.5 Sonnet:行業領先的軟件工程技能
更新版的 Claude 3.5 Sonnet 在行業基準測試中顯示出廣泛的改進,特別是在智能體編碼和工具使用任務上取得了顯著的提升。在編碼方面,其在 SWE-bench Verified 上的性能從 33.4% 提高到 49.0%,得分高于所有公開可用的模型 —— 包括像 OpenAI o1-preview 這樣的推理模型和專為智能體編碼設計的專門系統。它在 TAU-bench 上的表現也有所提升,這是一個智能體工具使用任務,在零售領域的得分從 62.6% 提高到了 69.2%,在更具挑戰性的航空領域則從 36.0% 提高到了 46.0%。新的 Claude 3.5 Sonnet 以與其前代相同的價格和速度提供了這些改進。
早期客戶反饋表明,升級版的 Claude 3.5 Sonnet 代表了 AI 驅動編碼的重大飛躍。GitLab 針對 DevSecOps 任務對該模型進行了測試,發現它提供了更強的推理能力(在用例中高達 10%),并且沒有增加延遲,這使其成為驅動多步驟軟件開發流程的理想選擇。Cognition 使用新的 Claude 3.5 Sonnet 進行自主 AI 評估,與前一版本相比,它在編碼、規劃和問題解決方面經歷了顯著的改進。The Browser Company 在用于自動化基于 Web 的工作流程時,注意到 Claude 3.5 Sonnet 的表現超過了他們之前測試過的每一個模型。
Claude 3.5 Haiku:SOTA 技術與性價比和速度的結合
Claude 3.5 Haiku 是 Anthropic 最快的模型的下一代。與 Claude 3 Haiku 的成本相同,速度相似,Claude 3.5 Haiku 在每項技能上都有改進,并且在許多智能基準測試上甚至超過了 Anthropic 上一代最大的模型 ——Claude 3 Opus。Claude 3.5 Haiku 在編碼任務上尤其強大。例如,它在 SWE-bench Verified 上的得分為 40.6%,超過了使用公開可用的 SOTA 模型的許多智能體 —— 包括原始的 Claude 3.5 Sonnet 和 GPT-4o。
憑借低延遲、改進的指令遵循和更準確的工具使用,Claude 3.5 Haiku 非常適合面向用戶的產品、專門的 sub-agent 任務以及從大量數據(如購買歷史、定價或庫存記錄)中生成個性化體驗。
Claude 3.5 Haiku 將于本月晚些時候通過 Anthropic 的第一方 API、Amazon Bedrock, 和谷歌云的 Vertex AI 提供 —— 最初作為僅限文本的模型,隨后將支持圖像輸入。