AI編程新王Claude 4,深夜震撼登基!連續編碼7小時,開發者驚掉下巴
今晚的聚光燈,屬于Anthropic。
就在剛剛,全網翹首盼望的Claude 4,重磅登場!
CEO Dario Amodei親自上陣,攜Claude Opus 4和 Claude Sonnet 4亮相,再次將編碼、高級推理和AI智能體,推向全新的標準。
圖片
其中,Claude Opus 4是全球頂尖的編碼模型,擅長復雜、長時間運行的任務,在AI智能體工作流方面性能極為出色。
而Claude Sonnet 4,則是對Sonnet 3.7 的重大升級,編碼和推理能力都更出色,還能更精準地響應指令。
圖片
同時,Claude把這段時間積攢的一系列產品,通通一口氣發布了——
- Claude Opus 4和Sonnet 4混合模型的兩種模式:幾乎即時的響應和用于更深度推理的擴展思考。
- 擴展思考與工具使用(測試版):兩款模型均可在擴展思考過程中使用工具(例如網絡搜索),使Claude能在推理與工具使用間靈活切換,從而優化響應質量。
- 新的模型能力:兩款模型均可并行使用工具,更精確地遵循指令,并且(當開發者授予其訪問本地文件的權限時)展現出顯著增強的記憶能力,能提取、保存關鍵信息,以保持連續性,并隨時間積累隱性知識。
- Claude Code:可通過GitHub Actions支持后臺任務,并與VS Code和JetBrains進行了原生集成,可直接在文件中顯示編輯內容,實現無縫結對編程。
- 新的API能力:Anthropic API新增四項新功能,讓開發者能夠構建更強大的AI智能體——代碼執行工具、MCP連接器、文件API,以及長達一小時的提示詞緩存能力。
圖片
所以,什么人能用上這次的新模型?
目前,訂閱了Pro、Max、Team和Enterprise版的Claude用戶,可以立即體驗到這兩款模型及擴展思考功能。其中,Sonnet 4還將向免費用戶開放。
開發者則可通過Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI調用。
而Claude 4的定價,也與此前保持一致:
- Opus 4每百萬Token為15美元(輸入)/75美元(輸出)
- Sonnet 4每百萬Token為3美元(輸入)/15美元(輸出)
Claude 4:AI編程新王登基
Claude Opus 4號稱是Anthropic迄今為止最強大的模型,也是全球最頂尖的編碼模型。
在SWE-bench和Terminal-bench測試中,分別以72.5%和43.2%的得分全面領先,碾壓OpenAI剛剛發布的編程智能體Codex-1和最強推理模型o3。
即使在需要高度專注并執行數千步驟的長時間運行任務中,它都能展現出持續穩定的性能,連續工作數小時。
圖片
圖片
可以說,Opus 4的推出極大擴展了AI智能體的能力邊界。眾多前沿的AI智能體產品,都將獲得強大支持。
· Cursor:Opus 4的編碼能力已達業界頂尖水平,在理解復雜代碼庫方面,還取得了飛躍性進展。
· Replit:在處理跨多個文件的復雜變更時,Opus 4的精度大大提升,表現出顯著進步。
· Block:在「goose」智能體中,Opus 4是首款能在編輯和調試過程中提升代碼質量,同時還能保持完整性能和可靠性的模型。
· Rakuten:Opus 4通過了一項要求嚴苛的開源代碼重構任務,這項任務獨立運行長達7小時,期間它始終保持了穩定的性能。
· Cognition:Opus 4擅長解決其他模型難以應對的復雜挑戰,能夠成功處理先前模型未能完成的關鍵操作。
而在Sonnet 3.7已經算業界領先的能力基礎上,Claude Sonnet 4又再度實現了顯著提升。
它在編碼上極其出色,在SWE-bench測試中,直接取得72.7%的頂尖成績!
而且,Sonnet 4在內部及外部應用場景中,均實現了性能與效率的良好平衡,可操控性也大大增加了。
盡管在多數領域,Sonnet 4的表現并不及Opus 4,但它在能力與實用性之間卻達到了最佳平衡。
圖片
Anthropic:引爆推理革命
這就意味著,2025年的推理模型大戰,Anthropic正式下場!
2025年,AI行業的一個明顯趨勢,就是轉向推理模型。這類AI在做出反應之前會系統地解決問題,模擬類人的思維過程,而非簡單地根據訓練數據進行模式匹配。
去年12月,OpenAI拋出o系列,正式拉開大戰序幕;谷歌的Gemini 2.5 Pro,也緊隨其后推出實驗性的“深度思考”功能;然后,就是DeepSeek-R1憑卓越性能和超高性價比,強勢占領市場份額。
顯然,現在人們使用AI的方式已經發生了根本性變革。
Poe的《2025年春季AI模型使用趨勢報告》顯示,推理模型的使用量在短短四個月內增長了五倍,占所有AI交互的比例從2%增長到10%。用戶也越來越多地將AI視為解決復雜問題的思維伙伴,而非簡單的問答系統。
圖片
隨著新模型帶來的用戶興趣的提升,推理類信息的比例在2025年初大幅上升
而這次,Anthropic再次給推理大戰貢獻了顛覆性的形式——將工具使用直接融入推理過程。
比起以前先收集信息再進行分析的系統,這種同步研究與推理的方法,顯然更貼近人類認知。
Claude Opus 4和Claude Sonnet 4這種在推理過程中暫停、查找數據并融入新發現的能力,就創造了更自然、更有效的體驗。
模型改進:不偷懶,記性好
此外,Anthropic還顯著減少了模型在完成任務時試圖走捷徑或利用漏洞的行為。
在某類AI智能體任務上,模型特別容易走捷徑,但這次的兩款新模型發生此類行為的概率,比Sonnet 3.7要低65%。
在記憶能力上,Claude Opus 4也顯著優于所有先前的模型。
當開發者構建的應用授予Claude本地文件訪問權限時,Opus 4便能熟練地創建和維護用于存儲關鍵信息的「記憶文件」,從而提高自己在AI智能體任務中的長期任務感知能力、連貫性和整體性能。
一個突出表現就是,Opus 4在玩《寶可夢》時,能創建并使用「導航指南」!
而團隊為Claude 4模型引入的思考摘要功能,會利用一個較小的模型來精簡冗長的思考過程。
不過需要注意,這項功能僅在約5%的情況下才需要啟用——因為大多數思考過程本身就足夠簡短,能夠完整呈現了。
圖片
網友實測:簡直瘋狂
手快的網友們,已經開始實測了。
比如用Claude 4制作一個CRM儀表板,只需30秒,速度直接讓人瞳孔地震。
圖片
連續7小時編程,意味著AI大模型能力發展史上的一次分水嶺。
圖片
僅用一個提示,僅僅一次,Claude 4 Opus就能完成一個可運行的瀏覽器智能體,包括API和前端。
大佬驚呼:不可能,我從未見過這樣的事!
圖片
圖片
另一位獲得提前內測資格的用戶,體感是:Claude 4寫作和編輯能力一流,編碼能力和Gemini 2.5一樣好。
比如,它一次性就構建了一個俄羅斯方塊游戲。
圖片
沃頓商學院教授Ethan Mollick則用Claude 4 Opus制作了一段令人印象極深的視頻,提示詞為「用p5.js創建小說《皮拉內西》的三維世界」。
圖片
圖片
Claude Code
Claude Code,也正式發布了。
由此,Claude的強大功能就融入更多開發工作流程中——無論是在終端、用戶所偏好的IDE中,還是通過Claude Code SDK在后臺運行。
針對VS Code和JetBrains的全新測試版擴展程序,可將Claude Code直接集成到我們的IDE中。
甚至,Claude還會以內聯方式,直接在文件中顯示出編輯建議,這樣就能在我們熟悉的編輯器界面中簡化審查和跟蹤流程。在IDE終端中運行Claude Code,即可安裝。
并且,團隊還發布了一款可擴展的Claude Code SDK,因此開發者可以使用與Claude Code相同的核心AI智能體來構建自己的AI智能體和應用程序。
下面就是一個SDK功能的示例:Claude Code on GitHub,目前仍處于測試階段。
可以看到,在PR(拉取請求)中標記Claude Code,它就能響應審查者反饋、修復CI錯誤或修改代碼。
在Claude Code內運行/install-github-app,就可直接安裝了。
圖片
總的來說,Claude 4是向虛擬協作者邁出的一大步——能夠保持完整的上下文理解,在較長項目中持續專注,從而推動變革性的影響。
此外,兩款模型也都經過了廣泛的測試和評估,最大限度地降低了風險并提高安全性,包括實施了更高級別的AI安全措施(如ASL-3)。
參考資料:https://www.anthropic.com/news/claude-4