最強編程模型Claude 4 發布!7小時編程封王,AI下一站:不只是工具
北京時間今天凌晨,Anthropic 正式發布 Claude 4 系列模型,包括Claude Opus 4 和 Claude Sonnet 4 兩款新模型。其中旗艦模型 Opus 4 以連續 7 小時自主編程的強悍性能,斬獲全球最強編程模型稱號。
Claude 4,再度成為了 AI 編程領域當之無愧的王者。
Opus 4 接到重構某開源項目架構的模糊指令后,自主拆解出 23 個子任務:從代碼模塊解耦、依賴庫升級到單元測試覆蓋,每一步都生成詳細的工作日志。它調用 VS Code 插件修改代碼,通過 GitHub Actions 部署測試環境,甚至在遭遇 API 限流時自動切換工具鏈。
而且整個過程沒有人類干預,最終耗時7小時就交付了完整方案。
這意味著 Claude 不再是被問問題的模型,而是能接目標、配資源、做交付的「智能體」。開發者的角色從指揮官變成了為目標設定者。
在編程領域權威評測 SWE-bench 中,Opus 4 以 72.5% 的準確率碾壓OpenAI o3(69.1%)和谷歌 Gemini 2.5 Pro(63.2%),而性價比更高的 Sonnet4 也以 72.7% 的成績反超旗艦模型。
在 Terminal-bench 這一測試復雜終端交互能力的基準測試中,Opus 4 同樣以 43.2% 的成績領先于所有競爭對手。這意味著 AI 已能處理真實開發環境中大部分的瑣碎任務。
在內存能力方面,Claude Opus 4 也顯著超越了所有前代型號。當開發者構建允許 Claude 訪問本地文件的應用程序時,Opus 4 能夠熟練地創建和維護“內存文件”來存儲關鍵信息。這能夠提升代理在長期任務中的感知能力、連貫性和執行性能。
Claude 4 的變化,不只是性能的提升,更重要的是,人機協作的模發生了改變。
之前的大模型,更多是由人類預設步驟之后進行輔助工作,而現在,人類只需要提供目標,AI 就能主動完成從計劃到執行的全部流程。
如果說過去的 AI 競爭聚焦于模型參數、性能的比拼, 那么在未來,真正的較量可能是誰的 AI 能先開始交付成果。
人類對 AI 的期許,已經從先進的工具,上升到能「干活」、具有高產出率的的超級助手,也就是智能體。
這背后,是智能體市場的爆發式增長與全球巨頭新一輪的生態卡位戰。
