沸騰了!新的推理模型編碼能力爆表!是的,那個王,他又回來了! 精華
圣誕節在二月,Claude扔了個王炸!
看來爆料者的信息還挺準的:
明天:Claude 4沒等到,Claude 3.7 要來了?
不是嘛,哈哈哈。
Anthropic 官方有個毛病,他們通常不會做任何的預發布,大半夜他給你扔出來了個王炸:
這次的新模型叫:Claude 3.7 Sonnet,它帶來了一種新的思維方式。它不再把快速回答和深度思考割裂開來,而是像人類大腦一樣,在同一個模型中實現兩種能力。
Claude 3.7 Sonnet既能快速回答問題,也能在需要時進行深度思考,給用戶帶來更流暢的體驗。
這種統一的設計讓用戶在使用時感受到更自然的互動,兩種模式下的提示詞方式基本相同,仿佛在與一個真正的助手對話。
你可以選擇標準模式,快速得到答案;也可以切換到擴展思考模式,讓Claude在回答前自我反思,這樣在數學、物理、編碼等任務上表現會更好。在擴展思考模式下,Claude會花更多時間分析問題,從而提供更準確和深入的回答,特別是在復雜的學科領域。
如果你通過API使用Claude,還可以控制思考的預算,決定Claude可以思考多少個token,最高128K。這意味著你可以根據任務重要性,精確設定模型思考的深度。在速度、成本和答案質量之間找到最佳平衡點。與其他模型不同,Claude更注重實際商業應用,而非競賽題目。
Claude編程能力直接起飛!
看看這張圖,Claude 3.7 Sonnet在編程測試中拿到了70.3%的高分,把其他大模型全部甩在身后。
OpenAI的o1、o3-mini和DeepSeek R1都擠在49%左右打轉,Claude直接領先20個百分點。
Sonnet 3.7顯然將重點放在編碼能力上,其他領域似乎并不是他們的主要關注點(你可以看到 Grok3 在MMMLU、AIME2024上是超過他的)。
雖然在其他知識測試上Claude只是小幅提升,但編程能力這一下子就上了一個臺階。
這表明,Anthropic希望將Sonnet定位為一款強大的編碼AI。
Anthropic這是明擺著要把Claude打造成編程專家啊。畢竟它本來就已經很擅長寫代碼了,現在更是實力大增。
它絕對適合程序員。它將有助于創建應用程序和游戲。
使用 API,128K最大輸出(VIBE 編碼萬歲)
這次的更新特別加強了編碼和前端開發的能力。
Claude 3.7 Sonnet現在在所有計劃中都可以使用,包括免費版、專業版、團隊版和企業版。
也能在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用。不過免費用戶不提供擴展思維模式。
定價方面,與前代模型相同:每百萬輸入token 3美元,每百萬輸出token 15美元(包括思考token)。
所以,還有個3.5超大大大杯呢?
此外,我們很早知道Claude 能夠處理復雜的代碼庫和高級工具使用。許多開發者發現,Claude在規劃代碼變更和處理全棧更新時,表現得比其他模型更為出色,極大地提高了工作效率。
在實際測試中,它的編程能力全面領先:Cursor發現它處理復雜代碼庫的能力顯著提升;Cognition認為它在規劃代碼變更和全棧更新方面遠超其他模型;Vercel強調了它在復雜工作流程中的精確性;Replit成功用它構建了其他模型無法完成的復雜應用;Canva則證實它能生成具有設計品味的生產級代碼。
所以。現在Sonnet 3.7 這個代碼提升。。。刷卡吧 ~
網友:“ 感謝@cursor_ai提供所有訓練數據... ”
這一點確實需要關注,當一個LLM被作為主流模型用在最真實開發場景中時,這種珍貴數據帶來的能力提升可想而知。。。
就在Sonnet 3.7 凌晨2:30發布之后,有網友馬上催Cursor官方:該上號了!
而僅僅過了4分鐘。
凌晨 2:34 我就看到我的Cursor它更新了,集成了Sonnet 3.7。。。
并且官方更新了推文:
他們肯定是串通好的。。。
官方建議啟用代理模式使用Sonnet 3.7。
我還看到了Cursor UI大更新,比較清爽簡潔了。
是覆蓋各個小操作細節的清爽簡潔。
上次還在夸Trae的界面,這次Cursor似乎也往這個方向優化了。
還有現在跨聊天對話,你不需要通過復制上一個聊天窗口的內容作為上下文加入新窗口。
他現在有一個功能是總結整個聊天的摘要然后直接繼承到新開的聊天窗口中,所以這又是一個痛點被解決。
。
還有網友建議Cursor 后續把 Sonnet 3.7 思維動態選擇加上,畢竟現在只更新了模型。
好了,繼續看基準測試。
TAU-bench零售場景達81.2%,航空場景達58.4%,全面領先其他模型。
TAU-bench 是一個框架,用于測試 AI 代理在復雜的現實任務中與用戶和工具交互。
Claude 3.7 Sonnet幾乎是全能選手,它在指令理解、推理能力、多模態處理和代碼編寫上都表現出色。開啟擴展思考模式后,在數學和科學問題上更是突飛猛進。
Claude也玩起了寶可夢,還玩得挺溜!
有意思的是,它不僅在傳統測試中表現優秀,連玩寶可夢游戲都比之前的所有模型強:
看看這張圖,太有意思了。Anthropic讓Claude玩起了經典的Game Boy游戲《寶可夢紅版》,還把不同版本的Claude放在一起比賽。
最老的Claude 3.0連主角家門都出不去,卡在游戲最開始的小鎮上。Claude 3.5稍微好點,能到達森林和第一個城市。
但Claude 3.7 Sonnet簡直是開掛,它不僅能探索多個城市,還打敗了三個道館館主,拿到了三個徽章。
秘訣在哪?研究人員給了Claude基本的記憶能力、屏幕像素輸入和按鍵功能,讓它能持續游戲數萬次交互。Claude 3.7會嘗試不同策略,質疑自己之前的假設,隨著游戲進行不斷提升自己的能力。
這不僅是個有趣的測試,也展示了Claude在復雜任務中的學習和適應能力。
長時間保持專注,完成沒有明確終點的任務。
這種能力放到實際工作中有多強?開發者可以用它來打造各種高級AI助手,處理那些需要持續思考和靈活應對的復雜任務。
游戲只是測試場,真正的價值在于現實世界的應用。
看看網友們的評價:
關于為什么會有寶可夢這個基準測試,官方說的很清楚,想要詳細了解的看這里:
https://www.anthropic.com/research/visible-extended-thinking
網上已經有了關于Sonnet 3.7的實際測試例子:
你在開玩笑吧,哥們? 之 測試非標準草莓單詞計數:
網友辣評:
這可真是真正的硬編碼種子選手啊。。。
還有解決復雜的3d布料模擬:
三維可視化微分音樂:
最好看的網站登陸頁:
Sparks of AGI paper:
UI很好看的心率綁定Snake 游戲:
C語言流體模擬器
同時,Anthropic還發布了智能編碼工具:Claude Code。專為開發者設計。
自2024年6月以來,Sonnet已成為全球開發者的首選模型。Claude Code是首個主動協作的編碼工具,能夠搜索和閱讀代碼、編輯文件、編寫和運行測試、提交代碼到GitHub,并使用命令行工具。
你可以直接在終端里把工程任務交給Claude,省時省力。(你應該知道Aider)
在實際應用中,Claude Code在測試驅動開發、調試復雜問題和大規模重構中表現出色,完成任務的時間從45分鐘縮短到一次性完成。
未來,Anthropic 將持續改進Claude Code,增強工具調用的可靠性,支持長時間運行的命令,改進應用內渲染,并擴展Claude對自身能力的理解。
限量預覽:https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview
And 。。。
我們這三天的時間線,可能是這樣的。
以及Grok。。。
關于Claude3.7 這個命名。。。claude-3-7-sonnet-20250219。
One More Thing
根據圖表,Claude的發展路線圖顯示到2024年,它將幫助個人更好地完成當前工作,提升每個人的能力。
到2025年,Claude將開始與專家進行深入合作,獨立完成大量工作,擴展個人和團隊的能力。
而到了2027年,Claude將能夠找到突破性解決方案,解決那些需要團隊多年才能完成的復雜問題。
這意味著我們可能在接下來的幾年里,見證一個“幾乎”快速起飛的階段,朝著超人工智能(ASI)邁進。
這樣的進展確實令人興奮,未來的可能性似乎越來越近了!
大家如此深愛的一個模型,可能叫Claude吧。
參考鏈接:[1] https://x.com/AnthropicAI/status/1894092430560965029
本文轉載自??AI進修生??,作者: Aitrainee ????
