中文比R1絲滑、玩寶可夢還賊溜？全球首個混合推理模型Claude 3.7 Sonnet太驚艷，網友直呼“孤獨求敗”

作者：架構師秋天 2025-02-26 10:10:12

Claude 3.7 Sonnet 既能提供近乎即時的響應（標準模式，standard），也可以向用戶直觀展示其長時間的逐步思考過程（擴展思考模式，extended thinking）。API 用戶還可以對模型的思考時長進行細粒度控制。

當地時間 2 月 25 日，Anthropic 正式發布了 Claude 3.7 Sonnet，“這是迄今為止我們最智能的模型，也是市場上首個混合推理模型。”Anthropic 官方表示。

簡單來說，Claude 3.7 Sonnet 既能提供近乎即時的響應（標準模式，standard），也可以向用戶直觀展示其長時間的逐步思考過程（擴展思考模式，extended thinking）。API 用戶還可以對模型的思考時長進行細粒度控制。

簡而言之，該模型最大的特點就是用戶能控制模型在做出反應前“思考”的時間，這是一項前所未有的技術創新。

Claude 3.7 Sonnet 現已全面登陸所有 Claude 訂閱服務，包括免費版、專業版、團隊版和企業版——以及 Anthropic API、Amazon Bedrock 和谷歌云 Vertex AI 平臺。除免費版 Claude 外，擴展思考模式在所有版本中均可使用。

無論是標準模式還是擴展思考模式，Claude 3.7 Sonnet 都保持了與之前版本相同的定價標準：3 美元/每百萬輸入 token，15 美元/每百萬輸出 token——該費用已包含思考 token 的消耗成本。

Anthropic 表示，自己開發 Claude 3.7 Sonnet 的核心理念與市場上其他推理模型截然不同。“正如人類用同一個大腦既進行快速反應又進行深度思考，我們認為推理能力應該是前沿模型的集成能力，而非完全獨立的模型。這種統一方法也為用戶創造了更無縫的體驗。”

而 Claude 3.7 Sonnet 則通過以下方式體現這一理念：

首先，該模型集普通大型語言模型與推理模型于一體。用戶可以選擇何時需要模型即時響應、何時需要它經過更長時間思考后再作答。在標準模式下，Claude 3.7 Sonnet 代表著 Claude 3.5 Sonnet 的升級版本；而在擴展思考模式下，它會在回答前進行自我反思，從而顯著提升在數學、物理、指令遵循、編程等多領域的表現。Anthropic 發現，模型的提示方式在兩種模式下基本通用。
其次，通過 API 使用 Claude 3.7 Sonnet 時，用戶可自主控制模型的“思考預算（budget for thinking）”：用戶可指定 Claude 的思考過程不超過 N 個 token（N 最高可達 128K token 的輸出上限）。這一機制允許用戶在回答質量與推理速度（及成本）之間進行靈活權衡。
最后，在開發推理模型的過程中，Anthropic 戰略性地略微減少了對數學/計算機科學競賽類題目的專項優化，轉而將研發重點投向更能體現企業實際需求的現實任務，這些任務更能真實地反映大模型在業務場景中的應用方式。

Claude 3.7 Sonnet 在編碼和前端網頁開發領域展現出尤為突出的改進。同步推出的還有專為代理式編碼設計的命令行工具 Claude Code。Claude Code 現以限時研究預覽版形式開放，使開發者能夠直接在終端界面上將大量工程任務委派給 Claude 來完成。

Anthropic 如何進行推理

Anthropic 的擴展思考模式不是通過切換到不同策略模型上實現的，而是讓同一個模型有更多思考時間和計算資源。

Claude 3.7 Sonnet 受益于 Anthropic 稱之為“動作擴展（action scaling）”的增強能力，這種改進使其能夠迭代式調用函數、響應環境變化并持續執行直到完成開放式任務。此類任務的典型案例是計算機操作：Claude 可發出虛擬鼠標點擊和鍵盤敲擊指令來代替用戶解決問題。相較于前代版本，Claude 3.7 Sonnet 在計算機使用任務中可分配更多操作輪次（以及更長時間與算力資源），其執行結果通常也會更出色。

圖片

OSWorld 評估（該基準用于衡量多模態 AI 代理的能力），Claude 3.7 Sonnet 初始表現略有優勢，但隨著模型持續與虛擬計算機的交互，其性能差距會隨時間逐漸擴大

此外，Anthropic 將 Claude 的擴展思考模式與智能體訓練協同作用，意外地在場景應用中實現了突破性提升。

以運行 Game Boy 經典游戲《Pokémon Red》為例：Anthropic 為 Claude 配置基礎記憶模塊、屏幕像素輸入接口及按鈕操作函數調用，使其突破常規上下文限制，通過數萬次交互維持游戲進程。

下圖對比顯示，未搭載擴展思考模式的 Claude Sonnet 舊版本（如 Claude 3.0 Sonnet）在游戲初期即陷入停滯，甚至未能走出故事開始所在的 Pallet Town。然而，Claude 3.7 Sonnet 改進后的智能體大大推進了游戲進程，成功挑戰了三位寶可夢道館館主（游戲中的首領）并贏得徽章。Claude 3.7 Sonnet 善于通過多策略驗證與預設條件動態修正機制，在游戲進程中持續優化自身行為能力。

圖片

Claude 3.7 Sonnet 啟用推理能力時會采用“串行測試時計算（serial test-time compute）”機制，即在生成最終輸出前，執行多個連續的推理步驟，通過動態疊加計算資源方式來實現深度思考。這種機制通常以可預測的方式提升性能：例如數學問題的準確率與允許采樣的“思維令牌（thinking tokens）”數量呈對數增長關系。

Anthropic 研究團隊還在探索通過“并行測試時計算（parallel test-time compute）”來提升模型性能。該方法核心機制為：并行采樣多個獨立思維鏈，在未知正確答案的前提下選取最優解。典型實現路徑包括：多數/共識投票機制：將高頻出現的結果判定為最優解；自檢優化機制：調用輔助語言模型（如第二個 Claude）進行工作校驗，或通過訓練評分函數實現質量評估。

圖片

在 GPQA 評估中通過使用并行測試時計算拓展取得了顯著改進

與各大主流模型對比，性能如何？

基準數據支持了 Anthropic 的雄心壯志。在擴展思考模式下，Claude 3.7 Sonnet 在研究生級推理任務上實現了 78.2% 的準確率，挑戰了 OpenAI 的最新模型，并超越了 DeepSeek-R1。

圖片

人工智能模型對比顯示，Claude 3.7 Sonnet 在各項任務中的表現均優于其前代產品，其擴展思考能力顯著提升。（來源：Anthropic）

在數學解題（MATH 500）方面，Claude 3.7 Sonnet 64K 擴展思考模型表現優異，及格率較上代模型有了很大提升，但仍不及 OpenAI o1、OpenAI o3-mini High、DeepSeek R1 32K Extended Thinking。

圖片

值得一提的是，Claude 3.7 Sonnet 在編程領域的表現尤為突出。Claude 3.7 Sonnet 只借助 bash 編輯器工具和 “思維工具” 進行單次嘗試修補，不額外花時間計算時，通過率能達到 62.3%。要是用上內部評分和自定義框架這些 “特殊手段”，通過率直接漲到 70.3% 。

OpenAI 的 o1 模型通過率是 48.9%，o3-mini (high) 通過率為 49.3%，但和 Claude 3.7 Sonnet 比還有一些差距。DeepSeek R1 的通過率是 49.2% ，表現同樣不如 Claude 3.7 Sonnet。

這么一對比就能發現，在這次 SWE-bench Verified 編程測試里，不論是正常測試，還是用了優化方法之后，Claude 3.7 Sonnet 的成績都優于其他模型。這就說明它在處理軟件工程項目相關的編程任務時，能力更強，能滿足更多的編程需求。

網友怎么看？

Claude 3.7 的發布在 Hacker News 上引發了熱議。有用戶贊揚 Claude 的簡潔易用，為其工作和學習提供了很多幫助。只是服務的穩定性較差，希望可以改進服務。

“Claude 是我在學習大模型課程時的首選工具。雖然聽起來可能有點老套，但它確實極大地擴展了我的學習范圍。現在，我正在嘗試閱讀一些古老的哲學文本（我沒有任何相關背景），如果沒有 Claude 的幫助，我早就放棄了。它能夠用簡單的語言解釋那些晦澀難懂的內容，和我討論其中的思想，提供歷史背景，解釋作者的寫作意圖，并將這些古老的思想與現代觀點進行對比。
在工作中，我每天都會多次使用 Claude 來輔助開發。與其他大模型相比，它的簡潔模式讓我感到非常舒適。它幫助我在外部代碼庫中發現錯誤，向我解釋技術棧，編寫 Bash 腳本，為我節省了大量的時間和精力。它讓我能夠完成那些因為時間緊張而無法完成的任務。
唯一的缺點是它的服務穩定性比其他工具稍差一些，有時我不得不切換到其他服務。這個問題可能不太好解決，但我還是想問：是否有計劃改進這一點？”

還有用戶稱 Claude 在編程方面優勢太明顯了，甚至改變了自己的生活和工作方式。

“在編碼方面，Claude 的一個顯著優勢是，當你通過網頁界面使用它時，它不依賴于檢索增強生成（RAG）。雖然這會消耗更多的 token，但模型能夠直接看到所有內容，從而以更高質量的方式回復。
我想知道，Claude Code 是否也采用了類似的方式，只是改用了文檔級別的 RAG？也就是說，如果一個文檔是相關的，并且適合上下文窗口，那么整個文檔都會被加載進去。如果是這樣，那就太棒了！這也意味著將大型代碼庫拆分為更小的、可管理的文件會變得越來越有意義。
最后，我想對 Claude Sonnet 表達由衷的感謝。在過去的幾個月里，它徹底改變了我的工作方式，讓我能夠完成更多的事情。非常感謝！”

Claude Code 團隊的 Boris 在 Hacker News 上在線給網友答疑，他表示：“Claude Code 目前不使用 RAG。我們在測試中發現，對于人們使用 Code 進行的事情，Agentic Search 的表現優于 RAG。”

阿里不經意間“接招”了？

恰巧，阿里云 Qwen 團隊也在今天推出了全新推理模型系統"深度思考（QwQ）"，該系統由處于測試階段的 QwQ-Max-Preview 驅動。據介紹，該 AI 架構基于 Qwen2.5-Max 模型進行深度優化，也在在數學解析、代碼生成和智能體開發等領域展現出顯著提升的認知能力與創新思維。

圖片

該預覽版本整合了雙重功能模塊：一方面構建了深度推理引擎，另一方面接入了實時網絡信息檢索接口。在交互設計上，系統采用了類似 Claude Artifacts 的多窗口界面方案，通過獨立內容展示區實現創作過程與主對話流的分離式呈現。

在功能擴展性方面，QwQ 系統實現了模塊化工具調用機制，現已支持圖像合成、動態二維碼生成、實時氣象數據獲取等多樣化服務，并具備多工具并行調用能力。開發團隊透露，正式版 QwQ-Max 將同步推出移動端應用程序（涵蓋 Android/iOS 平臺），且計劃依據 Apache 2.0 開源協議向技術社區開放 QwQ-Max 及 Qwen2.5-Max 的模型參數。

值得關注的是，該系列還將推出面向邊緣計算場景的輕量化版本，其中 QwQ-32B 模型專為本地化部署設計，可在終端設備實現高效運行。

圖片