成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首個混合推理模型Claude 3.7發布!編程能力全面領先,還能精準控制思考時間

人工智能
GPQA是一組常用的具有挑戰性的生物、化學和物理問題。 Claude 3.7 Sonnet 使用 256 個獨立樣本的等效計算、學習的評分模型和最大64 token的思維成本之下,取得了 84.8% 的 GPQA 分數(包括 96.5% 的物理子分數)。

Claude深夜重磅發布新模型——

Claude 3.7 Sonnet,首個混合推理模型問世,在編碼和前端Web開發方面顯著提升,實現了全面領先。

圖片圖片

與o3-mini實際對比,相同的提示詞下,Claude 3.7 Sonnet的表現。

o3-mini:

Claude 3.7 Sonnet:

(提示詞:編寫一個 p5.js 腳本,模擬 100 個彩球在球體內彈跳。每個球都應留下一條逐漸消失的軌跡,顯示其最近的運動軌跡。容器球體應緩慢旋轉。確保實現適當的碰撞檢測,使球保持在球體內。)

還有用它來做視頻游戲。

作為混合推理模型,它有兩種思考模式:

近乎實時地反應&擴展地、循序漸進(step-by-step)地思考。

擴展思維模式下,它在數學、物理、指令遵循、編碼等多個任務中有額外的提升。

圖片圖片

API用戶甚至還可以精準控制模型的思考時間。目前已經在全平臺上線,包括亞馬遜云服務Bedrock平臺、谷歌云,而要想要擴展思考模式,除免費版外其他都可以用。

圖片圖片

模型升級,價格不變——

與前代產品相同,每百萬輸入token 3 美元,每百萬輸出token 15 美元(其中包括思考代幣)。

除此之外,他們還發布了他們首個編碼工具Claude Code

它能夠一次性完成原本需要45分鐘以上手動才能完成的工作。

圖片圖片

網友們紛紛表示,已經迫不及待地想用上了。

圖片圖片

不過,為什么是3.7版本呢?

圖片圖片

Claude 3.7 Sonnet:首個混合推理模型

官方此次首先表示,他們開發Claude 3.7 Sonnet這個的理念與市場上其他推理模型不同。

類比于人類大腦有快速反應和深度思考兩種一樣,他們認為推理應該是前沿模型的綜合能力,而不是完全獨立的模型。

由此,Claude 3.7 Sonnet在多個方面都有體現這個理念。

首先,Claude 3.7 Sonnet 既是普通的 LLM 模型,又是推理模型:

您可以選擇何時讓模型正?;卮?,何時讓模型在回答前思考更長時間。

在標準模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升級版。在擴展思維模式下,它會在回答前進行自我反思,從而提高其在數學、物理、遵循指令、編碼和許多其他任務上的表現。

圖片圖片

在兩種模式下,對模型的提示方式類似。

這是代碼生成任務下,兩種思維模式回答之間的區別。

圖片圖片

其次,控制思考預算,用速度和成本來換取答案的質量。

API用戶可以告訴Claude思考的數量不超過 N 個token,N 的值可以是任何值,但輸出上限不能超過 128K個token。

模型能力的表現,也就取決于允許思考的token數量。例如以下在AIME 2024的成績圖。

圖片圖片

第三,優化重點轉向更能反映用戶需求的現實世界任務,對數學和計算機競賽問題優化較少。

圖片圖片

△解決實際的概率問題

編碼任務,網友們對它這種「vibe coding」(面對非開發人員的AI輔助編碼)印象深刻。

有網友實測發現,確實能解決其他模型無法解決的問題。>你能用 p5js 編寫最復雜的布料模擬嗎?

結果Grok 3 和o1 pro沒有可用的結果。而Claude 3.7 Sonnet的表現是:

在代理工具使用上面,實現了SOTA。

圖片圖片

Claude 3.7 Sonnet 在指令遵循、一般推理、多模態能力和代理編碼方面表現出色,擴展思維在數學和科學方面提供了顯著的提升。

圖片圖片

除了傳統的基準測試之外,它甚至在寶可夢游戲測試中超越了所有以前的模型——

團隊為Claude配備了基本內存、屏幕像素輸入以及按鍵和屏幕導航的功能調用,使其能夠超越通常的上下文限制,持續玩游戲,并通過數以萬計的交互進行游戲。

最終實驗表明,它是迄今所有Sonnet模型中表現最好的,它成功與三個寶可夢道館館主(游戲的 Boss)戰斗并贏得他們的徽章。相比之下,Claude 3.0 Sonnet 甚至無法離開故事開始的地方Pallet Town 的房子。

x 軸表示 Claude 在玩游戲時完成的互動次數;y 軸表示游戲中的重要里程碑,包括收集某些物品、導航到某些區域以及擊敗某些Boss。

圖片圖片

此次,研究人員使用了并行測試時間計算來提高模型的性能。

他們的方法是對多個獨立思考過程進行采樣,并在事先不知道真實答案的情況下選出最佳答案。其中一種方法是使用多數投票;選擇最常見的答案作為 “最佳 ”答案。另一種方法是使用另一個語言模型(比如Claude的第二個副本),要求它檢查自己的工作或學習的評分函數,然后選出它認為最好的答案。

結果在GPQA評估中,這一方法讓模型取得了驚人的改進。

GPQA是一組常用的具有挑戰性的生物、化學和物理問題。 Claude 3.7 Sonnet 使用 256 個獨立樣本的等效計算、學習的評分模型和最大64 token的思維成本之下,取得了 84.8% 的 GPQA 分數(包括 96.5% 的物理子分數)

圖片圖片

此外,Claude 3.7 Sonnet 還對有害請求和良性請求進行了更細致的區分,與前代版本相比,不必要的拒絕次數減少了 45% 。

圖片圖片

Claude首個編碼工具面世

Claude Code,從官方透露的功能看,它可以搜索和讀取代碼、編輯文件、編寫和運行測試、提交和推送代碼到 GitHub以及使用命令行工具。

圖片圖片

目前還只是早期的預覽版,可直接在終端運行。

圖片圖片

早期測試中,Claude Code可以一次性完成了通常需要 45 分鐘以上手動操作才能完成的任務,從而減少了開發時間和開銷。

在接下來的幾周內,他們計劃結合他們使用情況不斷改進它——

比如增強工具調用的可靠性,增加對長時間運行的命令的支持,改進應用內渲染,并擴展 Claude 對其功能的理解。

除此之外,他們還改進了 Claude.ai 上的編碼體驗。GitHub 集成現已在所有Claude使用平臺中提供,開發人員可以將其代碼存儲庫直接連接到 Claude。

參考鏈接:
[1]https://www.anthropic.com/news/claude-3-7-sonnet
[2]https://www.anthropic.com/research/visible-extended-thinking
[3]https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking
[4]https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview
[5]https://x.com/deedydas/status/1894110678027571412
[6]https://x.com/_akhaliq/status/1894106278185898489

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-02-25 09:13:16

2025-02-25 09:02:26

2025-04-18 10:36:42

2025-02-25 11:59:44

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-03-12 12:07:07

2025-02-26 09:24:03

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-06-08 14:15:42

2025-02-25 10:08:38

2025-02-26 10:10:12

2025-02-14 11:18:57

2012-03-16 10:02:28

ZK StudioJavaEclipse

2025-04-30 02:00:00

2025-02-25 09:43:19

2025-04-18 10:43:23

2025-05-12 08:20:13

2025-06-11 14:39:50

AILLMMistral

2024-12-31 12:32:11

2009-10-20 11:03:18

Spring 3.0
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 毛片入口| 一本一道久久a久久精品蜜桃 | 亚洲国产成人av好男人在线观看 | 欧美日韩久久久 | 亚洲九色 | 精品欧美一区二区三区免费观看 | 国产精品美女一区二区三区 | 欧美日在线 | 91青娱乐在线 | 免费的色网站 | 国产精品一区二区三区免费观看 | 综合色久 | 成人精品一区二区三区中文字幕 | 在线观看视频91 | 国产亚洲精品精品国产亚洲综合 | 欧美不卡在线 | 国产偷录叫床高潮录音 | 国产日韩精品在线 | 久久国产视频播放 | 韩国电影久久 | 91在线精品秘密一区二区 | a毛片 | 天天插天天操 | 久久精品国产99国产 | 在线91| 九九精品视频在线 | 日韩在线不卡 | 能看的av网站 | 玖玖操| 久久国产精品视频 | 日韩福利视频 | 国产在线网址 | 中文字幕不卡在线观看 | 精品一二区 | 69电影网 | 久久国产一区 | www.亚洲视频.com | 黄色在线免费观看 | 成人福利网站 | 蜜桃一区二区三区 | 亚洲国产成人精品女人久久久 |