成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<samp id="o6g4s"><noscript id="o6g4s"></noscript></samp><noscript id="o6g4s"><del id="o6g4s"></del></noscript>

<strike id="o6g4s"></strike>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

訓(xùn)練1000樣本就能超越o1，李飛飛等人畫出AI擴(kuò)展新曲線

作者：機(jī)器之心 2025-02-06 08:45:22

人工智能新聞

最近一段時(shí)間，全世界的科技公司、研究團(tuán)隊(duì)都在嘗試復(fù)現(xiàn) DeepSeek，但如果這個(gè)時(shí)候有人說「我還能大幅改進(jìn) AI 的推理效率」，你會(huì)怎么想？

今年 1 月，DeepSeek R1 引爆了全球科技界，它創(chuàng)新的方法，大幅簡化的算力需求撼動(dòng)了英偉達(dá)萬億市值，更引發(fā)了全行業(yè)的反思。在通往 AGI（通用人工智能）的路上，我們現(xiàn)在不必一味擴(kuò)大算力規(guī)模，更高效的新方法帶來了更多的創(chuàng)新可能。

最近一段時(shí)間，全世界的科技公司、研究團(tuán)隊(duì)都在嘗試復(fù)現(xiàn) DeepSeek，但如果這個(gè)時(shí)候有人說「我還能大幅改進(jìn) AI 的推理效率」，你會(huì)怎么想？

s1 論文作者，斯坦福大學(xué)在讀博士 Niklas Muennighoff 表示，DeepSeek r1 令人興奮，但其缺少 OpenAI 的測試時(shí)間擴(kuò)展圖并且需要大量數(shù)據(jù)。我們推出的 s1 僅使用 1K 樣本和簡單的測試時(shí)間干預(yù)即可重現(xiàn) o1 的預(yù)覽擴(kuò)展和性能。

這個(gè)新方法叫 s1。本周，斯坦福大學(xué)、華盛頓大學(xué)等研究機(jī)構(gòu)嘗試了最簡化實(shí)現(xiàn)測試時(shí)間擴(kuò)展（test-time scaling）的方法，僅讓模型訓(xùn)練 1000 個(gè)問題就獲得了超越 o1 的強(qiáng)推理性能。

測試時(shí)間擴(kuò)展是一種有前途的語言建模新方法，它使用額外的測試時(shí)間計(jì)算來提高模型性能。此前，OpenAI 的 o1 模型展示了這種能力，但并未公開分享其方法。很多工作都在嘗試復(fù)現(xiàn) o1，這些嘗試包含蒙特卡洛樹搜索、多智能體等等。今年 1 月開源的 DeepSeek R1 成功實(shí)現(xiàn)了 o1 級別的性能，它是在數(shù)百萬個(gè)樣本上通過多訓(xùn)練階段強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的。

在 s1 的新工作中，研究人員尋求最簡單的方法來實(shí)現(xiàn)測試時(shí)間擴(kuò)展。它們構(gòu)建了一個(gè)小型數(shù)據(jù)集 s1K，其中包含 1000 個(gè)問題，并根據(jù)三個(gè)標(biāo)準(zhǔn)（難度、多樣性和質(zhì)量）與推理軌跡進(jìn)行配對。

在此基礎(chǔ)上，研究人員開發(fā)了「預(yù)算強(qiáng)制」來控制測試時(shí)間計(jì)算，方法是強(qiáng)制終止模型的思考過程，或者在模型試圖結(jié)束時(shí)多次將「等待」附加到模型的生成中以延長思考。這有可能會(huì)導(dǎo)致模型仔細(xì)檢查其答案，修復(fù)其不正確的推理步驟。

在 s1K 上對 Qwen2.5-32B-Instruct 語言模型進(jìn)行監(jiān)督微調(diào)（16 塊 H100 GPU，26 分鐘）并為其設(shè)定預(yù)算強(qiáng)制后，新模型 s1-32B 在競賽數(shù)學(xué)問題上的表現(xiàn)比 o1-preview 高出 27%（MATH 和 AIME24）。

s1 性能與其他大模型的對比。

論文：《s1: Simple test-time scaling》
論文鏈接：https://arxiv.org/abs/2501.19393
項(xiàng)目鏈接：https://github.com/simplescaling/s1

測試時(shí)間擴(kuò)展

本文將測試時(shí)間擴(kuò)展方法分為兩類：

序列擴(kuò)展，即后續(xù)計(jì)算依賴于先前的計(jì)算結(jié)果；
并行擴(kuò)展，即計(jì)算獨(dú)立運(yùn)行。

本文專注于序列擴(kuò)展，因?yàn)橹庇^上其具有更好的擴(kuò)展性，因?yàn)楹罄m(xù)計(jì)算可以基于中間結(jié)果進(jìn)行，從而實(shí)現(xiàn)更深層次的推理和迭代優(yōu)化。

此外，本文還提出了新的序列擴(kuò)展方法以及對其進(jìn)行基準(zhǔn)測試的方式。

預(yù)算強(qiáng)制（Budget forcing）。本文提出了一種簡單的解碼時(shí)間（decoding-time ）干預(yù)方法，通過在測試時(shí)強(qiáng)制設(shè)定最大或最小思考 token 數(shù)量來實(shí)現(xiàn)。圖 3 為該方法的一個(gè)示例展示，說明了這種簡單的方法可以引導(dǎo)模型得出更好的答案。

具體來說，本文通過簡單地追加思考結(jié)束（end-of-thinking）token 分隔符和「Final Answer:」來強(qiáng)制設(shè)定最大 token 數(shù)量，從而提前退出思考階段，使模型提供其當(dāng)前的最佳答案。為了強(qiáng)制設(shè)定最小 token 數(shù)量，本文抑制思考結(jié)束 token 分隔符的生成，并選擇性地在模型的當(dāng)前推理軌跡后追加字符串「Wait」，以鼓勵(lì)模型反思其當(dāng)前生成的內(nèi)容。

基線。本文用以下方法對預(yù)算強(qiáng)制進(jìn)行基準(zhǔn)測試：

（I）條件長度控制方法，該方法依賴于在提示中告訴模型它應(yīng)該生成多長時(shí)間。本文按粒度將它們分組為（a）token 條件控制，在提示中指定思考 token 的上限；（b）步驟條件控制，指定思考步驟的上限；（c）類條件控制，編寫兩個(gè)通用提示，告訴模型思考一小段時(shí)間或很長一段時(shí)間。

（II）拒絕采樣，即采樣直到生成符合預(yù)定的計(jì)算預(yù)算。

實(shí)驗(yàn)

在訓(xùn)練階段。本文使用 s1K 數(shù)據(jù)集對 Qwen2.5-32B-Instruct 進(jìn)行監(jiān)督微調(diào)，以獲得本文的模型 s1-32B。微調(diào)是在 16 臺(tái) NVIDIA H100 GPU 上使用 PyTorch FSDP 進(jìn)行的，耗時(shí) 26 分鐘。

評估。本文采用了三個(gè)推理基準(zhǔn)進(jìn)行評估。

AIME24 包含 30 個(gè)問題，這些問題來自 2024 年 1 月 31 日至 2 月 1 日舉行的美國 AIME 數(shù)學(xué)競賽。AIME 用來測試模型在算術(shù)、代數(shù)、計(jì)數(shù)、幾何、數(shù)論、概率等領(lǐng)域的能力；
MATH500 是一個(gè)包含不同難度競賽數(shù)學(xué)問題的基準(zhǔn)；
GPQA Diamond 包含 198 個(gè)來自生物學(xué)、化學(xué)和物理學(xué)的博士級科學(xué)問題。

其他模型。本文將 s1-32B 與以下模型進(jìn)行基準(zhǔn)測試對比：OpenAI o1 閉源系列模型；DeepSeek r1 開源模型；Qwen 的 QwQ-32B-preview 等模型。

值得一提的是，s1-32B 是完全開源的，包括權(quán)重、推理數(shù)據(jù)和代碼。

性能

測試時(shí)間擴(kuò)展。圖 1 展示了 s1-32B 在使用預(yù)算強(qiáng)制技術(shù)后，隨著測試時(shí)間計(jì)算資源的增加，性能的變化情況。

圖 4（左）擴(kuò)展了圖 1（中）的圖表，結(jié)果顯示雖然本文可以通過預(yù)算強(qiáng)制技術(shù)和更多的測試時(shí)計(jì)算資源提升 AIME24 的性能，但最終在六倍計(jì)算量時(shí)趨于平緩?？梢缘贸鲞^于頻繁地抑制思考結(jié)束 token 分隔符可能會(huì)導(dǎo)致模型陷入循環(huán)重復(fù)，而不是持續(xù)推理。

圖 4（右）展示了在對 Qwen2.5-32B-Instruct 進(jìn)行 1,000 個(gè)樣本的訓(xùn)練，從而生成 s1-32B，并為其配備簡單的預(yù)算強(qiáng)制技術(shù)后，它進(jìn)入了一種不同的擴(kuò)展范式。通過多數(shù)投票在基礎(chǔ)模型上擴(kuò)展測試時(shí)間計(jì)算資源無法趕上 s1-32B 的性能，這驗(yàn)證了這一直覺，即序列擴(kuò)展比并行擴(kuò)展更有效。

圖 5 提供了 s1-32B 的生成示例。

樣本效率。圖 2（右）和表 1 將 s1-32B 與其他模型進(jìn)行了比較。

結(jié)果顯示， s1-32B 是樣本效率最高的開放數(shù)據(jù)推理模型。盡管只在額外的 1000 個(gè)樣本上進(jìn)行訓(xùn)練，但它的表現(xiàn)明顯優(yōu)于基礎(chǔ)模型（Qwen2.5-32B-Instruct）。

r1-32B 在僅使用 SFT 的情況下表現(xiàn)出比 s1-32B 更好的性能，但前者是在 800 倍以上的推理樣本上進(jìn)行訓(xùn)練的。僅用 1000 個(gè)樣本是否能達(dá)到這個(gè)性能還是一個(gè)懸而未決的問題。

s1-32B 在 AIME24 上幾乎與 Gemini 2.0 Thinking 相匹配，因?yàn)?s1-32B 是從 Gemini 2.0 中蒸餾出來的，這表明本文的蒸餾程序可能是有效的。

最后，本文還進(jìn)行了一系列消融實(shí)驗(yàn)，感興趣的讀者，可以查看原論文，了解更多內(nèi)容。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 研究模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：国产一区二区精华 | 欧美天堂在线 | 亚洲毛片 | 精品视频一区二区三区 | 精品国产乱码久久久久久a丨 | 久久久精| 精品一二三 | 欧美女优在线观看 | 久久99精品视频 | 免费观看一级黄色录像 | 一二区电影| 日韩二区| 久久av一区二区三区 | av三级| 色一级片 | 日韩高清一区二区 | 国产成人免费视频 | 91在线看片 | 美人の美乳で授乳プレイ | 久久国产精品视频 | 亚洲国产精品久久久久 | 给我免费的视频在线观看 | 日韩一级 | 午夜精品一区二区三区在线观看 | 日本成人久久 | 99国产精品视频免费观看一公开 | 国产精品美女久久久久久不卡 | 夜夜草| 国产福利在线视频 | 最新中文字幕第一页视频 | 日韩中文在线视频 | 久久国产精品一区二区三区 | 欧美aⅴ片 | 国产99久久精品一区二区300 | 七七婷婷婷婷精品国产 | 中文字幕日韩一区 | 日本一区二区三区视频在线 | 亚洲精品68久久久一区 | h视频在线免费观看 | 亚洲精品久久久久久国产精华液 | 成人影院av |

<center id="kgqmw"><table id="kgqmw"></table></center>

<samp id="kgqmw"><noscript id="kgqmw"></noscript></samp>

<abbr id="kgqmw"><object id="kgqmw"></object></abbr>

<center id="kgqmw"></center>

<kbd id="kgqmw"></kbd><abbr id="kgqmw"><menu id="kgqmw"></menu></abbr>