只需50美元！最簡單的推理擴展方案，效果媲美o1！

NLP前沿1

發布于 2025-2-7 14:07

瀏覽

0收藏

只需50美元！最簡單的推理擴展方案，效果媲美o1！-AI.x社區

這個工作目標是，找到一種簡單的方法，可以實現test-time scalling。

關鍵點有2個，構建高質量的監督數據1k，用于監督微調；一個Budget Forcing的方法，用于限定模型的推理過程。

經過這么一折騰，模型的性能隨著推理token數量變長而編號。

只需50美元！最簡單的推理擴展方案，效果媲美o1！-AI.x社區

如何構建高質量的1k數據

初始收集：從 16 個不同的來源收集了 59,029 個問題，包括 NuminaMATH、AIME、OlympicArena、OmniMath、AGIEval 等。
最終篩選：通過質量、難度和多樣性三個標準，從 59K 個問題中篩選出 1,000 個樣本。具體步驟包括：

質量：去除格式錯誤或低質量的樣本。

難度：根據模型性能和推理長度評估問題難度，去除模型能正確解答的問題。

多樣性：使用 Claude 3.5 Sonnet 將問題分類到不同的領域，確保樣本覆蓋廣泛的學科。

Budget Forcing （通過在測試時強制設定最大或最小思考 token 數量來控制模型的推理過程）

強制最大思考 token 數量：如果模型生成的思考 token 超過設定的上限，強制結束思考過程，并追加“Final Answer:”以提供當前最佳答案。

強制最小思考 token 數量：如果模型試圖結束思考過程，抑制思考結束 token 的生成，并在當前推理軌跡后追加“Wait”，鼓勵模型繼續思考。

消融實驗：

數據量、多樣性和難度：通過隨機選擇、僅選擇最長推理軌跡或僅最大化多樣性來構建數據集，測試結果表明這些方法的性能均低于結合質量、難度和多樣性的方法。

只需50美元！最簡單的推理擴展方案，效果媲美o1！-AI.x社區

測試時擴展方法：比較了Budget Forcing、條件長度控制和拒絕采樣等方法，發現Budget Forcing在控制性和性能上表現最佳。

只需50美元！最簡單的推理擴展方案，效果媲美o1！-AI.x社區

最后，整個過程證明了通過簡單的測試時擴展方法，使用少量數據即可實現強大的推理性能。s1-32B 模型在多個基準測試中表現出色，超越了閉源模型如 OpenAI 的 o1-preview。

本文轉載自??NLP前沿??，作者：獼猴桃

標簽

s1-32B

模型

已于2025-2-7 15:40:45修改

贊

回復

舉報

回復

相關推薦

華為諾亞頻域LLM「帝江」：僅需1/50訓練成本，7B模型媲美LLaMA，推理加速5倍

輕薄滴假象 ? 3139瀏覽 ? 0回復
剛剛，OpenAI發布史上最強模型-o1，推理能力超人類博士！

Aceryt ? 2752瀏覽 ? 0回復
OpenAI o1模型推理能力大幅提升的背后：重復采樣如何提升AI推理能力

Syrupup ? 3881瀏覽 ? 0回復
OpenAI o1引發的思維鏈思考：思維鏈提示啟發大模型推理

angel ? 3947瀏覽 ? 0回復
OpenAI o1推理模型基礎入門

51CTO內容精選 ? 2530瀏覽 ? 0回復
o1推理擴展的風吹到了RAG，性能飆升58.9%！

PaperAgent ? 2763瀏覽 ? 0回復
OpenAI o1：用內部思維鏈進行復雜推理

shizhi02 ? 2676瀏覽 ? 0回復
o1快慢思考的風又吹到了Agent！

PaperAgent ? 3096瀏覽 ? 0回復
向o1看齊，Google開源RAG推理擴展，提升近60%

NLP前沿1 ? 2236瀏覽 ? 0回復
解密o1推理過程！DeepSeek-R1-Lite預覽版上線

kede96 ? 3179瀏覽 ? 0回復
解讀 Marco - o1：邁向開放式推理模型的探索與實踐

AI論文解讀 ? 2873瀏覽 ? 0回復
o1的規劃能力如何？LRM是未來嗎？

探索AGI ? 2126瀏覽 ? 0回復
阿里發布類o1模型QWQ，可自我反思糾錯，實測數學推理遠超o1、DS-R1，人人免費

51CTO技術棧 ? 3059瀏覽 ? 0回復
Kimi深夜炸場：滿血版多模態o1級推理模型！OpenAI外全球首次！Jim Fan：同天兩款國產o1絕對不是巧合！

51CTO技術棧 ? 2322瀏覽 ? 0回復
DeepSeek R1 Vs OpenAI o1！全球頂級推理模型訓練技術對比大解密！

51CTO技術棧 ? 6116瀏覽 ? 0回復
李飛飛+50美元+蒸餾 S1=? DeepSeekR1

CourseAI ? 2418瀏覽 ? 0回復
S1：簡單高效的測試時推理能力擴展方法

上堵吟1 ? 2251瀏覽 ? 0回復
o1模型醫學推理驚人，超過人類醫生

Aceryt ? 2038瀏覽 ? 0回復
比DeepSeek、o1高3倍！首創無服務器強化微調，只需十幾個數據點

Aceryt ? 1898瀏覽 ? 0回復

NLP前沿1

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

只需50美元！最簡單的推理擴展方案，效果媲美o1！

目錄