成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI o1模型推理能力大幅提升的背后:重復采樣如何提升AI推理能力 精華

發布于 2024-9-14 11:47
瀏覽
0收藏

今天OpenAI對外發布了o1模型,最大的特點便是推理能力大大增強,推理速度大大變慢。傳統大模型都在比拼降低響應延遲的時候,OpenAI竟然做了一個“超慢”模型。

OpenAI o1模型推理能力大幅提升的背后:重復采樣如何提升AI推理能力-AI.x社區

為什么會這樣

答案就在下面這張圖里,它解釋了o1的推理工作原理,也回答了它為啥變慢。

OpenAI o1模型推理能力大幅提升的背后:重復采樣如何提升AI推理能力-AI.x社區

o1模型的特點是在回答前進行思考,并不直接給出推理結果,響應用戶之前會產生長串的內部思維鏈,生成不同的方法,進行驗證嘗試,有成功的,也有失敗的,但不會展示給用戶,就像是打草稿一樣,直到得出答案,最后再丟棄草稿,以保持回答簡潔,上下文干凈。這樣的好處是既能進行復雜推理,又能保持對話的連貫和效率。也正是如此,為了區分內部推理使用的token與輸入輸出token,引入了推理token的概念,也就是“草稿”token,值得注意的是,這一token量可能會大大高于輸入輸出token數,進而帶來很高的使用成本。

測試時計算

這里先不談創新的大規模強化學習算法在模型訓練時對性能的提升因素,而聚焦在另一個提升模型性能的因素上,這就是測試時計算。可見他們不僅首先提出了訓練時的縮放定律(scaling laws),也很早就洞察到推理時縮放定律),其訣竅便是”別人問問題,別急著回答,先在心里打草稿,想好了再回答“,雖然回答速度慢了,但是準確率高了。這一過程中一個很重要的內容便是重復采樣。

OpenAI o1模型推理能力大幅提升的背后:重復采樣如何提升AI推理能力-AI.x社區

咱們今天介紹這一領域的代表論文《Large Language Monkeys: Scaling Inference Compute with Repeated Sampling》,該研究揭示了重復采樣(repeated sampling)能夠顯著提升AI模型的推理能力,特別是在編程和數學等領域。

OpenAI o1模型推理能力大幅提升的背后:重復采樣如何提升AI推理能力-AI.x社區

重復采樣:讓AI多試幾次

重復采樣的核心思想很簡單:不要局限于模型的單次輸出,而是讓它生成多個答案,然后從中選擇最佳結果。這種方法類似于人類在解決復雜問題時的"頭腦風暴"過程,通過多次嘗試來提高找到正確解決方案的概率。

研究發現,隨著采樣次數的增加,模型解決問題的覆蓋率(coverage)呈現出顯著的增長。例如,在CodeContests編程競賽數據集上,Gemma-2B模型的覆蓋率從單次嘗試的0.02%飆升至10,000次嘗試的7.1%,增長了驚人的300多倍!

更令人興奮的是,這種提升效果在多個任務和模型上都得到了驗證。從數學問題到形式化證明,再到實際的軟件工程任務,重復采樣都展現出了強大的效果。

小模型也能辦大事

重復采樣的一個重要應用是amplify(放大)較小模型的能力。在SWE-bench Lite(一個真實世界的GitHub問題數據集)上,DeepSeek-Coder-V2-Instruct模型單次嘗試的成功率僅為15.9%。然而,當我們允許它嘗試250次時,成功率飆升至56%,遠超當前單次嘗試的最高水平43%(由更強大的GPT-4和Claude 3.5 Sonnet模型混合實現)。

OpenAI o1模型推理能力大幅提升的背后:重復采樣如何提升AI推理能力-AI.x社區

這一發現具有重要意義:它表明,我們可以通過增加推理計算量來"放大"較弱模型的能力,甚至超越更強大但只有一次嘗試機會的模型。這為AI應用提供了一種新的優化思路,特別是在資源受限或需要控制成本的場景下。

推理計算的"摩爾定律"?

研究中一個有趣的發現是,覆蓋率的增長似乎遵循一種類似于摩爾定律的規律。在許多情況下,log(覆蓋率)與采樣次數的關系近似于冪律分布。這意味著,我們可能正在見證一種新的"推理計算的縮放定律"的誕生,類似于訓練計算量與模型性能之間已經被廣泛研究的關系。

OpenAI o1模型推理能力大幅提升的背后:重復采樣如何提升AI推理能力-AI.x社區

這一發現不僅具有理論意義,還為實踐提供了指導。它暗示著我們可以通過預測來估算需要多少次采樣才能達到特定的性能水平,從而更好地平衡計算資源和期望結果。

成本效益的新視角

重復采樣還為AI應用的成本效益提供了新的思考角度。研究發現,在某些任務中,使用較小的模型進行多次采樣可能比使用大型模型進行單次嘗試更具成本效益。例如,在SWE-bench Lite任務中,使用DeepSeek模型進行5次采樣不僅解決的問題更多,而且成本還比使用GPT-4或Claude 3.5 Sonnet進行單次嘗試低3倍以上。

OpenAI o1模型推理能力大幅提升的背后:重復采樣如何提升AI推理能力-AI.x社區

這一發現對于AI服務提供商和用戶都具有重要啟示。它提示我們,在評估AI解決方案時,不應僅僅關注模型的大小或單次性能,還應考慮通過重復采樣來優化成本和效果的平衡。

盡管重復采樣展現出了巨大潛力,但研究也指出了一些挑戰。最突出的是在缺乏自動驗證工具的領域(如某些數學問題),如何從大量生成的樣本中準確識別正確答案仍是一個待解決的問題。現有的方法,如多數投票或獎勵模型評分,在樣本數量超過一定規模后效果提升不明顯,這表明我們還需要更先進的驗證技術。

小結

"Large Language Monkeys"研究以及OpenAI o1模型的能力佐證,將會掀起AI推理增強模型性能的新思路探索熱潮,可以預見將會出現越來越多智能的采樣策略,更為高效的驗證篩選技術等。

從某種角度講,就像有人說“o1是工程化的產物”,在執著于模型性能本身提升的同時,通過一些看似簡單的技巧,也能夠對模型性能帶來巨大提升,這也為我們思考AI系統的設計和優化提供了新的視角。

本文轉載自??AI工程化??,作者: ully ????


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 黄色网址在线免费观看 | 日韩一级在线 | 青青草一区二区 | av黄色免费在线观看 | 最新超碰 | 亚洲成人一区 | 国产精品.xx视频.xxtv | 黑人精品欧美一区二区蜜桃 | 91久久夜色精品国产网站 | 精品一区二区电影 | 欧美精产国品一二三区 | 一区中文字幕 | 国内自拍偷拍 | 亚洲最大福利网 | 男人的天堂中文字幕 | 91视频导航 | 一区二区三区四区av | 日韩在线精品视频 | 九九热国产精品视频 | 特黄视频 | 日韩高清三区 | 一区二区三区视频在线 | 一级欧美 | 国产视频久久久久 | 欧美乱大交xxxxx另类电影 | www97影院 | 亚洲天堂中文字幕 | av一区二区三区四区 | 日本激情一区二区 | 久久久久久久97 | 免费一区 | 亚洲精品在线免费观看视频 | 亚洲欧美一区二区三区1000 | 黄色一级毛片 | 亚洲免费视频播放 | 国产中文字幕在线 | 日本精品一区二区三区视频 | 久久久99国产精品免费 | 中文av字幕| 天堂一区在线 | 国产精品久久久久一区二区三区 |