成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o3并非獨門秘技,谷歌已發背后關鍵機制,方法更簡單、成本更低

人工智能 新聞
這篇論文是來自斯坦福、牛津大學以及谷歌DeepMind團隊。TogetherAI提供計算支持。

o1/o3帶火的推理計算Scaling,原來谷歌早在今年8月就曾探討過。

圖片


當時,來自斯坦福、牛津以及谷歌DeepMind的團隊提出通過重復采樣來擴展推理計算量——

結果在編碼任務中將性能最多提高40%。

他們發現小模型通過生成多種答案/樣本,其任務表現可能比一些大型模型單次嘗試還要好。

比如,DeepSeek-Coder通過重復采集5個樣本,性能優于GPT-4o,而成本卻僅為后者的三分之一。

這篇論文講了什么?

這篇論文取名Monkey,靈感來自于無限猴子定理。

一只猴子在打字機鍵盤上隨機敲擊鍵盤無限長的時間,幾乎肯定會打出任何給定的文本。

圖片

而在大模型的語境下,只要采的樣夠多,那么大模型總能找到正確解。

本文遵循的重復采樣程序,首先通過大模型中采樣,為給定的問題生成許多候選解。

其次再選擇特定領域的驗證器Verifier(比如代碼的unittests),從生成的樣本中選擇最終答案。

重復采樣的有效性取決于兩個關鍵特性。

  • 覆蓋率,隨著樣本數量的增加,我們可以利用生成的任何樣本解決多少問題。
  • 精確度,在從生成的樣本集合中選擇最終答案的情況下,我們能否識別出正確的樣本?

他們關注的是yes or no的任務,在這些任務中,答案可以直接被打分為對或者錯,主要指標是成功率——即能夠解決問題的比例。

通過重復采樣,考慮這樣一種設置,即模型在嘗試解決問題時可以生成許多候選解。

因此,成功率既受到為許多問題生成正確樣本的能力(即覆蓋率)的影響,也受到識別這些正確樣本的能力(即精確度)的影響。

基于此,確定了五種數學和編程任務:GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite。

結果顯示,在多個任務和模型中,覆蓋率隨樣本數量增加而提升,在某些情況下,重復采樣可使較弱模型超越單樣本性能更好的強模型,且成本效益更高

比如在使用Gemma-2B解決CodeContests編程問題時。隨著樣本數量的增加,覆蓋率提高了300倍以上,從一次嘗試的0.02%提高到10000次嘗試的7.1%。解決來自GSM8K和MATH的數學單詞問題時,Llama-3模型的覆蓋率在10,000個樣本的情況下增長到95%以上。

有趣的是,log(覆蓋率)與樣本數之間的關系往往遵循近似的冪律。

在Llama-3和Gemma模型中,可以觀察到覆蓋率與樣本數呈近似對數線性增長,超過幾個數量級。

圖片

在不同參數量、不同模型以及后訓練水平(基礎模型和微調模型)下,都顯示通過重復采樣Scaling推理時間計算,覆蓋率都有一致的提升。

圖片

此外,他們還證明了這種Scaling還能降本增效,以FLOPs作為成本指標,以LIama-3為例。

計算公式如下:

圖片

比較 Llama-3-8B-Instruct 和 Llama3-70B-Instruct 的成本(以推理 FLOPs 數量衡量)和覆蓋率。當FLOPs預算固定時,在 MiniF2F、GSM8K和 MATH 上,Llama-3-8B-Instruct的覆蓋率總是高于更大(更貴)的 70B 模型。然而,在 CodeContests 中,70B 模型幾乎總是更具成本效益。

圖片

對比API成本,當采樣較多時,開源 DeepSeek-Coder-V2-Instruct 模型可以達到與閉源模型GPT-4o相同的問題解決率,而價格僅為后者的三分之一。

圖片

有趣的是,他們發現對于大多數任務和模型,覆蓋率與樣本數之間的關系可以用指數冪律來模擬。

圖片

因此總結,這篇文章以重復采樣為軸心,在推理時擴展計算量,從而提高模型性能。

在一系列模型和任務中,重復采樣可以顯著提高使用任何生成樣本解決問題的比例(即覆蓋率)。當可以識別出正確的解決方案時(通過自動驗證工具或其他驗證算法),重復采樣可以在推理過程中放大模型的能力。

與使用較強、較昂貴的模型進行較少的嘗試相比,這種放大作用可使較弱的模型與大量樣本的組合更具性能和成本效益。

來自斯坦福牛津谷歌

這篇論文是來自斯坦福、牛津大學以及谷歌DeepMind團隊。TogetherAI提供計算支持。

其中可以看到有谷歌杰出科學家Quoc V. Le。

圖片

有網友表示,這有點像更簡單的靜態版o3。

圖片

o3在評價器的指導下,通過回溯動態搜索程序空間,而這種方法則依賴于靜態采樣和事后評價(投票、獎勵模型等)。兩者都能擴展推理計算,但O3的適應性更強。

o3會反復探索解決方案,不斷完善路徑,而重復采樣會并行生成輸出,沒有反饋回路。如何取舍?o3的計算密集度更高,但在需要結構化推理的任務中表現出色。這種方法在編碼/數學方面更具成本效益。

不過也有網友指出了背后的局限性。

圖片

我們不能一味地增加采樣數量來提高性能。在某些時候,模型會出現停滯,生成的樣本也會開始重復。

無論成本如何,都有一個極限,一個模型無法超越的最大思維水平。

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-04-17 07:23:10

2019-07-09 10:57:04

云計算無服務器計算開發

2024-12-24 16:15:04

2025-04-22 09:12:00

AI模型數據

2024-12-23 09:45:00

數據模型訓練

2025-06-17 08:40:44

2025-05-13 08:24:14

2025-05-14 10:09:12

2023-09-25 18:36:55

AI

2025-04-23 08:30:05

2017-02-08 18:25:37

云計算成本云平臺

2012-03-13 16:55:02

2025-05-27 15:48:12

o3關機腳本AI模型

2025-04-28 09:08:00

2016-05-20 00:55:59

谷歌IO大會

2025-04-23 11:19:31

2025-02-07 09:05:36

2025-05-28 00:00:00

2025-06-10 05:00:00

2025-06-11 08:56:54

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日日夜夜天天 | 欧美久久一区二区 | 精品国产第一区二区三区 | 真人女人一级毛片免费播放 | 亚洲一区二区三区在线视频 | 免费午夜视频在线观看 | 日韩精品一区在线 | 欧美黑人激情 | 亚洲一区二区 | 国产欧美日韩在线播放 | 精品视频在线免费观看 | 欧美国产精品一区二区三区 | 国产一级在线视频 | 欧美在线日韩 | 一区二区三区视频在线观看 | 一区二区三区四区国产 | 欧美一级电影免费观看 | 丁香综合 | 羞羞视频在线观看网站 | 高清人人天天夜夜曰狠狠狠狠 | 男女网站在线观看 | 精品一区二区三区四区在线 | 日韩精品二区 | 亚洲国产精品一区 | 精品国产不卡一区二区三区 | 久久99精品视频 | 国产精品片aa在线观看 | 韩国毛片视频 | 欧美一级大片 | 午夜精品久久久久99蜜 | 老妇激情毛片免费 | 国产精品99免费视频 | av大片 | 中文精品视频 | 亚洲激情综合 | 国产精品久久久久久久午夜 | 久久久av中文字幕 | 丁香婷婷成人 | 第一色在线 | 欧美日韩手机在线观看 | 久久人体视频 |