一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜單的頭把交椅。圖片對于苦苦追趕 OpenAI 幾個月的谷歌來說，這次在基準測試上的

作者：機器之心 2024-11-22 15:17:00

團隊在本工作中特意聚焦于業內廣泛使用卻往往未被公開披露的蒸餾技術，想在 “揭秘” 蒸餾技術背后所能達到的收益的同時，又對 AI 研究界進行一次倡議，呼吁優先考慮透明創新的方法，而不是一味追求短期性能提升和 AI 技術研發 "捷徑"。

團隊介紹：本項目的核心開發團隊主要由上海交通大學GAIR研究組，研究團隊早在一個多月前發布o1復現進展報告。

詳細作者介紹見：https://github.com/GAIR-NLP/O1-Journey#about-the-team

自從 OpenAI 發布展現出前所未有復雜推理能力的 o1 系列模型以來，全球掀起了一場 AI 能力 “復現” 競賽。近日，上海交通大學 GAIR 研究團隊在 o1 模型復現過程中取得新的突破，通過簡單的知識蒸餾方法，團隊成功使基礎模型在數學推理能力上超越 o1-preview。

團隊在本工作中特意聚焦于業內廣泛使用卻往往未被公開披露的蒸餾技術，想在 “揭秘” 蒸餾技術背后所能達到的收益的同時，又對 AI 研究界進行一次倡議，呼吁優先考慮透明創新的方法，而不是一味追求短期性能提升和 AI 技術研發 "捷徑"。研究團隊堅信，培養能夠從第一性原理思考而不是簡單套用現有解決方案的下一代 AI 研究者至關重要。

團隊選擇 Qwen2.5-Math-72B 作為基礎模型，經過精心設計的數據篩選和處理流程，僅使用數萬個從 o1 蒸餾的長思考鏈樣本進行訓練。在美國高中數學邀請賽 (AIME) 等權威測試中，模型表現優于 o1-preview。研究表明，通過標準的監督微調方法，模型不僅掌握了復雜的數學推理能力，還展現出強大的泛化性。令人驚喜的是，這個主要針對數學推理訓練的模型在其他領域也表現出色：

安全性評估中，在 Flames 測試集上的得分從 91% 提升至 92.5%
在應對誤導性問題時的抵抗力顯著增強，抗 "奉承" 能力從 89.70% 提升到 92.65%
在通用場景評估中，Auto-J 和 LIMA 測試集的得分分別提升了 6.4 和 10 個百分點

技術文檔：https://github.com/GAIR-NLP/O1-Journey/blob/main/resource/report-part2.pdf

相關資源將近日公開：https://github.com/GAIR-NLP/O1-Journey

"這個突破背后隱藏著重要警示。" 項目負責人表示，知識蒸餾雖然提供了快速提升模型性能的捷徑，但也帶來了三個層面的隱憂：

1. 技術層面：模型性能受限于教師模型，難以實現真正的突破創新

2. 研究方向：過度依賴蒸餾可能導致核心技術研發投入不足

3. 人才培養：簡單的模型復制和優化可能削弱研究人員的基礎創新能力

為推動行業良性發展，團隊創新性地提出了技術透明度指數 (TTI) 框架。該框架從數據、方法、評估和開源資源四個維度，對 AI 模型復制工作進行全面評估。研究發現，目前業界多個 o1 復現項目的透明度普遍不足，最高分僅為 33 分。研究團隊建議，AI 領域應當：

保持技術組合平衡，不過度依賴單一方法
持續投入基礎設施和算法研究
重視人才培養，強化第一性原理思維的訓練

"構建智能 AI 系統固然重要，但培養具有第一性原理思維的人才才是我們的終極使命。" 這句話道出了 AI 發展的深層智慧 —— 技術進步離不開深入的思考和創新。這項研究不僅展示了 AI 技術的最新進展，更為整個行業的發展方向提供了重要啟示。在追求技術突破的同時，如何保持創新活力、培養高質量人才，將是決定 AI 未來的關鍵因素。

具體而言，這份報告分為幾個重要的板塊：

（1）詳細解析了蒸餾 OpenAI o1 系列模型的技術路線，并對其有效性進行了全面的評估。研究團隊發現，在一個不錯的基礎數學模型上僅僅通過幾萬條 o1-mini 的蒸餾樣本進行微調，就可以在美國高難度的數學競賽 AIME 上超越 o1-preview 的水平，并且整個過程所需要的技術復雜度極低。

（2）除了數學推理這個場景外，我們還探索了 o1 蒸餾模型在其他不同視角（如幻覺、安全性）下的表現，這些跨域實驗不僅揭示了知識蒸餾技術的優勢，也展現了其固有局限性，并發現了一些意想不到的跨域表現模式。

（3）建立了一個全面的基準框架，在多個不同的角度（如數據透明性、方法技術透明性、評估透明性以及資源的開源程度）評估和分類 o1 的各種復現嘗試工作的技術透明度與開放性，并為此設立了一套排行版機制。

（4）最后，此研究報告還進行了非常深刻的討論，最終得出盡管追求更強大的 AI 很重要，但培養具有第一性原理思維的研究人員往往更加重要。這一教育使命不僅僅是一個技術層面的考慮，更是一項將塑造 AI 創新未來的根本性人文使命。

章節 1：o1 復現的一條 “捷徑”

o1 技術的回顧

o1-Journey (Part1) 中探索的技術路線。

研究團隊早在一個多月前的 o1-Journey (Part1) 中已經提出了一種結合樹搜索構建長思維鏈數據的方式，并取得了一定的初步效果。在整個技術路線中，最為關鍵的一個環節是如何構建長思維鏈數據，這種長思維數據需要體現 “深度” 的思考，包含反思、糾錯和回溯步驟。雖然樹搜索是最有效的方法之一，但它可能會耗費大量計算資源和時間。除了樹搜索之外，合成長推理鏈的其他替代方法如下圖所示。這些方法在計算效率和推理完整性之間提供了不同的權衡。

各種合成長思維數據的方法（按照代價從小到大）。

完整的人類思維過程標注（代價最高）

人類解決問題很少遵循一條通向成功或失敗的線性路徑。相反，人們在遇到障礙時會經常停下來反思、回溯并修改他們的方法。這個自然過程反映了長思維的特征。通過詳細記錄人類如何解決問題，我們可以生成真實的長思維訓練數據。但是這種方式需要依賴大量極高質量的人工標注，并且隨著問題難度的升級，標注的難度也會大幅上升。

多智能體方法

與策略模型不直接對反饋作出反應的歷程學習 (Journey Learning) 不同，我們可以讓多個智能體參與探索過程，指導它們扮演不同的角色。例如，我們可以構建一個多智能體辯論系統，其中策略模型生成持續的推理，而評判模型則評估是繼續還是回溯。當找到解決方案時，這種交互過程自然會產生長思維訓練數據。

從高級模型蒸餾

像 o1 系列這樣強大的模型展示出強大的反思和自我糾正能力。使用更強大的模型來指導較弱模型的常見做法，是一種簡單，不需要設計復雜技術路線的方法。然而，由于 o1 限制了對其內部思維過程的訪問，因此需要謹慎的提示詞設計。

蒸餾的技術路線

格式對齊

團隊選用了 Qwen-2.5-Math-72B 作為基座模型，在實際進行蒸餾之前，研究團隊首先在這個模型上面進行了 “格式化對齊”(Reformatted Alignment)。團隊從開源數據集 NuminaMath-CoT 上選取了一部分奧林匹克級別的問題作為起點，并應用了一個過濾流程來優化數據集：設計規則移除了依賴圖像的問題、缺乏明確標注答案的問題以及所有證明題，僅保留答案類型為數值的問題。為了進一步增強數據集，利用 GPT-4o-mini 重寫原始解答。重寫過程遵循特定的標準，確保解答的步驟是細粒度的、高度詳細的，并且篇幅更長。這一步驟還規范化了輸出格式，要求使用 \boxed {} 明確表示最終答案，以符合長思維格式。

蒸餾：通過使用 OpenAI o1 進行長思維鏈的合成。

實驗

評估標準

與使用 Pass@k、Maj@k 或 RM@k 等傳統評估指標不同，我們引入了一個新指標，旨在評估模型在不同計算代價場景下的表現。這種新方法反映了 “推理時擴展”(inference-time scaling) 的真實情況，在衡量大模型的有效性和效率方面發揮著關鍵作用。在 “推理時擴展” 時代，像 OpenAI 的 o1 系列這樣的模型已經證明，性能不僅取決于訓練時的計算量，還顯著受到推理過程中 "思考" 時間的影響。這種轉變需要一個更細致的評估指標，以考慮計算成本和性能之間的權衡。團隊提出的指標通過測量模型在特定的 benchmark 上，在一定的平均輸出 Token 下，獲得的準確率，反映這種 “推理時擴展” 的模式。此外，這個指標本質上是可擴展的。在評估選取的平均 Token 比單次模型輸出 Token 數更高的場景中，采用 Maj@k 指標來近似模型的性能。注意，整個過程無需使用任何額外的獎勵模型。通過采用這種方法，我們確保了一個可擴展且公平的評估框架，能夠捕捉模型在不同推理時間計算設置下的表現。這種方法避免了人為約束，并允許進行有意義的比較，而無需依賴外部獎勵信號，僅專注于模型的內在推理能力。

結果

使用蒸餾數據 SFT 后的模型在 AIME2024 和 MATH500 兩個 benchmark 上與 o1 系列模型在一定“推理代價”的表現比較。

結果表現，在相似的 “推理計算代價”（即在對應 benchmark 的平均輸出 token 類似的情形下），采用蒸餾技術得到的模型具有出色的表現，在 AIME2024 上超過了 o1-preview 的表現。

章節 2：復雜推理以外的能力

除了在推理場景下，對蒸餾技術得到的模型進行性能的探究之外，團隊還涉足許多其他角度的問題，例如安全、幻覺，以及在更加通用場景任務上的表現。為了研究模型在不同領域的泛化能力，我們首先構建了一個多樣化的雙語數據集。從我們的蒸餾 o1 模型輸出中，我們精心選擇了大約 5,000 個包含回溯思維和自我反思的高質量樣本。這些樣本隨后使用 GPT-4o mini 模型翻譯成中文，形成了一個數量均衡的雙語數據集。最終的訓練數據集包含 10,750 對中英混合樣本對。然后，我們使用這個精選數據集對 Qwen2.5-72B-Instruct 模型進行監督微調（SFT），從而獲得我們的最終模型。

基于 Qwen2.5-72B-Instruct，經過 o1-mini distill 的數據 SFT 前后，模型在安全性、幻覺（事實準確性）、以及一些通用場景任務下的表現性能對比。

安全性

為了全面評估模型安全性方面的泛化能力，團隊構建了一個由 600 個問題組成的多樣化測試集，這些問題是從三個已建立的安全評估數據集中精心選擇的：Flames、DiaSafety 和 WildSafety。具體來說，我們從每個數據集中提取 200 個問題，以確保在不同安全場景中的平衡代表性。我們使用 Safety-J 來評估原始模型和微調模型的響應。評估結果揭示了模型在安全性影響上的有趣現象：雖然在 Flames 上的表現略有提升（從 91% 提高到 92.5%），在 DiaSafety 上保持穩定（100%），但在 WildSafety 上出現了明顯的下降（從 92% 降至 86.5%）。這種安全性指標的輕微下降凸顯了一個關鍵發現：即使使用以回顧和反思為重點的高質量 o1 類訓練數據，如果訓練數據缺乏明確的安全性對齊，模型的安全性表現也可能出現退化。

幻覺（事實準確性）

團隊還評估了模型在利用 o1 蒸餾的數據 SFT 前后的事實準確性。團隊使用了來自 SimpleQA、ChineseSimpleQA 和 ChineseFactEval 的數據集。這些數據集包含中文和英文的基于知識的問題，用于驗證模型的事實準確性。ChineseFactEval 數據集包含兩個子集：通用問答和奉承性問答。奉承性問答子集在提示中包含誤導性答案，以測試模型的奉承傾向，而通用問答子集則采用類似 SimpleQA 的格式。這些數據集中的所有問題都需要可驗證的簡短答案。我們使用 GPT-4o 評估模型響應與標準答案的匹配程度，以獲得更穩健的答案匹配結果。

結果表明，經過 o1 蒸餾得到的數據 SFT 后的模型在事實準確性方面沒有顯示出顯著改進。這主要是因為更長的推理鏈導致了額外的幻覺 —— 尤其是模型試圖假裝使用搜索引擎并虛構搜索結果的現象。然而，這些嘗試使用搜索引擎的行為暗示了一個有前途的方向，我們認為為模型提供實際的網絡訪問能力將顯著提高其事實準確性。此外，SFT 后模型增強的推理鏈提供了詳細的分析和自我反思能力，這可能有助于防止幻覺的產生。我們還發現，經過 SFT 后，模型對奉承的易感性略有降低。這種改進可以歸因于自我反思過程，在這個過程中，模型能夠辨別并深入思考提示中呈現的不合理假設，而不是不加質疑地接受它們。

例1：反思和深度思考緩解回答的幻覺

例2：反思和深度思考緩解回答的幻覺

例3：反思和深度思考緩解回答的幻覺

例4：反思和深度思考檢測錯誤的假設

例5：反思和深度思考緩解回答的幻覺

通用場景任務

為了評估我們模型在通用場景中的表現，我們從 Auto-J 和 LIMA 數據集中各抽取 50 個查詢，組成了一個包含 100 個查詢的測試集，并通過人工調整，特別聚焦于長期規劃任務，并請三位領域專家對模型的輸出質量進行 0-100 分的評估。評估結果顯示在經過 o1 蒸餾數據微調后，模型的表現有顯著改進。在 Auto-J 查詢上的得分從 81.6% 提升至 88%，在 LIMA 查詢上從 77.2% 提升至 87.2%。這種性能提升表明，我們的微調方法不僅改善了雙語對話能力，還增強了模型處理一般任務的能力，特別是在需要長期規劃和結構化思維的場景中。

章節 3：對工作透明度的評分體系

為了系統地評估和比較各種嘗試 o1 復現的工作，我們提出了基于透明度的評價體系，這是一個全面的框架，用于量化各個工作實現的透明度和可復現性。該框架旨在為研究界提供客觀指標，主要從透明度角度評估 o1 復現工作，這包括幾個相互關聯的方面：數據透明度，涵蓋下游進行搜索或后訓練所用數據集的透明性；方法透明度，體現在所描述技術、流程和實驗設置是否清晰；以及評估透明度，考慮性能評估的可復現性和全面性。此外，該框架還評價了資源的開源程度，如代碼、數據集和模型是否開源，以確保研究界能驗證和有效利用這些工作。這種全面的視角捕捉了復現工作中透明度的多面性。

數據透明度

這一方面評估數據來源是否明確在技術報告中指明，包括所使用數據集及其各自來源的詳細描述。這個數據涉及下游任務（如監督微調 (SFT)、強化學習 (RL) 或搜索算法）中使用的所有數據集。數據的透明度，對后期后訓練、搜索算法、強化學習，以及最重要的長思維數據構建階段起到了非常重要的奠基作用。

方法透明度

方法透明度確保對工作中采用的方法、技術和流程有足夠詳細的描述，以方便其他研究者的復現和驗證。本部分的評估由多個部分組成，從基礎模型的選取、介紹到訓練、搜索、強化學習和數據合成方法。此外，除了詳細說明方法如何實施外，驗證方法本身的有效性更為重要。全面的評估應量化各個技術對整體系統性能的貢獻（例如設計消融實驗、對比實驗），而不是簡單地報告最終結果。

評估透明度

評估透明度包括方法選用的 benchmark 測試集是否是領域公認的，并且全面公開的；此外，采用的評估指標是否權威，如果牽涉到自己定義的評估指標是否有詳細介紹其定義以及發明的動機。同時，在匯報的 baseline 中，很重要的一點是評估指標的對齊，即對不同的模型 / 方法是否是在公平、一致的實驗環境下進行評測的。

資源的開源程度

開源資源在促進可重復性和使研究社區能夠建立在現有工作之上發揮著重要作用。這一部分評估數據集、模型、代碼和文檔的可用性和可訪問性，這些對于獨立驗證和進一步實驗至關重要。

針對以上提到的科研工作透明性的評價角度，研究團隊精心設計了一套評分機制，這套機制里涵蓋了 25 個是 / 否問題，并結合每個問題的重要性賦予不同的分值，最后得到了一套總分為 100 分的評價體系。

對 o1 各種復現工作的評價體系，包含了 25 個 Yes/No 問題，總分為 100 分。

利用上述的評價體系，團隊對市面上現存的 o1 復現工作進行了全面的評估。涉及的工作包括：Open o1、o1-Journey (Part1)、LLaMA-o1、K0Math、Skywork o1、DeepSeek-R1-Lite、o1-Journey (Part2，即本工作)，評估的結果如下表所示：

各種 o1 復現工作的透明度得分 (截至 2024.11.22 日的統計）。

從評估結果可以看出，無論是工作在各個維度的透明開放程度，還是在資源的開源方面，團隊系列的 o1-Journey 工作都占據了非常大的優勢，即有非常大的透明性、開放性層面，從而利于研究社區的進一步利用和探索。

章節 4：“蒸餾” 的背后？

教訓

從 o1 進行知識蒸餾的顯著成功，為在數學推理任務中獲得令人印象深刻的性能提升提供了一條 “誘人” 的捷徑。雖然這種方法提供了即時且切實的效益，但它掩蓋了一系列深層挑戰，這些挑戰威脅著 AI 技術及其研究社區的長期發展。在本節中，團隊將探討優先選擇容易獲勝而非基礎創新付出的真實代價，揭示出遠超純技術層面的影響。

表面吸引力：乍一看，蒸餾似乎是一種優雅的解決方案：通過直接學習 o1 的復雜推理模式，模型可以通過相對簡單的實現方式快速獲得顯著的性能提升。這種易用性使其得到了廣泛應用，尤其是在那些希望迅速展示接近 o1 能力的組織中。然而，這種便利背后隱藏的代價可能并不明顯，但從長遠來看，對整個領域的發展可能是毀滅性的。
性能瓶頸：最直接的技術問題或許在于蒸餾方法的內在局限性。通過蒸餾訓練的模型，其能力不可避免地受到教師模型（在本例中為 o1-mini 模型）水平的限制。這種限制形成了隱性的 “天花板效應”，即使蒸餾過程再精妙，也無法真正超越原始模型的能力。尤其是在需要擴展到新領域或應對前所未見的挑戰時，這一局限性變得尤為突出。
創新缺失：更為根本的問題在于，蒸餾方法的廣泛應用使我們錯失了核心技術創新的關鍵機會。o1 的真正突破不僅在于解決復雜問題的能力，還在于其推理時間擴展和搜索優化的精妙機制。然而，通過規避開發這些基礎能力的挑戰，我們可能正在加劇技術差距 —— 即掌握核心技術的組織與主要依賴蒸餾的組織之間的鴻溝。隨著領域的不斷發展，這種技術基礎設施差距可能變得愈發難以彌合。
研究風氣的轉變：對科學研究風氣的影響同樣令人擔憂。通過蒸餾獲得 “輕松取勝” 的便利性，正在使研究重點逐漸遠離基礎性挑戰。這一趨勢表現為對高級計算基礎設施投資的減少，以及對復雜搜索和推理算法開發的重視程度降低。這種由此產生的自我強化循環 —— 缺乏基礎設施限制了研究可能性，從而進一步鼓勵依賴蒸餾方法 —— 有可能形成一個創新瓶頸，阻礙未來的重大突破。
基礎能力的削弱：最令人警惕的，是蒸餾方法對領域內教育發展的影響。蒸餾方法的廣泛采用對未來 AI 研究者的培養構成了顯著威脅。當學生和職業初期的研究者主要接觸 “捷徑” 式的解決方案時，他們錯失了發展深度問題解決能力的關鍵機會。從第一性原理出發解決復雜技術挑戰的能力 —— 科學創新的基石 —— 可能會隨著快捷方案成為常態而逐漸被削弱。我們正目睹下一代 AI 研究者在問題解決方式上的轉變：他們不再通過解決基礎性挑戰獲得深刻理解，而更多地接受優化和提示工程的訓練。這種從 “如何運作” 到 “什么有效” 的轉變，標志著研究心態的根本變化，可能對領域未來的創新能力產生深遠影響。
第一性原理的衰退：第一性原理思維的削弱尤為令人擔憂，因為它動搖了科學創新的根基。從零開始開發搜索算法、優化推理時間以及構建推理機制的過程，提供了蒸餾方法無法替代的寶貴學習經驗。這些挑戰迫使研究者深入理解模型的行為與局限性，形成系統性問題解決策略，并培養對算法設計與優化的直覺。如果缺少這些經歷，我們可能會培養出一代更傾向于套用現有方案，而非基于第一性原理開發新方案的研究者。這種趨勢將對領域的長遠發展產生深遠的不利影響。
學術影響：這種教育影響不僅限于個人技能的培養，對學術研究環境的沖擊尤為顯著。學術界歷來是孕育基礎性創新的搖籃，但其對這種趨勢的脆弱性不容忽視。對快速產出的壓力可能掩蓋深入技術探索的價值，同時令學生對追求更具挑戰性和基礎性的研究方向望而卻步。當研究重點更多放在性能指標而非深層理解上時，可能導致培養出一代擅長優化卻缺乏創新能力的研究者。這種轉變對學術界的長遠發展無疑是一個巨大的隱患。
不斷擴大的鴻溝：展望未來，這些因素的累積效應描繪出一個令人擔憂的前景。那些掌握了基礎搜索和推理技術的組織，與主要依賴蒸餾方法的組織之間的技術能力差距可能會變得愈發難以彌合。這一鴻溝可能導致研究生態系統的失衡：真正的突破將成為少數資源充足的組織的專屬領域，而更廣泛的研究群體則被困在依靠蒸餾實現漸進式改進的循環中。這種局面不僅限制了整體技術的多樣性，也將顯著影響領域的創新能力和公平發展。

建議與呼吁

首先，各個研究組織應保持良性、平衡的研究，既包括基于蒸餾的方法，也包括對搜索與推理優化的基礎研究。其次，盡管蒸餾解決方案的短期效果顯著，對高級計算基礎設施的持續投入依然不可或缺。最后，研究計劃應優先培養搜索算法和推理優化的核心能力，同時兼顧性能提升。

在教育層面，我們需要重新設計培養未來研究者的方法。這包括開發兼顧實踐應用與基礎理論的平衡課程、構建既促進深刻理解又兼顧性能優化的研究項目，并營造一種重視長期創新而非快速收益的研究文化。

深刻的教訓在于，蒸餾本身并非問題，它是我們技術工具箱中的重要組成部分。真正的風險在于，它的便利性可能讓我們偏離基礎創新這一更困難但回報更高的道路。在未來的發展中，保持即時收益與長期發展的平衡，將是確保 AI 能力持續提升以及培養領域未來創新者的關鍵。

構建智能 AI 固然重要，但培養具備第一性原理思維的人才才是我們的終極使命 —— 畢竟，他們才是 AI 未來的真正設計者。

責任編輯：張燕妮來源：機器之心

AI 技術

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜單的頭把交椅。 圖片 對于苦苦追趕 OpenAI 幾個月的谷歌來說，這次在基準測試上的

章節 1：o1 復現的一條 “捷徑”

章節 2：復雜推理以外的能力

章節 3：對工作透明度的評分體系

章節 4：“蒸餾” 的背后？

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜單的頭把交椅。圖片對于苦苦追趕 OpenAI 幾個月的谷歌來說，這次在基準測試上的