整理 | 言征
出品 | 51CTO技術棧(微信號:blog51cto)
過去12個月,大型語言模型 (LLM) 的重頭戲是增強其推理能力,以彌補與通用人工智能 (AGI) 的差距。DeepSeek R1 和OpenAI o1是引領這一發展的兩個著名模型,旨在出色地完成復雜的推理任務。
本文對這些模型進行了深入比較,仔細研究了它們的架構設計、訓練方法、性能基準、優勢、局限性、成本和可訪問性。
一、模型概述
DeepSeek-R1:DeepSeek-R1 代表了 DeepSeek-AI 開發的第一代推理模型。它的獨特之處在于采用了多階段訓練,即在應用強化學習 (RL) 之前策略性地使用冷啟動數據。這種方法專門用于增強模型在各種復雜任務中的推理性能。
OpenAI o1:OpenAI o1 模型系列的設計重點是增強推理功能。與前代產品不同,o1 采用獨特的思路鏈提示策略,使其能夠逐步有條不紊地推理問題。這種迭代方法旨在提高模型對復雜查詢的響應的準確性和可靠性。
二、訓練與架構
1.DeepSeek-R1
強化學習 (RL): DeepSeek R1 的核心是利用大規模強化學習 (RL) 來大幅提高其推理能力。DeepSeek R1 以 DeepSeek-V3-Base 模型的強大基礎為基礎,采用群組相對策略優化 (GRPO) 作為其主要 RL 框架。這種對 RL 的戰略性使用使模型能夠自主探索和改進思路鏈 (CoT) 流程,從而有效解決復雜問題。
冷啟動:為了緩解強化學習訓練初始階段的不穩定性,DeepSeek-R1 策略性地將少量高質量數據作為冷啟動。這涉及使用精心挑選的長思路鏈 (CoT) 示例對模型進行微調,這有助于引導模型實現更連貫、更易讀的推理過程。
多階段訓練:DeepSeek R1 的訓練流程經過精心設計,包含多個階段,以優化推理準確性和與人類偏好的一致性。這個全面的流程包括:
(1)兩個 RL 階段:這些階段對于發現和改進推理模式至關重要,使模型能夠處理日益復雜的任務。
(2)兩個監督微調 (SFT) 階段:這些階段作為模型推理和非推理能力的基礎種子,確保全面的技能組合。
蒸餾:為了進一步提高小型模型的效率和性能,DeepSeek R1 采用蒸餾技術來從更大、更強大的模型中遷移推理模式。此過程使小型模型能夠取得顯著成果,通常優于僅通過 RL 訓練的模型。
訓練模板:DeepSeek-R1-Zero 使用簡單的模板進行訓練,該模板可指導基礎模型遵循指定的指令。此模板要求模型首先生成推理過程,然后生成最終答案。約束被有意限制為這種結構格式,以準確觀察模型在 RL 過程中的自然進展。
獎勵建模:DeepSeek-R1-Zero 的訓練采用基于規則的獎勵系統,由準確性獎勵(評估響應的正確性)和格式獎勵(強制模型將其思考過程置于“”和“”標簽之間)組成。
圖源:Ahead of AI
2.OpenAI o1
Transformer 模型:與 OpenAI 的所有 LLM 一樣,o1 建立在 Transformer 架構上,這是一個基礎元素,使模型能夠以非凡的流暢度處理和生成文本。
思維鏈提示:o1 模型采用思路鏈提示,這是一種先進的策略,可以逐步迭代推理問題。這種方法增強了模型處理復雜查詢的能力,并提供更準確的響應。
強化學習:o1 的開發采用了先進的訓練技術,其中突出的是強化學習。這使模型能夠根據反饋改進其響應,從而增強其推理和解決問題的能力。
系統卡:作為 o1 模型發布的一部分,OpenAI 公開發布了一份系統卡,這是一份描述模型開發期間進行的安全評估和風險評估的文檔。
安全訓練:OpenAI 實施了一種新穎的安全訓練方法,利用模型的推理能力更好地遵守安全和協調準則。
三、性能基準
為了提供清晰簡潔的性能比較,下表總結了 DeepSeek R1 和 OpenAI o1 在一系列以推理為重點的任務中的基準測試結果。
Deepseek-R1 Vs OpenAI o1:頂級推理重點 LLMS 的全面比較。
DeepSeek R1 和 OpenAI o1 的基準測試結果。
基準測試結果揭示了幾個關鍵見解:
DeepSeek-R1 與 OpenAI o1–1217:DeepSeek-R1 在 AIME 2024 和 MATH-500 等具有挑戰性的推理任務上表現出與 OpenAI o1–1217 相當的性能水平。這表明 DeepSeek-R1 有效地利用了其訓練方法來實現具有競爭力的推理準確性。
Codeforces 競賽:DeepSeek-R1 在代碼競賽任務中展現出專家級的性能,在 Codeforces 上取得了較高的百分位。這凸顯了該模型在生成高效、準確代碼方面的熟練程度,使其成為開發人員的寶貴工具。
基于知識的基準:在 MMLU 等基于知識的基準上,DeepSeek-R1 的表現略低于 OpenAI-o1–1217,但仍優于其他閉源模型。這表明,雖然 DeepSeek-R1 在推理方面表現出色,但它對一般知識的掌握仍然很強。
AIME 2024 性能:DeepSeek-R1 在 AIME 2024 上取得了 79.8% Pass@1 的分數,略高于 OpenAI-o1–1217。
MATH-500 性能:在 MATH-500 上,DeepSeek-R1 獲得了令人印象深刻的 97.3% 的分數,表現與 OpenAI-o1–1217 相當,并明顯優于其他模型。
編碼相關任務:DeepSeek-R1 在代碼競賽任務中展現了專家水平,在 Codeforces 上獲得了 2,029 Elo 評級,在比賽中表現優于 96.3% 的人類參與者。
四、DeepSeek-R1 開發中的關鍵實驗和發現
DeepSeek-R1-Zero:此模型將 RL 直接應用于基礎模型,而無需依賴監督微調 (SFT) 作為初步步驟。它探索了解決復雜問題的思路鏈 (CoT),并展示了自我驗證、反思和生成長 CoT 等功能。DeepSeek-R1-Zero 驗證了 LLM 的推理能力可以純粹通過 RL 來激勵,而無需 SFT。
DeepSeek-R1-Zero 的頓悟時刻:在訓練過程中,DeepSeek-R1-Zero 經歷了“頓悟時刻”,它學會了通過重新評估其初始方法為問題分配更多思考時間。這凸顯了強化學習在使模型能夠自主開發高級問題解決策略方面的強大功能。
蒸餾的好處:將更強大的模型蒸餾成更小的模型可以得到很好的結果,而依賴于大規模 RL 的小模型需要巨大的計算能力,甚至可能無法達到蒸餾的性能。
五、DeepSeek R1 當然也公開了效果不好的探索
過程獎勵模型 (PRM):雖然 PRM 是一種合理的方法,可以引導模型找到解決推理任務的更好方法,但它也有局限性。在一般推理中,明確定義細粒度步驟具有挑戰性,確定當前中間步驟是否正確也很困難,并且不可避免地會導致獎勵黑客攻擊。
蒙特卡洛樹搜索 (MCTS):這種方法涉及將答案分解成更小的部分,以便模型系統地探索解決方案空間。然而,擴大訓練規模會遇到挑戰,例如 token 生成中的搜索空間呈指數級增長,以及訓練細粒度價值模型的難度。
六、優勢
1.DeepSeek R1
推理能力:DeepSeek-R1 通過強化學習實現強大的推理能力,無需依賴監督式微調。這凸顯了該模型僅通過強化學習就能有效學習和泛化的能力。
自我進化:該模型展示了通過強化學習自主提高推理能力的能力。這種自發發展顯著增強了 DeepSeek-R1-Zero 的推理能力,使其能夠以更高的效率和準確性應對更具挑戰性的任務。
泛化:DeepSeek-R1 表現出強大的泛化能力,提高了跨不同領域的性能。其性能顯著優于 DeepSeek-V3,凸顯了大規模 RL 的泛化優勢,不僅提高了推理能力,還提高了跨不同領域的性能。
編碼性能:模型在編碼相關任務中表現出強勁的性能,在代碼競賽任務中展現出專家水平。
長上下文理解:DeepSeek-R1 在需要長上下文理解的任務上表現出色,在長上下文基準測試中大大優于 DeepSeek-V3。
2.OpenAI o1
STEM 專業知識:OpenAI o1 擅長復雜的推理任務,尤其是在科學、技術、工程和數學 (STEM) 領域。
編碼:該模型能夠有效地生成和調試代碼,在編碼基準測試中表現良好。該模型還能有效地幫助開發人員構建和執行多步驟工作流程。
數學:OpenAI o1 在數學相關的基準測試中表現出色。
圖像分析:該模型提供高級圖像分析功能,讓用戶上傳圖像并接收詳細的反饋。例如,用戶可以上傳鳥舍等物體的照片并接收建造說明,或提交數據中心設計草圖并接收詳細的技術反饋。
安全性:OpenAI o1 在抵抗越獄方面表現出顯著的進步。在挑戰性拒絕評估中,o1 獲得了 0.92 的非不安全分數,優于 GPT-4o 的 0.713。
自我事實核查:o1 模型可以自我事實核查,提高其響應的準確性。
減輕偏見:這些模型在衡量種族、性別和年齡在決策中的使用情況的評估中表現出了更好的表現,其中 o1 的表現通常優于 GPT-4o。
七、限制
1.DeepSeek R1
語言混合: DeepSeek-R1 可能會出現語言混合,尤其是當 RL 提示涉及多種語言時。
提示敏感度:模型的性能對提示很敏感,少量提示有時會降低性能。
軟件工程任務:由于 RL 訓練數據有限,DeepSeek-R1 在軟件工程基準測試中并未表現出比 DeepSeek-V3 有顯著的改進。
總體能力:在函數調用、多輪交互、復雜角色扮演、JSON輸出等任務上,該模型的能力與DeepSeek-V3相比存在差距。
安全 RL: DeepSeek-R1 在中國 SimpleQA 基準上的表現不如 DeepSeek-V3,主要是因為它在安全 RL 之后傾向于拒絕回答某些查詢。
語言優化: DeepSeek-R1 目前針對中文和英文進行了優化,在處理其他語言的查詢時可能會導致語言混合問題。
2.OpenAI o1
功能缺陷: OpenAI o1 缺乏網頁瀏覽功能,盡管這是計劃中的未來功能。
API 限制:在發布時,API 存在各種限制,限制了模型的功能。
響應時間:由于推理過程更為徹底,該模型最初比以前的模型慢。
成本:對于 API 用戶來說,OpenAI o1 比之前的模型更貴。
網頁瀏覽: o1 型號缺乏網頁瀏覽功能,盡管這是計劃中的未來功能。
OpenAI 已宣布計劃擴展 o1 的 API 功能,以在未來的更新中包含函數調用和結構化輸出等增強功能。
八、成本和可訪問性
DeepSeek R1:DeepSeek-R1 及其 API 的開源特性旨在通過在未來提煉出更好、更小的模型來造福研究界。提煉后的 Qwen 和 Llama 系列是開源的。
OpenAI o1:訂閱 ChatGPT Plus、Team、Enterprise 和 Education 的用戶可直接訪問 o1 和 o1-mini 模型。o1 pro 模型僅通過 ChatGPT Pro 套餐提供,價格為每月 200 美元。開發人員可以通過 OpenAI 的 API 訪問 o1 和 o1-mini。
ChatGPT Pro:ChatGPT Pro 套餐每月收費 200 美元,是 o1 pro 模式的首個專屬平臺。ChatGPT Pro 還包括一項資助計劃,為領先的醫學研究人員提供免費訪問權限,初始資助授予波士頓兒童醫院、伯克利實驗室和杰克遜實驗室等機構的研究人員。
第三方服務:多家第三方服務已提供這些模型,包括 Microsoft Azure AI Studio 和 GitHub Models。
九、安全和道德考慮
OpenAI o1 目前公開的安全道德方面的公開資料如下:
安全功能:o1 模型使用大規模強化學習在響應之前進行復雜的推理。這使它們能夠改進生成過程并識別錯誤。因此,它們可以更好地遵循特定的指導方針和模型政策,從而提高提供安全和適當內容的能力。
抗越獄性:o1 模型在抗越獄方面表現出顯著的改進。在 Strong Reject 基準測試中(該基準測試了對文獻中常見攻擊的抵抗力),o1 和 o1-mini 的得分高于 GPT-4o。
內容政策遵守情況:在挑戰性拒絕評估中,測試模型拒絕騷擾、仇恨言論和非法活動等類別的不安全內容的能力,o1 獲得了 0.92 的非不安全分數,優于 GPT-4o 的 0.713。
減少偏見:在用于測試人口公平性的 QA 評估偏見基準上,o1 在明確問題上選擇正確答案的概率為 94%,而 GPT-4o 的正確答案率為 72%。在衡量種族、性別和年齡在決策中的使用情況的評估中,這些模型的表現也得到了改善,o1 的表現通常優于 GPT-4o。
清晰易懂的安全監控:o1 模型提供的思路鏈摘要為安全監控提供了一種新方法。在對 100,000 個合成提示的分析中,只有 0.17% 的 o1 回答被標記為欺騙性,其中大多數是幻覺形式,而不是故意欺騙。
——寫在最后——
DeepSeek R1 和 OpenAI o1 是推理類 LLM 發展的重要里程碑。DeepSeek R1 有效地展示了強化學習和提煉技術在增強推理能力方面的潛力。
相比之下,OpenAI o1 在 STEM 領域、編碼和數學方面表現出色,同時優先考慮安全性和協作開發。
整體上看,這兩種模型都有自己獨特的優勢和局限性,各自都有不同的適用場景。隨著該領域的發展,預計即將到來的迭代將解決現有的限制,并進一步增強這些模型的推理和綜合能力。
參考鏈接:https://medium.com/@bernardloki/which-ai-model-can-actually-think-better-deepseek-r1-vs-openai-o1