成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

斯坦福大學CS25：大語言模型推理（Reasoning）

發布于 2025-6-4 06:52

瀏覽

0收藏

?核心觀點

1. 大語言模型推理的定義

常規觀點：大語言模型（LLM）的推理被視為類似人類的高級能力，定義模糊，常引發爭論。

Zhou的觀點：推理爭論因缺乏明確定義而無意義；Zhou將推理定義為輸入與輸出之間的中間Token（推理步驟），僅是模型輸出的可預測行為，而非神秘過程。

2. 預訓練模型的推理能力

常規觀點：預訓練模型需通過思維鏈（CoT）提示或微調才能具備推理能力。

Zhou的觀點：預訓練模型已具備推理能力，推理路徑存在于輸出空間中；問題在于解碼方式，例如通過探索更多候選而非貪心解碼即可挖掘推理，無需額外提示或微調。

3. 思維鏈提示的作用

常規觀點：思維鏈提示通過教模型逐步思考來啟用或增強推理能力。

Zhou的觀點：思維鏈提示不增加推理能力，而是重塑輸出分布，將已存在的含推理步驟的響應提升至首位，使貪心解碼可直接選擇，屬于解碼優化而非能力增強。

4. 機器生成數據優于人類數據

常規觀點：人類標注數據是微調模型的最佳選擇，尤其適用于復雜推理任務。

Zhou的觀點：在迭代微調中，機器生成的數據優于人類數據，因其分布更貼近訓練目標，直接優化輸出質量（如數學問題的正確性），符合機器學習第一原理。

5. 推理擴展的方向

常規觀點：提升推理能力主要靠擴大模型規模（如參數數量）。

Zhou的觀點：理論表明，固定大小的Transformer模型通過生成足夠長的思維鏈（中間Token）即可解決布爾電路問題，擴展推理步驟長度而非模型規模是關鍵方向。

6. 自一致性的適用條件

常規觀點：自一致性（Self-Consistency）是一種通用技術，通過多次采樣并選擇最常見答案提升模型可靠性。

Zhou的觀點：自一致性僅在模型生成中間推理步驟時有用，通過對推理路徑的概率邊緣化選擇最可能答案；若直接輸出答案，只需查看模型概率，無需自一致性。

7. 推理無需依賴搜索

常規觀點：推理任務（如數學或邏輯問題）依賴類似經典AI的窮舉搜索。

Zhou的觀點：LLM推理從Token到Token的預測中涌現，無需顯式搜索；學習是可擴展的核心，搜索僅作為輔助工具而非推理本質。

8. 迭代微調的局限性

常規觀點：迭代微調是提升推理能力的通用方法，適用于大多數任務。

Zhou的觀點：迭代微調依賴自動驗證器，僅適用于可驗證任務（如數學），對不可自動驗證的任務（如創意寫作）效果有限，限制其通用性。

9. 驗證器的重要性

常規觀點：強化學習算法（如PPO）是提升推理能力的關鍵技術。

Zhou的觀點：驗證器是迭代微調和AI訓練的核心，遠超復雜算法的重要性；可靠驗證器決定數據質量和模型性能，是AI成功的基石。

10. AGI時間表的懷疑

常規觀點：AI社區普遍樂觀，認為通用人工智能（AGI）可能在2-5年內實現。

Zhou的觀點：Zhou對AGI在短期內實現的說法持懷疑態度，認為當前方法有顯著局限，真正的挑戰是避免研究停滯而非過快達到AGI。

大語言模型推理（Reasoning）的定義

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

很高興看到大家已經認為LLM很強大。你們可能會好奇，我對LLM是否能推理的看法是什么？我的答案是：這取決于推理（reasoning）的定義。今天我們將圍繞一個具體的推理定義展開討論。我從不參與關于LLM能否推理的爭論，因為沒有明確的推理定義，這些討論毫無意義。在LLM推理中，我們特指輸入與輸出之間的中間Token（intermediate tokens），這些Token被稱為推理或中間步驟。

這個概念并不新鮮。早在2017年，Deman發表了一篇論文，探討如何利用中間Token解決數學問題。當時，學術界對AlphaGo和AlphaZero的熱情高漲，但這篇論文極具開創性。如果你還沒讀過，我強烈推薦一讀。他們引入了自然語言來解決數學問題，而當時文獻中普遍采用符號方法或搜索。這在神經符號（neurosymbolic）研究中也很常見，通常使用中間過程來解決推理問題。

舉個例子說明LLM推理的用法。當我在Google Brain創立推理團隊時，我設計了一個任務：Last Letter Concatenation（末字母拼接）。這個任務作為激勵示例，可以用Transformer模型解決。例如，輸入“artificial intelligence”，輸出是將每個單詞末字母拼接的結果。如果沒有推理過程，模型可能直接輸出“LE”。但若有推理過程，模型會輸出：“‘artificial’的末字母是L，‘intelligence’的末字母是E，拼接L和E得到LE?！边@里高亮的文本就是推理（reasoning），這就是我所說的推理。

如果你熟悉程序合成或神經符號推理，這個任務設計并不意外。我也嘗試過其他方案，比如拼接首字母，但所有大型模型都能輕松解決，因為網上有大量首字母拼接的例子，模型早已學會。但當我改為末字母拼接時，所有模型都失敗了。很多人會說：“這很自然，我們需要中間步驟，就像人類一樣?！比缃馤LM看似與人類很像，但作為研究者，我們要牢記：LLM只是預測模型（predictive models），不是人類。保持這個認知有助于理解許多新技術。

推理的理論基礎

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

為什么中間Token或推理重要？我們與斯坦福的Tima教授及其學生合作開展了理論研究。研究表明，對于任何可以用大小為\( T \)的布爾電路解決的問題，固定大小的Transformer模型通過生成\( O(T) \)個中間Token即可解決。這是一個強有力的結果。這里的“大小”指邏輯門的數量。例如，若使用GPU集群，\( T \)可能達到百萬、十億甚至萬億。如果直接生成最終答案，模型要么需要極深的網絡，要么根本無法解決問題。這就是我們從理論角度理解推理的依據，后續我會再回到這個理論論點。

解碼與思維鏈推理

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

有一種普遍觀點認為，預訓練模型（pre-trained models）若不經過CoT提示（Chain-of-Thought prompting）或微調（fine-tuning），無法進行推理。過去，大家熱衷于討論微調。這種觀點正確嗎？你們同意嗎？我認為這是錯誤的，非常錯誤。預訓練模型已經具備推理能力，我們需要的只是解碼（decoding），僅與解碼過程相關，無論那些技術看起來多么復雜。

舉個例子：我有三個蘋果，我爸比我多兩個蘋果，我們總共有多少個蘋果？如果你用預訓練模型（如LLaMA、DeepSeek或Chinchilla，我沒試過這些模型），輸入這個問題，模型很可能會輸出“5個蘋果”。顯然，這個答案是錯的。這是因為默認使用了貪心解碼（greedy decoding），問題出在解碼方式上。

如果查看第一個Token的第二候選（因為詞匯表很大），繼續解碼，你會看到：“我有三個蘋果，我爸比我多兩個蘋果，所以他有五個蘋果，3 + 5 = 8?！蓖昝?，對吧？我們只需探索更多候選。另一個選擇是第一個Token的第三候選“we”，解碼后得到：“我們總共有八個蘋果?！边@也正確。第四候選可能是“you”，繼續解碼，依然能看到正確的CoT推理，最終答案正確。第五候選可能是“five”，那是錯誤的。

可以看到，推理路徑（reasoning path）已經存在于輸出空間（output space）中。特別是，第二和第四個回應基于CoT推理。問題在于如何選擇最佳回應。你可能認為可以根據輸出長度選擇，因為包含推理Token的輸出更長。但我們有更好的方法：根據答案置信度（answer confidence）選擇。置信度指模型預測Token的概率。對于包含CoT推理的回應，最終答案Token的置信度遠高于其他。例如，對于“8”這個Token，模型置信度接近98%，這在巨大詞匯表中非常高，通常每個Token的概率幾乎為零。

這個過程稱為Chain-of-Thought Decoding（思維鏈解碼），包含兩步：

1. 超越貪心解碼，檢查更多生成候選；

2. 選擇最終答案置信度最高的候選。

CoT解碼方法簡單，但仍需編程實現。聽說過去大家只想用自然語言，不寫代碼。當然，你們是例外。所以我們想：能否重塑模型的輸出分布，讓深思熟慮的回應自然排在首位？如果CoT回應排在首位，貪心解碼就能自然找到它。

思維鏈提示

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

現在來看CoT提示（Chain-of-Thought prompting）。如果你了解CoT提示，就能明白其工作原理。這是一個簡單方法。給定一個問題，你可能用一個相似問題作為示例，放在問題前，模型就會神奇地模仿推理風格，生成逐步解決方案。現在可以理解CoT提示為何有效：它改變輸出分布，將輸出空間中原有的CoT解決方案推到首位。

還有更簡單的方法：“Let's Think Step by Step”（讓我們一步步思考）。這在推理研究中是個驚艷的工作。論文發布時，我以為是玩笑，怎么可能？當時Google Brain團隊開發了PaLM模型，我在PaLM上試了這個方法。我知道PaLM的構建過程，絕對與這個“魔法”無關。但結果它竟然有效，我非常震驚。這篇論文極大啟發了我的推理研究。

這些提示方法簡單，且確實有效，但也有缺陷。CoT提示需要特定任務的示例，我對此不太滿意。如果我知道相似問題，我自己就能解決，為什么還要問別人？“Let's Think Step by Step”更通用，無需找相似示例，只需說“讓我們一步步思考”，魔法就出現了。但遺憾的是，其表現比少樣本提示（few-shot prompting）差得多。兩種方法看起來都不錯，但如果我問問題還得說“請一步步思考”，否則對方不會思考，這不符合預期。

監督微調

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

如何解決？一種流行方法是監督微調（Supervised Fine-Tuning, SFT）。思路簡單：收集一組問題及其人類標注的逐步解決方案，然后最大化人類解決方案的似然（likelihood）。對于LLM訓練，這只是最大化似然，之后模型可廣泛應用。

我提到2017年的Deman論文，他們正是這樣做的：收集數學字面問題及人類標注的逐步解決方案，訓練序列模型解決數學問題。2021年，OpenAI進一步擴展此方法，構建了更大的數據集GSM8K（小學數學問題），用它微調GPT-3模型。

舉例說明：可以用Last Letter Concatenation或蘋果數學問題作為訓練數據微調模型，然后用新問題測試，如“草莓里有多少小時？”我特意選這個問題，因為社交媒體上很多人認為這是測試AGI是否到來的好問題。

SFT是個通用的方法，一旦訓練好模型，就能廣泛應用。如果這能解決推理問題，我的講座到此結束——收集更多斯坦福的優秀示例，訓練模型即可。但實際上，SFT泛化能力不佳。2021年夏天，我們發現SFT在推理任務上表現不佳。怎么辦？擴展，擴展，再擴展——獲取更多數據訓練模型，看效果如何。教訓是：不要盲目擴展。一旦范式錯誤，無論如何擴展，都無效。

迭代微調與自我改進

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

如何解決SFT的泛化失??？看看SFT流程：僅兩步。問題出在哪？出在人類數據上。如果你之前不知道，會很驚訝。如果人類數據有問題，Scale AI怎么賺錢？我團隊的一員發明了迭代微調（Iterative Fine-Tuning）。他告訴我，機器生成的數據可能比人類數據更適合訓練，我一開始非常驚訝。

首個嘗試稱為Self-Improve（自我改進）。不再從人類收集數據，而是讓模型生成數據。收集一組問題，讓模型生成逐步解決方案，然后最大化正確答案的似然。對于數學問題，你可能知道最終答案，但不知道逐步解決方案。模型生成解決方案后，檢查答案正確性：正確則選用，錯誤則丟棄。然后用此數據集微調模型，與SFT類似，唯一區別是數據來自模型而非人類。

這一方法由Eric、Tony和Noah提出，論文名為STAR，非常出色。STAR論文最初考慮用此方法節省標注成本，因為人類標注成本高。但后來我們從不同角度理解：一旦訓練數據由更優模型生成，模型就能自我改進。改進后，再次收集數據，重復此過程。這就是迭代微調。

我列了一篇2024年1月由BAAI研究者發表的論文，標題為“Reasoning with Reinforced Fine-Tuning”，這是我注意到的最早學術出版的迭代微調研究。在OpenAI流行后，大家開始公開討論迭代微調。我相信多家機構獨立發現了這個簡單但非常有效的想法。

在這個訓練循環中，驗證器（verifier）至關重要，用于判斷哪個回應正確。因為我們知道最終答案，只需用它選擇正確的推理路徑?？煽康尿炞C器是迭代微調的核心，而非算法。我知道很多人討論不同的算法，如PPO或強化學習的各種變體。如果有人發現顯著優于其他的方法，請告訴我，我可能錯過了什么。我很喜歡Richard Sutton的說法：“驗證：AI的關鍵”（Verification: The Key to AI），這是他2021年的文章標題。

為什么用模型生成的數據而非人類數據？不僅僅是為了節省成本，而是為了性能。有人有想法嗎？

觀眾：是CoT結構的連貫性，還是人類解決問題方式的多樣性？

Denny Zhou：模型生成的數據分布更接近訓練目標，訓練更有效。這與機器學習的第一原理相關：直接優化我們想要的目標。

推理優化的數學原理

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

若要構建推理或生成有趣內容的模型，需優化衡量生成質量的指標。指標因任務而異，例如數學問題的正確性、機器翻譯的BLEU分數或生成質量。有了指標，計算其梯度并進行反向傳播。數學上，我們定義一個函數\( R \)，給定問題和模型參數\( \theta \)，衡量回應質量。\( R \)可以是正確率、BLEU分數或任何目標。然后計算梯度，最大化指標的期望值。

為此，需通過采樣計算期望，這就是策略梯度（policy gradient）的由來。如果你理解數學原理，就沒啥神秘的。有人說要激勵模型思考或推理，我不用這些詞，我用標準的機器學習術語：定義指標，計算梯度，反向傳播。

一旦找到有效路徑，就需擴展方法。有趣的是，對于這種微調方法，我們擴展輸出長度或CoT長度。也可以擴展模型深度，因為分析表明，只要CoT足夠長，模型幾乎能解決所有可計算問題。這很驚人——無需擴展模型大小，只需最小固定大小的Transformer模型。

類人推理的涌現

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

我想強調LLM推理的美妙之處：類人推理過程從Token到Token的預測中涌現，而非依賴經典AI的窮舉搜索。Garry Kasparov在1997年輸給Deep Blue后說：“Deep Blue的智能就像程序化的鬧鐘?！蔽彝?，但LLM推理不同，我們不做顯式搜索。講座前，有人引用了我的推文，說搜索已無關緊要，我很高興聽到這個。實際上，我用了你的代碼，發現搜索仍有用途。

舉個例子說明LLM推理與經典AI的區別。2024年12月，Google發布Gemini 2.0 Thinking Mode（思考模式）。雖然2.5 Pro更強大，但我選這個模型有原因。模型發布后，我試了一個2025年的數學問題，確保不在訓練集中：“用1到10的數字組成2025，每個數字用一次，僅用加法和乘法?！笨梢杂肞ython寫窮舉搜索程序得到結果。看看模型的思考過程。

Gemini模型支持查看思考過程，非常有趣。一開始，模型說：“2025是個大數，暗示乘法占主導?！边@很像人類思維。它注意到2025是45的平方（45 × 45）。我設計問題時沒意識到這點，這是重要線索。模型開始思考如何用乘法得到接近2025平方根（45）的大中間結果。思考過程很長，這正是我們微調時使用長CoT的原因。最終，模型給出答案：“(10 × 4 + 5) = 45，45 × 45 = 2025?！碧袅?，無需任何搜索。

還有一篇關于CoT提示的論文，提到Game 24問題。這個問題比Game 24難得多。他們結合搜索和提示解決，但現在完全不需要，模型僅用自然語言就能解決Game 24。這就是迭代微調的強大之處。

我想再次引用Richard Sutton：“基于已有發現構建，只會讓發現過程更難看到。”他在加入Google DeepMind，看到AlphaGo和AlphaZero的成功后說，只有學習和搜索是可擴展的。但我強調：學習是可擴展的，我們只需學習。

迭代微調的局限性

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

迭代微調的巨大優勢是泛化能力強，但僅適用于可自動驗證的任務，因為訓練循環需要驗證器，無法納入人類驗證。并非所有任務都可自動驗證。有人能舉例說明不可驗證的任務嗎？

觀眾：創意寫作。

Denny Zhou：很好的例子。這是當前微調的重大限制。我知道很多人致力于改進RL算法。我希望看到更多研究解決不可驗證任務，如創意寫作或編碼。有人說AI幾年內會解決編碼問題，但我認為很具挑戰性。他們說的是競技編程，不是日常編程。我們關心設計、可讀性和協作，而不僅是最終答案。

自一致性與聚合

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

所有想法始于CoT解碼：推理路徑已存在于輸出空間，我們只需重塑輸出分布，讓貪心解碼找到它。然后討論了CoT提示和“Let's Think Step by Step”，它們重塑輸出分布，接著是SFT和迭代微調，非常強大。但我們仍有改進空間。

我想談兩個關鍵思路：聚合（aggregation）和檢索（retrieval）。我們看到LLM很強大，但生成推理Token然后輸出最終答案的解碼范式有問題?？雌饋砗茏匀?，對吧？給定問題，生成中間Token，然后是最終答案。有人看到問題嗎？

觀眾：挑戰在于模型預測下一個Token的方式，導致結果與預期不一致。

Denny Zhou：模型最初設計僅為預測下一個Token。我們要記住，LLM是預測模型，不是人類。

數學上，LLM解碼做什么？給定問題，生成推理，然后最終答案，通過貪心解碼找到回應。貪心解碼意味著最大化概率。但我們需選擇最自信的答案，二者不一致。簡單的條件概率數學很有用，理解解碼過程。我們可以修復：生成推理路徑后，需對所有推理路徑求和，計算最終答案的概率。這在機器學習中稱為邊緣化（marginalization），推理路徑本質上是隱變量。

這啟發了自一致性（self-consistency）方法：通過隨機采樣生成多個回應，選擇出現最頻繁的答案。例如，數學問題采樣多次，第一個回應可能是“18”，第二個“26”，再次“18”，選擇最頻繁的。這正是概率邊緣化的實現。我們不看推理路徑，只選最頻繁的答案，而非最頻繁的推理路徑，這是關鍵。

實證上，自一致性顯著提升性能。在GSM8K問題上，微調的GPT-3模型準確率33%，OpenAI用驗證器達到55%。PaLM模型加CoT得到58%，與驗證器相當。但應用自一致性后，準確率躍升至75%，相對提升近50%。PaLM 2甚至達到92%。o1模型（去年10月發布）通過聚合得到66.4%，自一致性仍有顯著提升。

采樣更多回應成本更高，但這是推理時擴展（inference-time scaling）的一種方式。推理時擴展有很多方式，如延長CoT也增加推理時間。有人說推理時擴展，我得知道具體擴展什么。自一致性顯然是一種擴展方式。

自一致性天然自校準（self-calibrated）。一致性越高，準確率越高。在GSM8K上，自一致性超80%時，準確率接近100%。關心預測不確定性或置信度的人可以多次采樣。

確保大家理解自一致性的關鍵：

1. 當LLM不生成中間步驟直接輸出答案時，我們多次采樣，選擇最常見答案。有人有想法嗎？

觀眾：可以直接獲取概率。

Denny Zhou：對，就像經典機器學習，用邏輯回歸得到\( P(y|x) \)，最大化概率。這就是傳統機器學習文獻中看不到自一致性的原因，它沒必要，僅對推理有用。

2. 可否改自一致性，讓LLM生成多個回應而非多次采樣，然后選最常見答案？可以試試。這稱為最大邊緣推理（maximum marginal inference），選擇概率最大的最終答案。數學是我們所需的一切。

自一致性有個問題：假設答案是單個Token。對于一般問題，答案可能不同。我們擴展為Universal Self-Consistency。例如，某問題第二個回應是“日本、中國、印度”，因這些國家在其他答案中出現最多，被選為最一致回應。

推理中的檢索

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

另一個方法是檢索。關于推理的爭論很多，有人說：“或許只是檢索，而非推理?！蔽以谏缃幻襟w上看到這些爭論。對我來說，區分檢索和推理很難。主持會議時，我們討論每篇論文的新穎性，與檢索-推理爭論類似。

觀眾：我試過并行運行不同模型，如Gemini 2.5，四個模型同時回答同一問題，然后用驗證器找最一致結果。

Denny Zhou：對，這更像集成模型（ensemble model），類似隨機森林。數學原理與自一致性不同，但實現類似。好觀點。

我不關心檢索與推理的爭論。我在工業界，只關心性能。對我來說，檢索加推理最好，何必爭論？2024年我們發表了關于類比推理（analogical reasoning）的論文。舉個小例子說明檢索在推理中的重要性：“求一個正方形四頂點的面積……”我加了提示：“回憶一個相關問題，然后解決這個問題。”當時我試了GPT-3.5和我們自己的模型，都失敗了。加了提示后，模型解決了。它找到相關問題——計算坐標平面兩點間的距離，然后用公式計算距離和面積。

另一個例子是物理問題的Step-Back（回退）。解決前，給予少樣本示例，指導模型回退，考慮更抽象的問題，獲取原理，然后解決。這就是檢索在推理中的作用?，F在大家知道Deep Research（深度研究），原理相同。我們有Gemini Deep Research，OpenAI也有。OpenAI的Deep Research負責人是我之前的實習生，博士畢業后加入OpenAI，發明了Deep Research?；舅悸泛唵危赫业较嗨茊栴}或知識解決問題。

總結與未來方向

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

別糾結LLM能否推理的爭論。有推理總比沒推理好。迭代微調優于SFT。聚合多個答案優于單一答案，盡管成本更高。檢索加推理優于單獨推理。

未來突破，我想看到如何解決非唯一可驗證答案的任務。過去，我也希望看到人們構建真實應用，而非僅解決基準測試。我認為所有基準測試很快會飽和。你們對AGI或構建熱情高漲，我想引用Richard Feynman：“真相總是比你想的更簡單?！边@在研究中尤其正確。我看到很多學術論文試圖復雜化，所以我盡量讓講座簡單——確實很簡單。就這樣。

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

問答環節

觀眾：你提到置信度，通常是取輸出Token序列的平均對數概率。你認為有更好的方法嗎？這對幻覺（hallucination）是好指標嗎？

Denny Zhou：我說的置信度是指生成條件的概率。可以查看模型的log probs，看到概率。從實證觀察，推理路徑后，最終答案的置信度大幅提升。

觀眾：你提到Richard Sutton說擴展學習和搜索，但你認為擴展學習就夠了。能否展開為什么搜索不那么必要？

Denny Zhou：我得更具體。構建模型時，不必考慮搜索。模型建成后，搜索可作為工具使用的一種特例，如CoT提示整合符號搜索。對于推理研究，我關心基本能力。模型可寫Python程序用搜索解決問題，但推理過程無需搜索。

觀眾：若無推理，你說無需采樣，因為可查看logits。但如果最可能的下一個Token導致分布擴散，而較不可能的Token導致更尖銳分布，采樣不會收斂于不同分布嗎？

Denny Zhou：好問題。我們仍不清楚訓練中分布如何重塑，很不明確。很難回答，因為我們對最終分布缺乏好的解釋。

觀眾：如何區分推理和答案？需要從最終輸出字符串提取數字嗎？如果答案是程序怎么辦？

Denny Zhou：好問題。如果答案是程序，提取更難。所以人們用微調解決數學或競技編程問題。對于一般情況，需為最終答案寫小心解析器。如果問題很具挑戰，低置信度答案可能是正確的，自一致性不完美。

觀眾：考慮到AGI可能在2-5年內到來，若90%工作自動化，你會培養孩子哪些技能讓他們生存？

Denny Zhou：大問題。誰說AGI五年內到來？去年ICLR有人問AI風險，我說最可怕的是我回不去丟了工作。當前方法有很多限制。我真想看到AI研究的真正殺手級應用。AI模型擅長編程，是編碼的好助手，但我只知道這些。

本文轉載自????Andy730????，作者：常華?

標簽

贊

收藏

回復

舉報

回復

相關推薦

斯坦福學者推出專為Android移動設備打造的大模型，開源！

AIGC最前線 ? 2.5w瀏覽 ? 0回復
斯坦福團隊發現語言模型的新路徑為Q函數

xuxiangda ? 3647瀏覽 ? 0回復
斯坦福大學Gordon Wetzstein教授團隊提出全息增強現實眼鏡

AIGC最前線 ? 4950瀏覽 ? 0回復
斯坦福和微軟聯手，用大型語言模型優化詩歌創作

AI論文解讀 ? 3353瀏覽 ? 0回復
斯坦福新研究：RAG能幫助LLM更靠譜嗎？

duhorse ? 2738瀏覽 ? 0回復
思維鏈緩存-Buffer of Thoughts，北大、UC伯克利、斯坦福最新研究大幅提升LLM推理

angel ? 4934瀏覽 ? 0回復
中國AI大模型論文數量全球第一，清華力壓麻省理工、斯坦福

Aceryt ? 2899瀏覽 ? 0回復
電子科大、同濟大學、新加坡國立大學等發表的Math-LLaVA：引導多模態大語言模型的數學推理能力

sbf_2000 ? 5112瀏覽 ? 0回復
幾何視角下的大語言模型推理

sbf_2000 ? 2621瀏覽 ? 0回復
斯坦福、Salesforce等開源1萬億tokens多模態數據集

Aceryt ? 2436瀏覽 ? 0回復
谷歌前CEO斯坦福大學演講內容泄露，直指 AI 是強者之間的游戲，“富者更富，窮者唯有盡力而為”

51CTO技術棧 ? 3467瀏覽 ? 0回復
斯坦福大學研究團隊破解小規模語料庫知識獲取難題，提出創新的合成持續預訓練方法

AI論文解讀 ? 4074瀏覽 ? 0回復
斯坦福大學和倫敦大學學院聯合打造多智能體系統中的安全防線，應對大模型即時感染

xuxiangda ? 3572瀏覽 ? 0回復
開源大模型如何治理？斯坦福基礎模型研究中心給您支招

AIGC最前線 ? 3275瀏覽 ? 0回復
多智能體新進展 | 斯坦福大學提出新模型'Hypothetical Minds'，讓AI更懂人類思維

AI論文解讀 ? 3402瀏覽 ? 0回復
英偉達&斯坦福大學發布GRS：從真實世界觀測中生成機器人仿真任務

angel ? 3250瀏覽 ? 0回復
斯坦福大學：VideoAgent基于大語言模型的視頻QA系統

大語言模型論文跟蹤 ? 2459瀏覽 ? 0回復
斯坦福大學團隊使用多智能體強化學習訓練社交推理語言模型

xuxiangda ? 2486瀏覽 ? 0回復
斯坦福大學：2025 年人工智能指數報告

歐米伽未來研究所 ? 1475瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

50張圖解讀MoE在LLM中的作用 2025-06-17 06:23:17發布
AI代理與代理式AI：概念分類、應用與挑戰 2025-05-21 07:26:16發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： AI代理與代理式AI：概念分類、應用與挑戰

下一篇： 50張圖解讀MoE在LLM中的作用

社區精華內容

目錄

主站蜘蛛池模板：日韩天堂av| 国产1区在线 | 国产精品久久久久久久久久久久久久 | 国产不卡一区在线观看 | 日韩一区二区三区视频 | 国产精品91视频 | 国产成人高清视频 | aaaaaaa片毛片免费观看 | 日日摸日日添日日躁av | 日本人做爰大片免费观看一老师 | 亚洲高清av| 欧美一区二区三区国产精品 | 成人黄在线观看 | av免费网址 | 亚洲免费婷婷 | 亚洲成人天堂 | 欧美福利一区 | 精品欧美一区二区三区久久久 | 国产精品一区二区三区四区 | 欧美日韩在线一区二区 | 日本在线免费 | 欧美亚洲高清 | 亚洲国产欧美在线 | www.国产.com| 国产激情网 | 亚洲一区二区三区在线 | 在线婷婷 | 羞羞视频一区二区 | 国产综合av| 久久出精品| 九九九久久国产免费 | 91一区二区 | 免费看片在线播放 | 亚洲国产一区视频 | 一区二区三区四区视频 | 久久精品中文 | 日韩欧美第一页 | 日韩视频二区 | 久久久久网站 | 久久精品亚洲精品国产欧美 | 国产精品高清一区二区三区 |

<tfoot id="xisfo"><legend id="xisfo"></legend></tfoot>

<kbd id="xisfo"></kbd>