成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斯坦福大學CS25:大語言模型推理(Reasoning)

發布于 2025-6-4 06:52
瀏覽
0收藏

?核心觀點

1. 大語言模型推理的定義

常規觀點:大語言模型(LLM)的推理被視為類似人類的高級能力,定義模糊,常引發爭論。  

Zhou的觀點:推理爭論因缺乏明確定義而無意義;Zhou將推理定義為輸入與輸出之間的中間Token(推理步驟),僅是模型輸出的可預測行為,而非神秘過程。

2. 預訓練模型的推理能力

常規觀點:預訓練模型需通過思維鏈(CoT)提示或微調才能具備推理能力。  

Zhou的觀點:預訓練模型已具備推理能力,推理路徑存在于輸出空間中;問題在于解碼方式,例如通過探索更多候選而非貪心解碼即可挖掘推理,無需額外提示或微調。

3. 思維鏈提示的作用

常規觀點:思維鏈提示通過教模型逐步思考來啟用或增強推理能力。  

Zhou的觀點:思維鏈提示不增加推理能力,而是重塑輸出分布,將已存在的含推理步驟的響應提升至首位,使貪心解碼可直接選擇,屬于解碼優化而非能力增強。

4. 機器生成數據優于人類數據

常規觀點:人類標注數據是微調模型的最佳選擇,尤其適用于復雜推理任務。  

Zhou的觀點:在迭代微調中,機器生成的數據優于人類數據,因其分布更貼近訓練目標,直接優化輸出質量(如數學問題的正確性),符合機器學習第一原理。

5. 推理擴展的方向

常規觀點:提升推理能力主要靠擴大模型規模(如參數數量)。  

Zhou的觀點:理論表明,固定大小的Transformer模型通過生成足夠長的思維鏈(中間Token)即可解決布爾電路問題,擴展推理步驟長度而非模型規模是關鍵方向。

6. 自一致性的適用條件

常規觀點:自一致性(Self-Consistency)是一種通用技術,通過多次采樣并選擇最常見答案提升模型可靠性。  

Zhou的觀點:自一致性僅在模型生成中間推理步驟時有用,通過對推理路徑的概率邊緣化選擇最可能答案;若直接輸出答案,只需查看模型概率,無需自一致性。

7. 推理無需依賴搜索

常規觀點:推理任務(如數學或邏輯問題)依賴類似經典AI的窮舉搜索。  

Zhou的觀點:LLM推理從Token到Token的預測中涌現,無需顯式搜索;學習是可擴展的核心,搜索僅作為輔助工具而非推理本質。

8. 迭代微調的局限性

常規觀點:迭代微調是提升推理能力的通用方法,適用于大多數任務。  

Zhou的觀點:迭代微調依賴自動驗證器,僅適用于可驗證任務(如數學),對不可自動驗證的任務(如創意寫作)效果有限,限制其通用性。

9. 驗證器的重要性

常規觀點:強化學習算法(如PPO)是提升推理能力的關鍵技術。  

Zhou的觀點:驗證器是迭代微調和AI訓練的核心,遠超復雜算法的重要性;可靠驗證器決定數據質量和模型性能,是AI成功的基石。

10. AGI時間表的懷疑

常規觀點:AI社區普遍樂觀,認為通用人工智能(AGI)可能在2-5年內實現。  

Zhou的觀點:Zhou對AGI在短期內實現的說法持懷疑態度,認為當前方法有顯著局限,真正的挑戰是避免研究停滯而非過快達到AGI。

大語言模型推理(Reasoning)的定義


斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

很高興看到大家已經認為LLM很強大。你們可能會好奇,我對LLM是否能推理的看法是什么?我的答案是:這取決于推理(reasoning)的定義。今天我們將圍繞一個具體的推理定義展開討論。我從不參與關于LLM能否推理的爭論,因為沒有明確的推理定義,這些討論毫無意義。在LLM推理中,我們特指輸入與輸出之間的中間Token(intermediate tokens),這些Token被稱為推理或中間步驟。

這個概念并不新鮮。早在2017年,Deman發表了一篇論文,探討如何利用中間Token解決數學問題。當時,學術界對AlphaGo和AlphaZero的熱情高漲,但這篇論文極具開創性。如果你還沒讀過,我強烈推薦一讀。他們引入了自然語言來解決數學問題,而當時文獻中普遍采用符號方法或搜索。這在神經符號(neurosymbolic)研究中也很常見,通常使用中間過程來解決推理問題。

舉個例子說明LLM推理的用法。當我在Google Brain創立推理團隊時,我設計了一個任務:Last Letter Concatenation(末字母拼接)。這個任務作為激勵示例,可以用Transformer模型解決。例如,輸入“artificial intelligence”,輸出是將每個單詞末字母拼接的結果。如果沒有推理過程,模型可能直接輸出“LE”。但若有推理過程,模型會輸出:“‘artificial’的末字母是L,‘intelligence’的末字母是E,拼接L和E得到LE?!边@里高亮的文本就是推理(reasoning),這就是我所說的推理。

如果你熟悉程序合成或神經符號推理,這個任務設計并不意外。我也嘗試過其他方案,比如拼接首字母,但所有大型模型都能輕松解決,因為網上有大量首字母拼接的例子,模型早已學會。但當我改為末字母拼接時,所有模型都失敗了。很多人會說:“這很自然,我們需要中間步驟,就像人類一樣?!比缃馤LM看似與人類很像,但作為研究者,我們要牢記:LLM只是預測模型(predictive models),不是人類。保持這個認知有助于理解許多新技術。

推理的理論基礎

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

為什么中間Token或推理重要?我們與斯坦福的Tima教授及其學生合作開展了理論研究。研究表明,對于任何可以用大小為\( T \)的布爾電路解決的問題,固定大小的Transformer模型通過生成\( O(T) \)個中間Token即可解決。這是一個強有力的結果。這里的“大小”指邏輯門的數量。例如,若使用GPU集群,\( T \)可能達到百萬、十億甚至萬億。如果直接生成最終答案,模型要么需要極深的網絡,要么根本無法解決問題。這就是我們從理論角度理解推理的依據,后續我會再回到這個理論論點。

解碼與思維鏈推理

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

有一種普遍觀點認為,預訓練模型(pre-trained models)若不經過CoT提示(Chain-of-Thought prompting)或微調(fine-tuning),無法進行推理。過去,大家熱衷于討論微調。這種觀點正確嗎?你們同意嗎?我認為這是錯誤的,非常錯誤。預訓練模型已經具備推理能力,我們需要的只是解碼(decoding),僅與解碼過程相關,無論那些技術看起來多么復雜。

舉個例子:我有三個蘋果,我爸比我多兩個蘋果,我們總共有多少個蘋果?如果你用預訓練模型(如LLaMA、DeepSeek或Chinchilla,我沒試過這些模型),輸入這個問題,模型很可能會輸出“5個蘋果”。顯然,這個答案是錯的。這是因為默認使用了貪心解碼(greedy decoding),問題出在解碼方式上。

如果查看第一個Token的第二候選(因為詞匯表很大),繼續解碼,你會看到:“我有三個蘋果,我爸比我多兩個蘋果,所以他有五個蘋果,3 + 5 = 8?!蓖昝?,對吧?我們只需探索更多候選。另一個選擇是第一個Token的第三候選“we”,解碼后得到:“我們總共有八個蘋果?!边@也正確。第四候選可能是“you”,繼續解碼,依然能看到正確的CoT推理,最終答案正確。第五候選可能是“five”,那是錯誤的。

可以看到,推理路徑(reasoning path)已經存在于輸出空間(output space)中。特別是,第二和第四個回應基于CoT推理。問題在于如何選擇最佳回應。你可能認為可以根據輸出長度選擇,因為包含推理Token的輸出更長。但我們有更好的方法:根據答案置信度(answer confidence)選擇。置信度指模型預測Token的概率。對于包含CoT推理的回應,最終答案Token的置信度遠高于其他。例如,對于“8”這個Token,模型置信度接近98%,這在巨大詞匯表中非常高,通常每個Token的概率幾乎為零。

這個過程稱為Chain-of-Thought Decoding(思維鏈解碼),包含兩步:  

1. 超越貪心解碼,檢查更多生成候選;  

2. 選擇最終答案置信度最高的候選。

CoT解碼方法簡單,但仍需編程實現。聽說過去大家只想用自然語言,不寫代碼。當然,你們是例外。所以我們想:能否重塑模型的輸出分布,讓深思熟慮的回應自然排在首位?如果CoT回應排在首位,貪心解碼就能自然找到它。

思維鏈提示

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

現在來看CoT提示(Chain-of-Thought prompting)。如果你了解CoT提示,就能明白其工作原理。這是一個簡單方法。給定一個問題,你可能用一個相似問題作為示例,放在問題前,模型就會神奇地模仿推理風格,生成逐步解決方案。現在可以理解CoT提示為何有效:它改變輸出分布,將輸出空間中原有的CoT解決方案推到首位。

還有更簡單的方法:“Let's Think Step by Step”(讓我們一步步思考)。這在推理研究中是個驚艷的工作。論文發布時,我以為是玩笑,怎么可能?當時Google Brain團隊開發了PaLM模型,我在PaLM上試了這個方法。我知道PaLM的構建過程,絕對與這個“魔法”無關。但結果它竟然有效,我非常震驚。這篇論文極大啟發了我的推理研究。

這些提示方法簡單,且確實有效,但也有缺陷。CoT提示需要特定任務的示例,我對此不太滿意。如果我知道相似問題,我自己就能解決,為什么還要問別人?“Let's Think Step by Step”更通用,無需找相似示例,只需說“讓我們一步步思考”,魔法就出現了。但遺憾的是,其表現比少樣本提示(few-shot prompting)差得多。兩種方法看起來都不錯,但如果我問問題還得說“請一步步思考”,否則對方不會思考,這不符合預期。

監督微調

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

如何解決?一種流行方法是監督微調(Supervised Fine-Tuning, SFT)。思路簡單:收集一組問題及其人類標注的逐步解決方案,然后最大化人類解決方案的似然(likelihood)。對于LLM訓練,這只是最大化似然,之后模型可廣泛應用。

我提到2017年的Deman論文,他們正是這樣做的:收集數學字面問題及人類標注的逐步解決方案,訓練序列模型解決數學問題。2021年,OpenAI進一步擴展此方法,構建了更大的數據集GSM8K(小學數學問題),用它微調GPT-3模型。

舉例說明:可以用Last Letter Concatenation或蘋果數學問題作為訓練數據微調模型,然后用新問題測試,如“草莓里有多少小時?”我特意選這個問題,因為社交媒體上很多人認為這是測試AGI是否到來的好問題。

SFT是個通用的方法,一旦訓練好模型,就能廣泛應用。如果這能解決推理問題,我的講座到此結束——收集更多斯坦福的優秀示例,訓練模型即可。但實際上,SFT泛化能力不佳。2021年夏天,我們發現SFT在推理任務上表現不佳。怎么辦?擴展,擴展,再擴展——獲取更多數據訓練模型,看效果如何。教訓是:不要盲目擴展。一旦范式錯誤,無論如何擴展,都無效。

迭代微調與自我改進

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

如何解決SFT的泛化失???看看SFT流程:僅兩步。問題出在哪?出在人類數據上。如果你之前不知道,會很驚訝。如果人類數據有問題,Scale AI怎么賺錢?我團隊的一員發明了迭代微調(Iterative Fine-Tuning)。他告訴我,機器生成的數據可能比人類數據更適合訓練,我一開始非常驚訝。

首個嘗試稱為Self-Improve(自我改進)。不再從人類收集數據,而是讓模型生成數據。收集一組問題,讓模型生成逐步解決方案,然后最大化正確答案的似然。對于數學問題,你可能知道最終答案,但不知道逐步解決方案。模型生成解決方案后,檢查答案正確性:正確則選用,錯誤則丟棄。然后用此數據集微調模型,與SFT類似,唯一區別是數據來自模型而非人類。

這一方法由Eric、Tony和Noah提出,論文名為STAR,非常出色。STAR論文最初考慮用此方法節省標注成本,因為人類標注成本高。但后來我們從不同角度理解:一旦訓練數據由更優模型生成,模型就能自我改進。改進后,再次收集數據,重復此過程。這就是迭代微調。

我列了一篇2024年1月由BAAI研究者發表的論文,標題為“Reasoning with Reinforced Fine-Tuning”,這是我注意到的最早學術出版的迭代微調研究。在OpenAI流行后,大家開始公開討論迭代微調。我相信多家機構獨立發現了這個簡單但非常有效的想法。

在這個訓練循環中,驗證器(verifier)至關重要,用于判斷哪個回應正確。因為我們知道最終答案,只需用它選擇正確的推理路徑??煽康尿炞C器是迭代微調的核心,而非算法。我知道很多人討論不同的算法,如PPO或強化學習的各種變體。如果有人發現顯著優于其他的方法,請告訴我,我可能錯過了什么。我很喜歡Richard Sutton的說法:“驗證:AI的關鍵”(Verification: The Key to AI),這是他2021年的文章標題。

為什么用模型生成的數據而非人類數據?不僅僅是為了節省成本,而是為了性能。有人有想法嗎?  

觀眾:是CoT結構的連貫性,還是人類解決問題方式的多樣性?  

Denny Zhou:模型生成的數據分布更接近訓練目標,訓練更有效。這與機器學習的第一原理相關:直接優化我們想要的目標。

推理優化的數學原理

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

若要構建推理或生成有趣內容的模型,需優化衡量生成質量的指標。指標因任務而異,例如數學問題的正確性、機器翻譯的BLEU分數或生成質量。有了指標,計算其梯度并進行反向傳播。數學上,我們定義一個函數\( R \),給定問題和模型參數\( \theta \),衡量回應質量。\( R \)可以是正確率、BLEU分數或任何目標。然后計算梯度,最大化指標的期望值。

為此,需通過采樣計算期望,這就是策略梯度(policy gradient)的由來。如果你理解數學原理,就沒啥神秘的。有人說要激勵模型思考或推理,我不用這些詞,我用標準的機器學習術語:定義指標,計算梯度,反向傳播。

一旦找到有效路徑,就需擴展方法。有趣的是,對于這種微調方法,我們擴展輸出長度或CoT長度。也可以擴展模型深度,因為分析表明,只要CoT足夠長,模型幾乎能解決所有可計算問題。這很驚人——無需擴展模型大小,只需最小固定大小的Transformer模型。

類人推理的涌現

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

我想強調LLM推理的美妙之處:類人推理過程從Token到Token的預測中涌現,而非依賴經典AI的窮舉搜索。Garry Kasparov在1997年輸給Deep Blue后說:“Deep Blue的智能就像程序化的鬧鐘?!蔽彝?,但LLM推理不同,我們不做顯式搜索。講座前,有人引用了我的推文,說搜索已無關緊要,我很高興聽到這個。實際上,我用了你的代碼,發現搜索仍有用途。

舉個例子說明LLM推理與經典AI的區別。2024年12月,Google發布Gemini 2.0 Thinking Mode(思考模式)。雖然2.5 Pro更強大,但我選這個模型有原因。模型發布后,我試了一個2025年的數學問題,確保不在訓練集中:“用1到10的數字組成2025,每個數字用一次,僅用加法和乘法?!笨梢杂肞ython寫窮舉搜索程序得到結果。看看模型的思考過程。

Gemini模型支持查看思考過程,非常有趣。一開始,模型說:“2025是個大數,暗示乘法占主導?!边@很像人類思維。它注意到2025是45的平方(45 × 45)。我設計問題時沒意識到這點,這是重要線索。模型開始思考如何用乘法得到接近2025平方根(45)的大中間結果。思考過程很長,這正是我們微調時使用長CoT的原因。最終,模型給出答案:“(10 × 4 + 5) = 45,45 × 45 = 2025?!碧袅?,無需任何搜索。

還有一篇關于CoT提示的論文,提到Game 24問題。這個問題比Game 24難得多。他們結合搜索和提示解決,但現在完全不需要,模型僅用自然語言就能解決Game 24。這就是迭代微調的強大之處。

我想再次引用Richard Sutton:“基于已有發現構建,只會讓發現過程更難看到。”他在加入Google DeepMind,看到AlphaGo和AlphaZero的成功后說,只有學習和搜索是可擴展的。但我強調:學習是可擴展的,我們只需學習。

迭代微調的局限性

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

迭代微調的巨大優勢是泛化能力強,但僅適用于可自動驗證的任務,因為訓練循環需要驗證器,無法納入人類驗證。并非所有任務都可自動驗證。有人能舉例說明不可驗證的任務嗎?  

觀眾:創意寫作。  

Denny Zhou:很好的例子。這是當前微調的重大限制。我知道很多人致力于改進RL算法。我希望看到更多研究解決不可驗證任務,如創意寫作或編碼。有人說AI幾年內會解決編碼問題,但我認為很具挑戰性。他們說的是競技編程,不是日常編程。我們關心設計、可讀性和協作,而不僅是最終答案。

自一致性與聚合

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

所有想法始于CoT解碼:推理路徑已存在于輸出空間,我們只需重塑輸出分布,讓貪心解碼找到它。然后討論了CoT提示和“Let's Think Step by Step”,它們重塑輸出分布,接著是SFT和迭代微調,非常強大。但我們仍有改進空間。

我想談兩個關鍵思路:聚合(aggregation)和檢索(retrieval)。我們看到LLM很強大,但生成推理Token然后輸出最終答案的解碼范式有問題??雌饋砗茏匀?,對吧?給定問題,生成中間Token,然后是最終答案。有人看到問題嗎?  

觀眾:挑戰在于模型預測下一個Token的方式,導致結果與預期不一致。  

Denny Zhou:模型最初設計僅為預測下一個Token。我們要記住,LLM是預測模型,不是人類。

數學上,LLM解碼做什么?給定問題,生成推理,然后最終答案,通過貪心解碼找到回應。貪心解碼意味著最大化概率。但我們需選擇最自信的答案,二者不一致。簡單的條件概率數學很有用,理解解碼過程。我們可以修復:生成推理路徑后,需對所有推理路徑求和,計算最終答案的概率。這在機器學習中稱為邊緣化(marginalization),推理路徑本質上是隱變量。

這啟發了自一致性(self-consistency)方法:通過隨機采樣生成多個回應,選擇出現最頻繁的答案。例如,數學問題采樣多次,第一個回應可能是“18”,第二個“26”,再次“18”,選擇最頻繁的。這正是概率邊緣化的實現。我們不看推理路徑,只選最頻繁的答案,而非最頻繁的推理路徑,這是關鍵。

實證上,自一致性顯著提升性能。在GSM8K問題上,微調的GPT-3模型準確率33%,OpenAI用驗證器達到55%。PaLM模型加CoT得到58%,與驗證器相當。但應用自一致性后,準確率躍升至75%,相對提升近50%。PaLM 2甚至達到92%。o1模型(去年10月發布)通過聚合得到66.4%,自一致性仍有顯著提升。

采樣更多回應成本更高,但這是推理時擴展(inference-time scaling)的一種方式。推理時擴展有很多方式,如延長CoT也增加推理時間。有人說推理時擴展,我得知道具體擴展什么。自一致性顯然是一種擴展方式。

自一致性天然自校準(self-calibrated)。一致性越高,準確率越高。在GSM8K上,自一致性超80%時,準確率接近100%。關心預測不確定性或置信度的人可以多次采樣。

確保大家理解自一致性的關鍵:  

1. 當LLM不生成中間步驟直接輸出答案時,我們多次采樣,選擇最常見答案。有人有想法嗎?  

觀眾:可以直接獲取概率。  

Denny Zhou:對,就像經典機器學習,用邏輯回歸得到\( P(y|x) \),最大化概率。這就是傳統機器學習文獻中看不到自一致性的原因,它沒必要,僅對推理有用。

2. 可否改自一致性,讓LLM生成多個回應而非多次采樣,然后選最常見答案?可以試試。這稱為最大邊緣推理(maximum marginal inference),選擇概率最大的最終答案。數學是我們所需的一切。

自一致性有個問題:假設答案是單個Token。對于一般問題,答案可能不同。我們擴展為Universal Self-Consistency。例如,某問題第二個回應是“日本、中國、印度”,因這些國家在其他答案中出現最多,被選為最一致回應。

推理中的檢索

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

另一個方法是檢索。關于推理的爭論很多,有人說:“或許只是檢索,而非推理?!蔽以谏缃幻襟w上看到這些爭論。對我來說,區分檢索和推理很難。主持會議時,我們討論每篇論文的新穎性,與檢索-推理爭論類似。

觀眾:我試過并行運行不同模型,如Gemini 2.5,四個模型同時回答同一問題,然后用驗證器找最一致結果。  

Denny Zhou:對,這更像集成模型(ensemble model),類似隨機森林。數學原理與自一致性不同,但實現類似。好觀點。

我不關心檢索與推理的爭論。我在工業界,只關心性能。對我來說,檢索加推理最好,何必爭論?2024年我們發表了關于類比推理(analogical reasoning)的論文。舉個小例子說明檢索在推理中的重要性:“求一個正方形四頂點的面積……”我加了提示:“回憶一個相關問題,然后解決這個問題。”當時我試了GPT-3.5和我們自己的模型,都失敗了。加了提示后,模型解決了。它找到相關問題——計算坐標平面兩點間的距離,然后用公式計算距離和面積。

另一個例子是物理問題的Step-Back(回退)。解決前,給予少樣本示例,指導模型回退,考慮更抽象的問題,獲取原理,然后解決。這就是檢索在推理中的作用?,F在大家知道Deep Research(深度研究),原理相同。我們有Gemini Deep Research,OpenAI也有。OpenAI的Deep Research負責人是我之前的實習生,博士畢業后加入OpenAI,發明了Deep Research?;舅悸泛唵危赫业较嗨茊栴}或知識解決問題。

總結與未來方向

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

別糾結LLM能否推理的爭論。有推理總比沒推理好。迭代微調優于SFT。聚合多個答案優于單一答案,盡管成本更高。檢索加推理優于單獨推理。

未來突破,我想看到如何解決非唯一可驗證答案的任務。過去,我也希望看到人們構建真實應用,而非僅解決基準測試。我認為所有基準測試很快會飽和。你們對AGI或構建熱情高漲,我想引用Richard Feynman:“真相總是比你想的更簡單?!边@在研究中尤其正確。我看到很多學術論文試圖復雜化,所以我盡量讓講座簡單——確實很簡單。就這樣。

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

問答環節

觀眾:你提到置信度,通常是取輸出Token序列的平均對數概率。你認為有更好的方法嗎?這對幻覺(hallucination)是好指標嗎?  

Denny Zhou:我說的置信度是指生成條件的概率。可以查看模型的log probs,看到概率。從實證觀察,推理路徑后,最終答案的置信度大幅提升。

觀眾:你提到Richard Sutton說擴展學習和搜索,但你認為擴展學習就夠了。能否展開為什么搜索不那么必要?  

Denny Zhou:我得更具體。構建模型時,不必考慮搜索。模型建成后,搜索可作為工具使用的一種特例,如CoT提示整合符號搜索。對于推理研究,我關心基本能力。模型可寫Python程序用搜索解決問題,但推理過程無需搜索。

觀眾:若無推理,你說無需采樣,因為可查看logits。但如果最可能的下一個Token導致分布擴散,而較不可能的Token導致更尖銳分布,采樣不會收斂于不同分布嗎?  

Denny Zhou:好問題。我們仍不清楚訓練中分布如何重塑,很不明確。很難回答,因為我們對最終分布缺乏好的解釋。

觀眾:如何區分推理和答案?需要從最終輸出字符串提取數字嗎?如果答案是程序怎么辦?  

Denny Zhou:好問題。如果答案是程序,提取更難。所以人們用微調解決數學或競技編程問題。對于一般情況,需為最終答案寫小心解析器。如果問題很具挑戰,低置信度答案可能是正確的,自一致性不完美。

觀眾:考慮到AGI可能在2-5年內到來,若90%工作自動化,你會培養孩子哪些技能讓他們生存?  

Denny Zhou:大問題。誰說AGI五年內到來?去年ICLR有人問AI風險,我說最可怕的是我回不去丟了工作。當前方法有很多限制。我真想看到AI研究的真正殺手級應用。AI模型擅長編程,是編碼的好助手,但我只知道這些。

本文轉載自????Andy730????,作者:常華?

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日韩天堂av| 国产1区在线 | 国产精品久久久久久久久久久久久久 | 国产不卡一区在线观看 | 日韩一区二区三区视频 | 国产精品91视频 | 国产成人高清视频 | aaaaaaa片毛片免费观看 | 日日摸日日添日日躁av | 日本人做爰大片免费观看一老师 | 亚洲高清av| 欧美一区二区三区国产精品 | 成人黄在线观看 | av免费网址 | 亚洲免费婷婷 | 亚洲成人天堂 | 欧美福利一区 | 精品欧美一区二区三区久久久 | 国产精品一区二区三区四区 | 欧美日韩在线一区二区 | 日本在线免费 | 欧美亚洲高清 | 亚洲国产欧美在线 | www.国产.com| 国产激情网 | 亚洲一区二区三区在线 | 在线婷婷 | 羞羞视频一区二区 | 国产综合av| 久久出精品| 九九九久久国产免费 | 91一区二区 | 免费看片在线播放 | 亚洲国产一区视频 | 一区二区三区四区视频 | 久久精品中文 | 日韩欧美第一页 | 日韩视频二区 | 久久久久网站 | 久久精品亚洲精品国产欧美 | 国产精品高清一区二区三区 |