推理AI「腦補(bǔ)」成癮,廢話拉滿!馬里蘭華人學(xué)霸揭開內(nèi)幕
推理模型越來越成為主流了。
像GPT-4.5這樣沒有推理功能的大語言模型則越來越少見,就連OpenAI自身也將重心放到了推理模型o系列上面。
原因在于推理模型通過在回答之前先「思考」,從而能夠獲得更加優(yōu)秀的效果。
然而,現(xiàn)在的推理模型還不是很成熟,尤其是面對缺乏前提條件的病態(tài)問題 (MiP)時,回答長度會顯著增加,變得冗長且低效。
比如,哪怕是「1加2等于幾」這樣的問題,現(xiàn)在的推理模型也可能生成數(shù)百個token的回答。
這種現(xiàn)象嚴(yán)重違背了「test-time scaling law」(測試時擴(kuò)展)。
而像GPT-4.5這樣并非專門為推理訓(xùn)練的模型在MiP場景下表現(xiàn)反而更好,它們生成的回答更短,能迅速識別出問題的不合理性。
這就揭示了當(dāng)前推理型語言模型的一個關(guān)鍵缺陷:它們沒有高效思考,導(dǎo)致思考模式被濫用。
這種針對病態(tài)問題的推理失敗通常稱為「缺失前提下的過度思考」(MiP-Overthinking)。
為了深入探究這些失敗背后的原因,馬里蘭大學(xué)和利哈伊大學(xué)的研究人員對不同類型語言模型的推理長度、過度思考模式以及批判性思維的位置進(jìn)行了細(xì)致的分析。
論文地址:https://arxiv.org/abs/2504.06514
舉個簡單的例子,像圖1左邊展示的問題:「a的值是多少?」。
在沒有任何關(guān)于a的信息的情況下,這個問題顯然無解。然而,DeepSeek-R1卻為這個問題生成了數(shù)千個token的回答,耗費(fèi)幾分鐘的思考計(jì)算。
這暴露出了一種風(fēng)險(xiǎn):那些被訓(xùn)練用來深度思考的模型,可能會濫用思考模式,缺乏質(zhì)疑問題有效性的批判性思維。
理想情況下,一個具備批判性思維的模型應(yīng)該能識別出缺失的前提,迅速要求澄清或優(yōu)雅地表示無法繼續(xù)解答。
例如,圖1右邊展示了一個來自GSM8K的定義明確的問題和它的MiP變體,在條件缺失時推理模型觸發(fā)了token數(shù)量的劇增,遠(yuǎn)超普通過度思考。
此外,研究人員觀察到,即使推理模型偶爾能注意到缺失前提,它們的無效和冗余思考也常常無法停止,這違背了測試時擴(kuò)展定律的預(yù)期。
研究人員設(shè)計(jì)了一套專門的MiP問題,目的是以可控的方式觸發(fā)模型的「過度思考」失敗。
為了確保研究結(jié)果的普適性,他們對各種最先進(jìn)的語言模型進(jìn)行了測試,涵蓋了從推理型模型到非推理型模型、從開源模型到專有模型。
主要通過三個指標(biāo)來評估模型表現(xiàn):生成回答的長度、在明確問題上的準(zhǔn)確率,以及在包含MiP的「病態(tài)問題」上的「放棄率」。
核心發(fā)現(xiàn):
- 當(dāng)問題缺少前提時,推理型模型會生成明顯更長的回答(比一般過度思考多2到4倍的token)。但這些額外的token并不能幫助它們識別MiP問題,這與人們常討論的「測試時擴(kuò)展定律」(test-time scaling law)相悖。
- 相比之下,非推理模型在面對MiP問題時,生成更短的回答,并能更快識別出缺失前提,表現(xiàn)出對關(guān)鍵信息缺失的更強(qiáng)魯棒性。
- 推理型模型在明確問題和MiP問題上的反應(yīng)截然不同:對于明確問題,它們通常能穩(wěn)定地進(jìn)行「思維鏈」推理;但在MiP問題上,它們往往陷入「自我懷疑循環(huán)」,反復(fù)重審問題、猜測用戶意圖,導(dǎo)致生成的token數(shù)激增。
- 推理型模型通常能注意到MiP的存在,甚至在早期就能識別出來,但它們往往猶豫不決、不敢果斷下結(jié)論,繼續(xù)輸出無效的思考內(nèi)容。
缺失前提的定義
簡單說,「缺失前提」(Missing Premise, MiP)其實(shí)是在描述一種問題:你本來需要一些關(guān)鍵信息(前提)來明確回答一個問題,但如果其中一個關(guān)鍵信息被拿掉了,問題就變得沒法準(zhǔn)確回答了。
舉個例子: 假如問題Q是:「小明買了蘋果和香蕉一共花了多少錢?” 」
前提P是一組信息,比如:
P1:蘋果2元一個,小明買了3個蘋果。
P2:香蕉1元一個,小明買了2個香蕉。
有了這些前提,你可以算出:3×2+2×1=8元,答案是唯一的,問題很好解決。
但如果我們把其中一個前提拿掉,比如去掉 P2(關(guān)于香蕉的信息),你就只知道蘋果的價(jià)格和數(shù)量,但不知道香蕉的價(jià)格或數(shù)量。
這時候,問題就變成了「缺失前提問題」,因?yàn)楣饪渴O碌男畔?,你沒法確定小明一共花了多少錢。
按照這個定義,一個聰明的推理系統(tǒng)應(yīng)該能很快發(fā)現(xiàn)「哎呀,缺了點(diǎn)關(guān)鍵信息,我沒法得出一個確定的答案」,然后就停下來,不去瞎猜。
但實(shí)際上,很多高級模型卻會在這時候「想太多」,不停地繞圈子,試圖硬湊出一個答案,結(jié)果白費(fèi)力氣也沒用。
數(shù)據(jù)集的構(gòu)建
研究團(tuán)隊(duì)精心設(shè)計(jì)了一套可控的MiP問題。這些問題來自三個不同難度的數(shù)學(xué)數(shù)據(jù)集,另外他們還創(chuàng)建了一個合成數(shù)據(jù)集。
這些數(shù)據(jù)涵蓋了三種難度級別和三種策略:
1. 基于規(guī)則生成:這種方法通過公式構(gòu)建過程生成MiP問題,其中未賦值的變量就是缺失的前提。
2. 主體-問題互換:故意讓問題的主體和提問部分不匹配,制造邏輯上的矛盾。這樣,問題的前提和提問就完全不搭邊。
3. 移除關(guān)鍵前提:通過仔細(xì)分析原本完整的問題,找出一條對解決問題至關(guān)重要的前提,然后把它去掉。這樣問題結(jié)構(gòu)還在,但沒法解答。
具體來說包括這幾個部分(表1):MiP-Formula(公式數(shù)據(jù)集)、MiP-SVAMP(小學(xué)數(shù)學(xué)數(shù)據(jù)集)、MiP-GSM8K(更復(fù)雜的數(shù)學(xué)數(shù)據(jù)集)、MiP-MATH(競賽級數(shù)學(xué)數(shù)據(jù)集)。
對于GSM8K和MATH數(shù)據(jù)集,通過去掉原始問題中的一個前提(標(biāo)為刪除線)來創(chuàng)建MiP問題
在缺失假設(shè)下的過度思考
為了系統(tǒng)地評估模型在缺失前提(MiP)條件下的響應(yīng),對于每個模型,研究團(tuán)隊(duì)分析計(jì)算了不同數(shù)據(jù)集中響應(yīng)的以下指標(biāo):
- 響應(yīng)長度:響應(yīng)中的平均token數(shù)量,包括推理步驟和最終答案部分。
- MiP問題的放棄率:模型明確識別出缺失前提,并選擇不提供答案或請求解決問題所需額外信息的答案比例。
- 明確定義問題的準(zhǔn)確率:模型產(chǎn)生的確定性響應(yīng)與參考答案一致的比例。
對于沒有參考答案的數(shù)據(jù)集(MiP-Formula和MiP-SVAMP),僅計(jì)算問題的放棄率。響應(yīng)評估使用GPT-4o作為自動評估器進(jìn)行。
主要結(jié)果
圖2展示了多種先進(jìn)大型語言模型(LLMs)在平均回答長度、明確問題上的準(zhǔn)確率,以及MiP問題上的「放棄率」(即識別無解并選擇不答的比率)的對比,揭示了模型行為中的幾個重要規(guī)律。
推理模型在缺失前提(MiP)問題上容易「想太多」,生成過長回答卻無法有效識別無解情況。非推理模型回答較短,更能快速發(fā)現(xiàn)信息不足,表現(xiàn)出更強(qiáng)的魯棒性
比較不同MiP數(shù)據(jù)集的響應(yīng)長度和放棄率,更短的長度和更高的放棄率是首選。
對于每一列,前三個優(yōu)選值用綠色標(biāo)注,其他用紅色標(biāo)注。
MiP過度思考(以較長響應(yīng)和低放棄率為特征)在所有數(shù)據(jù)集的大多數(shù)現(xiàn)有推理模型中普遍存在(紅色所標(biāo)注的模型),表明了現(xiàn)有推理模型的一個關(guān)鍵缺陷。
首先,現(xiàn)有的推理模型在面對MiP問題時表現(xiàn)出響應(yīng)長度的爆炸性增長,通常產(chǎn)生比明確定義問題的一般過度思考多2-4倍的Tokens。
例如,QwQ-32B和DeepSeek-R1在明確定義的問題上已經(jīng)有較長的推理路徑(簡單GSM8K問題約1,000個Tokens),在缺失前提條件下產(chǎn)生更長的輸出(超過3,000個Tokens)。
相比之下,非推理模型不存在類似問題,它們對明確定義和MiP問題生成的Tokens數(shù)量相似。
這種現(xiàn)象直接說明了推理模型的MiP過度思考現(xiàn)象。
其次,比較推理模型和非推理模型在明確定義問題上的Tokens長度,推理模型傾向于產(chǎn)生更長的響應(yīng),即使是簡單問題,這凸顯了現(xiàn)有推理模型的低效和冗長響應(yīng)特點(diǎn)。
例如,非推理模型僅需約200個Tokens就能生成明確定義問題的響應(yīng),而DeepSeek-R1需要1,000個Tokens,QWQ-32B需要1,800個Tokens來回答完全相同的問題。
然而,額外Tokens的爆炸性增長并未帶來相應(yīng)的大幅準(zhǔn)確率提升,突顯了一般過度思考的問題。
最后,MiP問題的放棄率(紅線)顯示,盡管一些推理模型(如GPT-o1)在放棄MiP問題方面表現(xiàn)出良好能力,但大多數(shù)其他推理模型即使有極長的推理路徑,也無法正確放棄給定的MiP問題。
這種現(xiàn)象表明,雖然大多數(shù)現(xiàn)有推理模型在某種程度上具備思考和推理能力,但它們?nèi)狈Α妇芙^」不當(dāng)問題的批判性思維能力。
相比之下,非推理模型雖然沒有專門為推理而訓(xùn)練,但往往能取得更好的平衡,生成更短的答案,并且在問題構(gòu)造不當(dāng)時更可能承認(rèn)MiP。
這種現(xiàn)象揭示了測試時擴(kuò)展定律的一個令人驚訝的矛盾。
此外,表2進(jìn)一步展示了整理的其他MiP數(shù)據(jù)集在長度和放棄率方面的比較。
首選結(jié)果用綠色標(biāo)注(對于MiP問題,更短的響應(yīng)和更高的放棄率),較差的結(jié)果用紅色標(biāo)注。
從中可以輕易發(fā)現(xiàn),推理模型傾向于在所有數(shù)據(jù)集中生成長響應(yīng),同時保持低放棄率,表明現(xiàn)有推理模型持續(xù)存在MiP過度思考問題。
此外,通過比較模型在不同數(shù)據(jù)集上的行為,可以觀察到,對于相對較難的數(shù)據(jù)集(MiP-MATH),所有模型生成的響應(yīng)相對更長,獲得的放棄率更低,表明更難的MiP問題需要更強(qiáng)的推理能力。
通過Tokens分析思考模式
為了深入了解MiP過度思考問題,比較了MiP-GSM8K數(shù)據(jù)集上與推理相關(guān)的Tokens分布。
如表3所示,分解了幾個與思考過程相關(guān)的Tokens模式的平均使用情況,以及每個模型解決給定問題的步驟數(shù)。
具體而言,「alternatively」、「wait」、「check」和「but」的值可以直接從模型響應(yīng)中計(jì)數(shù),包括推理模型的思考路徑。
「Hypothesis」類別包括幾個關(guān)鍵詞,包括「perhaps」、「maybe」和「might」。步驟表示由「\n\n」分隔的步驟計(jì)數(shù)。
推理模型表現(xiàn)出更高頻率的「alternatively」、「wait」、「check」等Tokens使用,而非推理模型的頻率接近于零,這表明了它們的高級思考能力。
從明確定義問題轉(zhuǎn)向MiP問題時,推理模型在推理相關(guān)Tokens上出現(xiàn)爆炸性增長,表明思考模式存在大量冗余。
此外,在比較步驟變化時,推理模型對MiP問題表現(xiàn)出步驟數(shù)的大幅增加,而非推理模型通常顯示更少的步驟,這表明它們能快速得出問題無法回答的結(jié)論。
結(jié)合這種差距和非推理模型始終較好的放棄率,得出結(jié)論:冗長的推理步驟大多是多余的,表明推理模型存在自我懷疑的思考模式。
為了進(jìn)一步評估在MiP條件下生成內(nèi)容的冗余程度,檢查了模型在MiP-GSM8K數(shù)據(jù)集上響應(yīng)的步驟級相似性。
具體來說,將每個響應(yīng)分為由「\n\n」分隔的離散步驟,并使用all-MiniLM-L6-v2生成的嵌入計(jì)算成對余弦相似度分?jǐn)?shù)。
可視化如圖3所示,熱圖矩陣中的每個值代表相應(yīng)步驟索引之間的平均余弦相似度。明確定義問題的平均相似度分?jǐn)?shù)為0.45,MiP響應(yīng)為0.50。方差分別為7.9e-3和8.2e-4。
如圖所示,MiP問題的響應(yīng)在各個步驟之間具有更高的整體相似性和更低的標(biāo)準(zhǔn)方差,表明內(nèi)容存在相當(dāng)大的冗余。
這意味著,在許多情況下,模型會重新訪問類似的部分推理或僅做微小改動重復(fù)前面的句子,顯示出潛在的自我陷阱問題。
總的來說,這些模式證實(shí)MiP問題在推理模型中導(dǎo)致高度重復(fù)的內(nèi)容。
模型沒有及早終止并得出前提不足的結(jié)論,而是用重復(fù)的重新檢查和重述填充其推理路徑,顯著增加Tokens使用量,但并未改善實(shí)際放棄率。
通過示例分析思考模式
為了進(jìn)一步理解推理模型在面對構(gòu)造不當(dāng)?shù)妮斎霑r推理鏈中發(fā)生的情況,在圖4中展示了推理模型對MiP問題響應(yīng)的一個示例。
總結(jié)了在示例中發(fā)現(xiàn)的五種主要思考模式,并用不同顏色突出顯示它們。
可以從示例中觀察到,模型濫用這些模式生成長響應(yīng),而這些響應(yīng)不僅冗余,而且對模型放棄給定的MiP問題也沒有幫助。
該響應(yīng)展現(xiàn)了五種不同的思考模式,用不同顏色突出顯示:
- 重新審視問題(黃色):模型重新審視原始問題;
- 訪問知識(紅色):模型訪問領(lǐng)域特定知識;
- 提出假設(shè)(藍(lán)色):模型提出并研究各種假設(shè);
- 自我懷疑(綠色):模型質(zhì)疑自己的推理過程并表達(dá)不確定性;
- 暫停/檢查(紫色):模型暫停以回顧先前的步驟。
這些模式展示了模型在面對缺失前提條件時的復(fù)雜但可能低效的推理過程。
模型是否知道前提缺失?
為了研究推理模型在其推理過程中是否能夠識別問題的潛在不可解性,研究團(tuán)隊(duì)對它們的推理鏈進(jìn)行了詳細(xì)分析。
為確保評估的穩(wěn)健性,使用GPT-4o對每個步驟進(jìn)行了三次評估,并使用多數(shù)投票作為最終的步驟級結(jié)果。該分析的定量結(jié)果如表4所示。
從表中可以看出,大多數(shù)現(xiàn)有的推理模型在推理過程的早期階段就懷疑給定問題可能無法解決,這表明推理模型具有識別潛在MiP問題的能力。
然而,這些推理模型缺乏批判性思維能力:它們傾向于通過反復(fù)重新審視問題和相關(guān)定義來繼續(xù)深挖給定的無解問題,而不是質(zhì)疑給定問題的可解性。
因此,如圖5所示,盡管現(xiàn)有的推理模型對大多數(shù)給定的MiP問題表示懷疑,但它們只放棄了其中很小一部分。
基于上述觀察,得出結(jié)論:推理模型實(shí)際上具備發(fā)現(xiàn)給定MiP問題不可解的能力,但它們「不敢」放棄這些問題。
MiP(過度思考)問題表明了推理模型缺乏批判性思維能力。
MiP-Overthinking現(xiàn)象在基于強(qiáng)化學(xué)習(xí)(RL)和基于監(jiān)督微調(diào)(SFT)的推理模型中都有體現(xiàn)。
假設(shè)這種現(xiàn)象主要源于基于規(guī)則的強(qiáng)化學(xué)習(xí)階段中長度約束不足,隨后通過蒸餾傳播到SFT模型中。
當(dāng)前的基于RL的推理模型主要采用基于規(guī)則的訓(xùn)練,專注于格式和準(zhǔn)確性獎勵,其中一些模型加入了步驟或長度獎勵以促進(jìn)深入推理。
這種方法可能導(dǎo)致獎勵破解(reward hacking),即模型探索過度的推理模式以獲得正確答案。
為了證明這種行為通過蒸餾的可傳播性,使用DeepSeek-R1在MiP-Formula數(shù)據(jù)集上生成的50個MiP響應(yīng)對Qwen-2.5-7B-Instruct進(jìn)行了小規(guī)模微調(diào)。
如圖6所示,在GSM8K上評估時,微調(diào)后的模型表現(xiàn)出明顯的MiP-過度思考特征:MiP和定義良好的問題的響應(yīng)長度顯著增加,MiP和定義良好響應(yīng)之間出現(xiàn)了原始模型中不存在的長度差異,以及棄權(quán)率下降。
結(jié)果表明,在微調(diào)過程中僅接觸少量MiP示例后,模型就迅速表現(xiàn)出MiP-Overthinking(過度思考)行為。
這些「聰明」的模型雖然能在早期階段察覺到前提缺失,卻缺乏「批判性思維」來果斷中止無效推理,陷入自我懷疑、過度假設(shè)和冗余探索的循環(huán)。
真正的AGI還任重道遠(yuǎn)。
本文作者
Chenrui Fan
華中科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)工學(xué)學(xué)士,美國馬里蘭大學(xué)帕克分校理學(xué)碩士。
曾在Lehigh University、武漢大學(xué)大數(shù)據(jù)智能實(shí)驗(yàn)室及騰訊實(shí)習(xí),從事可信賴的機(jī)器學(xué)習(xí)研究。
Ming Li
馬里蘭大學(xué)計(jì)算機(jī)科學(xué)系的二年級博士生,導(dǎo)師是Tianyi Zhou教授。2020年從西安交通大學(xué)獲得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,2023 年在德州農(nóng)工大學(xué)獲得碩士學(xué)位,導(dǎo)師是Ruihong Huang教授。
研究興趣廣泛涉及機(jī)器學(xué)習(xí)(ML)、自然語言處理(NLP)和大型語言模型(LLM)。他還對視覺-LLMs微調(diào)、代理、效率和推理感興趣。