AI話癆終結者!UCSD清華提出「思維掃描術」Dynasor-CoT,推理巨省token
這段時間,諸如DeepSeek-R1和OpenAI o1/o3這類的CoT推理模型,在復雜任務上展現出了驚人的性能。
然而,與早期模型相比,它們的token效率卻非常之低。即,需要消耗更多的token才能達到相同的準確率。
下圖展示了傳統模型的token效率曲線比推理模型陡峭得多。
最近,來自加州大學圣地亞哥分校、清華等機構的研究人員揪出了罪魁禍首——「自我懷疑」。
論文地址:https://arxiv.org/abs/2412.20993
項目主頁:https://hao-ai-lab.github.io/blogs/dynasor-cot/
代碼地址:https://github.com/hao-ai-lab/Dynasor
Demo:https://hao-ai-lab.github.io/demo/dynasor-cot
換句話說就是,模型明明早就算出正確答案,卻要反復驗算糾結,白白耗費海量計算資源!
以一個簡單問題 (1+2i)*6-3i測試為例:傳統Qwen-7B用180個token輕松解題,而升級后的Deepseek版Qwen-7B雖在第340個token就得出正確答案,卻硬生生續寫1000+token反復驗證!
這種「學霸強迫癥」,讓DeepSeek等頂尖模型浪費了高達70%的算力!
為了解決模型的「自我懷疑」問題,研究團隊提出了Dynasor-CoT,一種無需訓練、侵入性最小且簡單的方法,用于長鏈式推理(CoT)。
這種方法結合了基于確定性的啟發式方法與「思維CT掃描術」技術,以動態確定(推理鏈的)終止點。在保持準確性的同時有效地截斷推理鏈。
實現了高達29%的token減少,同時不影響準確性,也不會給關鍵推理路徑帶來額外的延遲。
目前,團隊已將這款「AI話癆終結者」系統全面開源,快來看看你的AI能省多少token吧!
值得一提的是,本文的作者組USCD張昊實驗室還曾經推出過諸多知名研究項目,包括如今風靡全球的大模型競技場(LLM Arena、vLLM,Prefill-decode分離式服務架構等。
AI「思維CT掃描術」
為了系統地研究這個現象,研究人員開發了一種「思維CT掃描術」(Probe-In-The-Middle)。
通過在模型推理過程中插入特定提示(比如「啊!我悟了,答案是:」),來提取模型某一個中間思考節點的答案,從而確定到底模型最早在什么時候得到了正確答案。
就像考試時監考老師突然抽走草稿紙,逼迫AI提前交卷!
下圖展示了不使用和使用「思維CT掃描術」兩種方式的準確率對比分析。左邊采用標準推理。右邊使用「思維CT掃描術」技術提取早期答案,可以看出在50%的token減少下具有等效的準確性。
在相同的token預算下,綠色區域越早出現表示正確答案到達得越早——明顯更綠的右側面板表明模型實際上知道答案的時間比標準推理中顯示的要早得多。
以AMC23數據集為例,推理模型通常在早期就得到了正確答案(中位數:830個token),但由于「自我懷疑」會繼續生成不必要的token(中位數:2.7K個token)。
這種自我懷疑現象嚴重影響了token效率,因為模型即使內心已經對答案有一定把握,還是會繼續推理。
基于信心值的早停策略,巧妙減少token消耗!
想象一下,我們給AI裝了一個智能「話癆終結者」。每當AI說了一定數量的話(比如64個token),「思維CT掃描術」(probe-in-the-middle)就會悄悄啟動:
- 首先,像醫生做CT掃描一樣,給AI的思維來個「斷層掃描」,提取它當前的答案。
- 有趣的是,AI完全不知道自己被「掃描」了!它會繼續自顧自地推理,繼續寫解題步驟。
- 如果AI連續N次的「CT掃描」結果都顯示同一個答案,系統就會判定AI非常自信,并果斷按下停止鍵。堅定地告訴這位同學:「你已經答對了,不用再證明了!」
Dynasor-CoT通過三種關鍵機制提高長CoT LLM推理中的token效率:提取答案、確定性評估和生成后驗證。
下圖展示了Dynasor-CoT方法。如果模型回答比較確定則退出(案例 1),遇到有猶豫含義的詞匯(例如,等等)則繼續生成(案例 3),如果模型推理不足夠確定也繼續生成(案例 2)。
中間探針
研究人員在模型生成過程中引入了名為「中間探針」(probe-in-the-middle)的戰略干預。
他們在模型推理的中間階段添加精心設計的引導,以明確地提取出模型當前的答案。
這種方法利用了他們的觀察,即推理LLM通常在完成其完整的推理鏈之前就能達到正確答案。
當LLM已經在其內部得出結論時,這種早期提取技術顯著降低了計算成本。
通過答案一致性進行確定性評估
研究人員實現了一種動態確定性評估機制,該機制定期(例如每32、64或128個標記)監控模型的輸出。
在每個間隔內,探測模型以提取和存儲當前答案,然后允許LLM繼續其生成。重要的是,后續的生成不受探測標記的影響,從而實現答案提取和原始生成的并行執行。
當模型在多個間隔內產生一致的答案時,將其模式解釋為確定性的指標,遵循certaindex方法Dynasor。這種方法為模型的確定性提供了定量度量。
AI的微表情識別術:揪出不自信的時刻!
研究人員發現,AI也有自己的「微表情」!通過仔細觀察AI的語言習慣,他們找到了判斷AI是否自信的妙招:
- 當AI說出「等等」、「嗯...」這樣的詞時,就像人類皺眉思考或撓頭的動作,說明它對自己的答案并不太有把握。
- 這時候,即使「思維CT掃描」得到了答案,我們也要對它保持警惕,不能輕易相信一個支支吾吾的回答。
- 這種語言習慣分析,就像是給AI裝了一個「情緒探測器」,能夠精準捕捉到它的不自信時刻!
總的說來,這種方法利用了模型在中間階段得出結論的能力,也保持了針對過早或不確定響應的強大保障措施。
Certaindex:一個更野心勃勃的目標!
這套基于信心值的策略遠不止于此,它還有更廣闊的應用前景:
- 它可以推廣到各種高級推理算法中,比如自洽性檢驗(self-consistency)、蒙特卡洛樹搜索(MCTS)等。
- 就像一個通用的「自信度測量儀」,能夠適應不同的思維方式。
- 不管AI用什么方法思考,這個系統都能準確判斷:「嗯,這個答案它是真的有把握。」
通過這種方式,研究人員不僅讓AI變得更高效,還讓它的思維過程變得更透明、更可控。并且,還能知道什么時候該停下來,而不是無休止地解釋、驗證。
最重要的是,這個方法不需要重新訓練模型,可以直接應用到現有的AI系統中,堪稱即插即用的效率神器!
Dynasor:大模型推理的「調度大師」
簡單說,Dynasor就像是大模型推理任務的「智能調度系統」:
1. 智能資源分配
- 基于Certaindex(信心值系統)動態分配計算資源
- 像調度員一樣安排每個推理任務的優先級和資源
2. 結構化管理
- 把復雜推理任務變成結構化的程序
- 在應用層和系統層實現高效調度
- 通過緩存優化提升性能
總之,它就是讓AI推理既快又準的效率神器!就像給大模型裝了個智能管家,讓推理過程更加高效有序。
下圖展示了該架構通過本地應用程序組件與服務器端系統管理之間的相互作用,實現了高效的資源分配。
實驗結果:大幅提升推理效率!
研究團隊在多個數學推理數據集(AIME24、AMC23和MATH500)上測試了這套系統,使用了不同規模的DeepSeek模型(7B、14B和32B)。
下圖評估了不同的探測間隔(如32、64等),這些間隔通過不同顏色的線條表示,并且最大token預算為16K。
對于每個間隔,研究人員調整了早期終止參數N(所需的連續一致答案的數量),從而生成每條線上的不同點。所有配置都實現了顯著的token節省,在保持與基準模型相當的準確度的同時,將token使用量減少了最多29%。
為了公平比較,適當的準確度閾值已根據模型規模進行校準——對于32B模型,使用嚴格的閾值標準,而對于較小的模型,則使用較低的閾值,同時在較簡單的任務中設置更高的目標,以便達到更高的準確度。
對于該方法在token減少方面表現最好的10%問題,研究人員觀察到AIME節省了34%的token,MATH500節省了53%。
在最優的1%問題中效果更加顯著——AIME節省了53%,MATH500節省了高達81%!
這種表現顯示了這種動態方法相對于固定token預算的優勢,因為不同問題在達到解決方案時對token的需求有所不同。
為了驗證可擴展性,研究人員將實驗擴展到更大的DeepSeek-R1模型。
下圖顯示了Dynasor-CoT在DeepSeek-R1上和較小蒸餾模型上表現一致,實現持續的效率提升:DeepSeek-R1在AIME問題上實現了12%的token節省,在AMC問題上實現了24%,同時保持了基線準確率水平。