成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一個省略號提示+強化學習搞定大模型“過度思考”,中科院自動化所新方法:從強制推理到自主選擇

人工智能 新聞
中國科學院自動化研究所聯合鵬城實驗室提出了一種高效的推理策略,賦予推理大模型根據題目難度自主切換思考模式的能力:

在日益強調“思維能力”的大語言模型時代,如何讓模型在“難”的問題上展開推理,而不是無差別地“想個不停”,成為當前智能推理研究的重要課題。

中國科學院自動化研究所聯合鵬城實驗室提出了一種高效的推理策略,賦予推理大模型根據題目難度自主切換思考模式的能力:

通過一個小小的省略號作為提示詞 + 多階段強化學習,引導大模型自主決定是否深度思考、思考多少。

圖片

研究背景:大模型“想太多”,是優點還是負擔?

在大語言模型快速發展的今天,越來越多的模型開始具備“深度思考能力”。

比如,DeepSeek-R1系列模型引入了一種特別的提示結構:先<think> ,再<answer>。也就是說,模型在回答之前會“思考”一番,生成一整段包含反復自我反思、自我驗證的邏輯推理,然后才給出結論[1]。這種方式是近來提升模型準確率的重要方法。“深度思考”的確帶來了好處,模型不再“張口就答”,而是會分析、論證、驗證;在復雜問題中,能顯著提升答對率,避免“拍腦袋”行為。但是,如果問題本身很簡單,模型還有必要“苦思冥想”一大段嗎?

答案是:未必。事實上很多情況下,模型在解決簡單任務時也會機械地生成一大堆推理語句。這就好比你問一個人“2+3等于幾”,他卻要從自然數定義講起,列出加法交換律,甚至反復試錯,最后才告訴你答案是5。這種現象稱為過度思考(Overthinking)。

過度思考問題在DeepSeek-R1、Claude 3.7、Qwen3等推理模型中廣泛存在。尤其是當prompt總是強制模型使用<think>標簽時,它就會默認開啟“深度思考模式”,不論問題簡單或復雜,推理過程長度極長,帶來了響應延遲和計算成本上升;甚至在冗余思考中“越想越錯”,反而降低了準確率。

目標:教會模型學會「什么時候該思考」

團隊認為,推理過程的存在不該是“硬規定”,而應該因題制宜。就像人類一樣:面對簡單問題能立刻給出答案;面對復雜問題才會進行詳細推理與分析。那么,大模型能不能也具備這樣的“任務感知能力”?能不能學會自己判斷:這道題該不該思考,該思考多少?

這是AutoThink背后的初衷。AutoThink 不再讓模型“永遠思考”,而是訓練它——學會何時該思考,何時可以跳過思考,甚至決定思考多少。

AutoThink:讓模型自主決定是否思考

團隊提出了一個簡單而有效的方案,叫做AutoThink。它有兩核心個關鍵詞:

  • 最小提示干預(Minimal Prompting)
  • 多階段強化學習(Multi-Stage RL)

通過這兩者的結合讓模型具備了類似人類的“任務感知能力”:簡單問題不浪費思考,復雜問題多加推理,真正做到“按需思考”,如圖1所示。相比之下,傳統方法要么手動控制思考模型[2],要么不區分題目難度地壓縮推理過程[3]。

圖片

△圖1:AutoThink 與手動控制和簡潔推理方法的核心差異:根據難度自主切換思考模式。

實現Autothink的第一步,其實很簡單:只需要在原有的prompt里,加入一個省略號 “…”,模型就會自行決定是否進行推理。

舉個例子:

  • 標準提示詞(Standard Prompt): <think>→總是進入思考模式
  • 不思考提示詞(No-Thinking Prompt)[2]:
    <think> Okay, I have finished thinking. →總是跳過深度思考
  • 省略號提示詞(Ellipsis Prompt): <think>… →隨機進入或跳過思考

實驗發現,“省略號提示詞”在沒有任何訓練的情況下,已經能激發出兩種模式的隨機共存,有些題目模型會寫出完整思考,有些則會直接給出簡潔的參考答案,如圖2(a)所示。用“省略號提示詞”進行推理的平均準確率和推理長度都介于標準提示和不思考提示之間。這種“隱式控制”行為打開了一扇門——模型已經有潛力學會“選擇是否思考”,只需要再稍作引導。

圖片

△圖2:不同的提示詞塑造了模型不同的推理行為和計算消耗

省略號提示能觸發模式切換,但不能“因題制宜”

雖然加入 “…” 可以讓模型切換推理模式,但模型并不會根據題目的難易程度來自主選擇。也就是說,它可能對簡單題深度推理,對難題卻直接跳過思考。這種隨機行為仍然缺乏任務感知能力。如圖2b (上)所示。使用省略號提示后,模型在不同難度題目上“跳過思考”的比例分布相對平坦。這說明,雖然省略號提示可以開啟“是否思考”的能力,但不能賦予模型“知道何時該思考”的智慧。

為了教會模型自主思考,團隊設計了一個三階段的強化學習策略,從最基礎的模式穩定,到行為優化,再到推理剪枝。經過訓練后,模型的思考模式變化成圖2b (下) 那樣:模型不再“隨緣”地決定是否思考,而是展現出更符合人類直覺的行為模式:在難度較高的問題上,模型更傾向于進入思考模式;而在容易的問題上,則更愿意跳過思考、直接作答。

AutoThink 三階段:一步步教會模型“何時該思考”

團隊采用GRPO的強化學習方法。為了鼓勵模型盡可能在不思考的前提下答對題目,首先設計了一個基礎獎勵函數 (naive reward),在答對的前提下“不思考”獎勵最高(+2),答錯且不思考懲罰最重(-1),體現了“能不想還答對最好,答錯就該罰”的原則。圖片

階段一:防止模式坍縮,穩定思考行為

盡管上述naive reward優雅,但依照基礎獎勵函數訓練的模型可能傾向于“全都思考”或“全都不思考”——這都是不健康的行為。例如,如果模型發現“都不思考”能更快提升平均獎勵,就會徹底放棄思考!

為解決這個問題,加一層動態調節機制,根據整個訓練過程中每個batch里的思考和不思考的比例,調整每條數據的獎勵。這個階段調整獎勵函數如下:

圖片

階段二:在兩種模式下分別優化準確率

在穩定模型思考與否的行為后,解除第一階段的束縛,讓模型自由選擇是否思考。此時的獎勵與 naive reward 一致。這個階段的目標是放任模型自由發展,鼓勵模型對于當前無法解決的問題使用思考模式深度探究,對于已經能夠解決的問題使用不思考模式簡潔回答。在這個階段,往往會觀察到伴隨著訓練準確率的提升,不思考和思考的回答長度均上升。

階段三:在基于響應長度獎勵,引導“簡潔推理”

雖然第二階段幫助模型提升了準確率,但也帶來一個副作用——推理過程變得越來越長。模型在沒有限制的情況下,容易“滔滔不絕”,輸出一大段冗長推理。因此,在階段三引入了一個“長度感知獎勵機制” [4],簡單來說,把一個 GRPO Group 的回答分為正確和錯誤的兩組,對于回答正確的組,懲罰沒必要的長回答;對于回答錯誤的組,鼓勵簡潔作答:

圖片

這個階段在盡可能小地犧牲模型性能的情況下,壓縮模型的輸出長度,并最終得到一個簡潔的、具有針對題目難度自主思考的模型。

為便于理解理解獎勵的變化選一個例子可視化了階段一(左)和階段三(右)的四個模態的回答的獎勵函數情況。

圖片

△圖3:階段一和階段三的獎勵函數的可視化

實驗結果:AutoThink 更聰明也更節省

在多個數學Benchmark 和多個R1-Style的基礎模型上驗證了 AutoThink。

實驗結果顯示:AutoThink 不僅能提升基模的性能,同時大幅減少了推理時的Token消耗,如表1所示。相比之下,大部分的開源模型的性能增強的代價是推理長度(思考過程)的成倍增長;而簡潔思考的模型性能往往相比于基礎模型幾乎無提升甚至下降。特別地:在已經經過大量RL后訓練的DeepScaleR[5]上,AutoThink依然能節省額外10%的Token消耗。

圖片

△表1:不同模型和Benchmark上的準確度和推理長度對比

消融實驗:三階段到底有沒有用?

為了驗證AutoThink多階段訓練設計的必要性,專門設計了兩個關鍵的消融實驗。

一方面,移除階段一中的批次平衡獎勵,觀察模型是否還能維持“思考”與“不思考”的動態共存;另一方面,嘗試直接跳過階段二,僅保留初始與最終階段,測試是否還能實現高效推理與準確率提升。

如圖4所示,實驗結果表明:階段一的batch獎勵平衡是防止模式坍縮、維持推理多樣性的關鍵機制,而跳過階段二會導致準確率停滯,削弱后續階段的推理剪枝效果。這驗證了三階段訓練方案在穩定性與性能提升上的協同必要性。

圖片

△圖4:消融階段一和階段二,思考率、準確率和回答長度的變化。

更深入的行為分析:AutoThink 真的是“聰明地不思考”嗎?

除了提升準確率和節省token,也從更細致的角度,去理解AutoThink在推理過程中到底發生了什么變化。通過以下三個維度的分析,發現AutoThink并不是“簡單粗暴地省略推理”,而是在做有策略的思考選擇

關鍵詞頻率分析:不思考 ≠ 胡說八道

統計推理過程中常見的關鍵詞,比如 “Calculate”, “Result”, “Check”等,它們通常用于表達模型的中間推理步驟。結果發現:即使在“不思考模式”下,AutoThink依然頻繁使用這類詞語。如圖5(左)所示,這表明它并非“跳過推理直接亂猜”,而是在內部快速做出判斷后,簡潔地表達結果

行為與難度匹配:越難越思考,越簡單越跳過

將測試數據按難度劃分,并觀察AutoThink在不同難度上的“思考比例”。如圖5 (右) 所示,結果表明:經AutoThink訓練后,模型更傾向于在簡單題(如Math)上快速給出答案,而在復雜題上主動開啟推理模式,分配更多的推理 token。

圖片

△圖5:行為分析——關鍵詞頻率和思考與難度的匹配評估

案例展示:輕松應對簡單題,靈活應對中等題,深度鉆研復雜題

我們進一步選取了三個代表性問題,比較AutoThink在不同提示和模式下的表現。如圖6-8所示,在不同難度上AutoThink展現出靈活的、根據題目難度自適應的自主思考行為。

圖片

△圖6:簡單題,AutoThink 在不思考模式下就能快速得出正確答案,高效又準確。

圖片

△圖7:中等題,模型可能在多個rollouts 中出現“思考”和“不思考”的混合情況,展現出策略靈活性。

圖片

△圖8:復雜題,AutoThink會啟用完整的推理流程,反復驗證、嚴謹解題,最終給出正確答案。

總結:離“任務自覺”的模型更近了一步

AutoThink 提供了一種簡單而有效的推理新范式:通過省略號提示配合三階段強化學習,引導模型不再“逢題必思”,而是根據問題難度自主決定是否思考、思考多少。在多個數學數據集上,AutoThink 實現了優異的準確率–效率平衡,既提升性能,又節省算力,展示出強的適應性和實用性。該研究成果也集成于一站式智能科研平臺ScienceOne,并將用于訓練ScienceOne的基座大模型S1-Base。

局限與展望

當然,AutoThink 還不是完美的,也能觀察到:

  • 獎勵規避(Reward Hacking):模型可能在“不思考模式”中偷偷加入思考推理內容;
  • 推理預算不可控(Uncontrolled Reasoning Budget):目前無法精確控制整體輸出長度;

這些問題是后續工作的重點方向,團隊相信,讓大模型“更聰明地思考、更簡潔地表達”,是未來通用智能演進的重要一步。

論文地址:https://arxiv.org/abs/2505.10832
代碼倉庫:https://github.com/ScienceOne-AI/AutoThink
模型地址:https://huggingface.co/collections/SONGJUNTU/autothink-682624e1466651b08055b479

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-03-11 13:49:20

2025-04-09 09:15:00

數據模型AI

2025-05-09 08:40:00

2023-04-18 10:12:06

模型解碼

2021-10-21 15:20:35

智能自動化Science

2024-08-12 08:20:00

自動化研究

2025-03-07 09:24:00

2021-12-20 10:03:01

自動化人工智能 人臉識別

2024-08-06 12:00:00

監督學習視覺

2015-11-03 11:59:08

戴爾云計算

2017-06-10 16:19:22

人工智能智能體強化學習

2022-02-19 08:21:21

中科院量子計算編程軟件

2024-06-05 09:22:43

2010-11-08 15:26:31

曙光服務器

2016-04-19 12:51:26

2024-09-14 12:52:59

個性化定位大模型

2022-11-22 10:07:32

研究模型

2016-11-18 13:24:14

網絡升級銳捷

2024-12-10 10:35:00

AI自動駕駛
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久久亚洲精品国产 | 91av视频在线免费观看 | 精品国产久 | 亚洲成人www | 婷婷色在线播放 | 日本精品一区二区三区视频 | 日韩精品专区在线影院重磅 | 成人一区在线观看 | 日本黄色大片免费 | 欧美中文字幕一区二区三区亚洲 | 91精品国产777在线观看 | 国产高清在线观看 | www.9191 | 国精产品一区一区三区免费完 | 欧美午夜精品 | 国产在线拍偷自揄拍视频 | 色婷婷影院 | 成人h动漫亚洲一区二区 | 成人在线看片 | 免费观看一级特黄欧美大片 | 久久久精品视 | 岛国在线免费观看 | 国产一区精品在线 | 国产三级一区二区三区 | 亚洲综合天堂网 | 欧美精品在线一区 | 国户精品久久久久久久久久久不卡 | 午夜色婷婷 | 日本特黄a级高清免费大片 特黄色一级毛片 | 亚洲精品女人久久久 | 中文字幕一区二区三区四区五区 | 国产日韩欧美综合 | 欧美日韩高清在线一区 | 成人在线视频观看 | 亚洲激情在线观看 | 九九综合 | 91精品国产综合久久久密闭 | 中文字幕一区二区三 | 日本一区二区三区视频在线 | 日本a v在线播放 | 亚洲美女视频 |