成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

讓AI學著“看菜下碟”!港中大等新框架讓推理長度減少90%,準確率反增17%

人工智能 新聞
近日,香港中文大學聯合新加坡國立大學Show Lab的研究者提出了一種名為TON(Think Or Not)的新穎選擇性推理框架,讓視覺語言模型(VLM)可以自主判斷是否需要顯式推理。

人類在面對簡單提問時常常不假思索直接回答,只有遇到復雜難題才會認真推理。

如果AI模型也能像人一樣決定“要不要思考”,效率是否會大大提升?

近日,香港中文大學聯合新加坡國立大學Show Lab的研究者提出了一種名為TON(Think Or Not)的新穎選擇性推理框架,讓視覺語言模型(VLM)可以自主判斷是否需要顯式推理。

實驗表明,在不犧牲準確率的前提下,該方法顯著減少了生成的思考鏈長度,使模型推理過程更高效。

圖片

△圖1:“要不要思考”的示意

左側示例問題簡單,無需完整推理即可直接得出答案;而傳統方法如GRPO仍然生成了冗長的推理過程。右側示例問題復雜,需要逐步推理才能得到正確答案。

TON框架令模型能夠像人類一樣,對簡單問題直接作答(跳過冗余思考),對困難問題則給出詳盡的推理過程。

核心創新:引入“是否思考”的決策

TON框架的靈感源自人類決策過程:并非逢問必細想,而是視問題難易選擇思考或不思考

現有強化學習方法(如GRPO,Group Relative Policy Optimization)強調讓模型在回答前生成完整的推理鏈。這種“一刀切”的做法雖然提高了復雜任務的推理能力,但也導致對簡單任務的計算浪費——模型無論易題難題都冗長“自言自語”一番。

相比之下,TON的創新之處在于讓模型首先判斷“要不要思考”。這一選擇性推理策略意味著模型將推理與否視作一項獨立技能來學習,而非默認總是執行推理。

正如作者所言,他們關注的是“When to think”而非傳統方法研究的“How to think”。

圖片

△圖2: GRPO與TON的采樣過程對比示意圖

其中,q_1表示問題,{o_1, …, o_5}為生成的響應集合,每個響應包含思維過程T(圓形)和答案S(三角形)。TON方法能夠從空思維T_{\n\n}中進行采樣,從而GRPO顯著提升了響應多樣性。

為實現這一目標,研究者設計了兩階段訓練機制使模型掌握選擇性推理的本領。

第一階段是有監督微調(SFT)引入的“思想丟棄(Thought Dropout)”。具體來說,他們將模型訓練數據中原本的<think>推理過程</think>隨機替換為空內容<think>\\n\\n</think>

換言之,模型有約一半概率看到示例是不包含中間思考步驟的。這一步相當于教會模型輸出一種“不思考”的格式,讓模型知道直接回答也是允許的。

值得一提的是,研究者還用了一個“反向思考”策略來自行構造高質量的思考過程數據,以輔助模型學習何時可以跳過推理。

第二階段是強化學習的GRPO優化訓練。在這一階段,模型被鼓勵自主探索何時應該思考、何時跳過,以最大化任務獎勵。

具體做法是:模型針對同一輸入圖像和問題生成多個候選響應,其中有的包含完整思考鏈,有的為空想(即無思考過程直接回答)。

接著通過比較這些候選的結果正確性和格式,給予獎勵并用GRPO算法更新策略,引導模型學會在確保正確率的前提下盡量跳過不必要的推理。

經過這兩階段訓練,VLM模型便掌握了“一題一策”的選擇性思考能力:簡單題跳過推理,復雜題老老實實推理。

實驗結果:思考效率大幅提升,準確率不降反升

作者在多個具有不同推理難度的視覺-語言任務上驗證了TON的效果,包括CLEVR(簡單圖形推理)、GeoQA(數學幾何問答)以及AITZ(Mobile智能體導航任務)等。

在這些基準上,TON框架展現出驚人的效率提升——平均推理輸出長度最多減少了90%

例如,在CLEVR數據集上,TON將模型每次回答所需的生成文本長度減少了近九成,而在GeoQA上也減少了約65%。

值得注意的是,模型準確率不僅沒有下降,反而在某些任務上有所提高

以問答GeoQA為例,TON模型相比始終思考的GRPO基線,準確率提升了最高17個百分點

這意味著,讓模型學會“偷懶”跳過無用思考不僅節省計算,還可能帶來性能的“免費午餐”。

圖片

△圖3:TON和vanilla GRPO在CLEVR和GeoQA上的結果對比

TON平均推理長度最多減少了90%,并且準確率不降反升。

另外,研究人員對比了TON在AITZ的分布外數據集上面的效果,效果可以和vannila grpo保持一致,但是輸出長度從3k減少到了900,更加高效。

圖片

△圖4: TON在AITZ的不同domain測試集上面的表現。

由圖4可以看出效果保持一致,但是task level的長度從3k減少到了900。

研究人員進一步測試了訓練過程的更多指標,發現訓練過程中,TON輸出空內容<think>\\n\\n</think>的比例隨著reward的上升而增加,進而進一步降低了模型輸出的平均長度,但是輸出的有內容的思考過程的長度仍然維持不變。

圖片

△圖5: TON和vanilla GRPO在訓練過程中的reward可視化圖

圖片

△圖6: TON和vanilla GRPO在訓練過程中的輸出空思考的比例可視化圖

另外發現,簡單的任務更容易跳過思考(比如CLEVR),但是難的任務反而不容易跳過(比如GeoQA),展現出模型在強化學習的過程中,自適應的針對問題的難易程度,學習何時該思考合適不思考。

在不降低準確率的情況下減少將近九成的推理步驟,這對大型模型的實際部署帶來了切實的益處。

一方面,推理效率的提升意味著更快的響應速度和更低的算力消耗。這對于需要實時互動的多模態助手、機器人等應用尤為重要。

另一方面,TON 展現的“按需思考”模式讓AI更接近人類的思維習慣——該思考時就認真思考,該果斷時則不拖泥帶水。這種人性化的推理策略有望提升模型在推理任務上的通用性和可靠性。

總的來說,TON提出了一個值得關注的方向:并非一味追求更長的思維鏈,而是先問問自己“要不要思考?”。

未來,這類機制可能成為提升大模型實用性的一個重要途徑。

以下是兩個代表性的TON系列模型,它們在不同任務上展示了這一機制的實際應用效果。

例子1

圖片

△圖7: GRPO與TON在GUI agent AITZ上的對比

TON在多步移動導航過程中自適應跳過不必要的思考步驟,在保持任務準確性的同時實現了比GRPO更高的解碼效率(本例中節省了60%的token消耗)。

例子2

圖片

△圖8: CLEVR中思考模式與非思考模式的對比圖示

TON展示了選擇性激活推理的能力——僅在需要時啟動思考機制,而GRPO則不加區分地為所有情況生成推理軌跡。

論文地址:https://arxiv.org/abs/2505.16854代碼地址:https://github.com/kokolerk/TON

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-01-16 14:00:00

2025-04-18 08:42:52

模型推理AI

2023-12-12 13:51:00

AI訓練

2023-12-13 14:17:10

微軟變色龍框架

2024-01-05 08:44:52

2019-07-21 22:22:37

圖像識別AI機器視覺

2025-05-26 08:33:00

2023-10-26 08:40:15

模型隱私推理

2022-01-10 23:57:36

人工智能語音識別技術

2023-05-14 17:21:04

2025-04-03 11:16:10

2023-06-28 13:49:12

AI人工智能

2023-10-14 13:09:53

谷歌模型

2023-10-14 17:24:49

2025-05-21 13:56:37

模型圖像AI

2018-11-14 10:01:30

谷歌開源機器學習

2024-07-15 08:27:00

2024-09-12 13:50:00

模型訓練

2023-03-13 13:24:34

智能Nature

2025-03-11 08:50:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日日操日日干 | 久久一久久 | 一区二区在线免费观看 | 91大神在线资源观看无广告 | 成人二区 | 91精品久久久久 | 国产精品视频网站 | 欧洲妇女成人淫片aaa视频 | 国产在线第一页 | 久久久噜噜噜www成人网 | 瑞克和莫蒂第五季在线观看 | 亚洲国产中文字幕 | 狠狠躁天天躁夜夜躁婷婷老牛影视 | 精品九九| 精品一区二区三区四区五区 | 日韩免费网站 | 亚洲免费精品 | 国产精品免费在线 | 成人看片在线观看 | 日韩欧美精品在线 | 久久久久国产一区二区三区 | 欧美精品一区二区三区四区五区 | 91视视频在线观看入口直接观看 | 免费国产视频在线观看 | 黑人粗黑大躁护士 | 超碰国产在线 | 午夜丰满少妇一级毛片 | 国产精品www | 美女视频一区二区三区 | 精品在线一区 | 北条麻妃国产九九九精品小说 | 影音先锋中文字幕在线观看 | 日韩毛片| 手机看片在线播放 | 免费黄色的视频 | 日韩午夜影院 | 特级毛片爽www免费版 | 精品国产一区二区三区久久久四川 | 欧美成人自拍视频 | 欧美 日韩 中文 | 欧美理伦片在线播放 |