成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI是否知道什么時候該"思考"?Thinkless教會大模型何時該動腦筋

人工智能
Thinkless研究向我們展示了AI系統中一個重要的思想:不是所有問題都需要同等深度的思考。這一點與人類思維極為相似——我們在日常生活中也會根據問題復雜度調整思考深度。

你是否曾經問過簡單問題,卻得到AI長篇大論的回答?或者問復雜問題時,AI卻草草了事?今天我要和大家分享一項突破性研究,它讓AI學會了"什么時候該思考,什么時候該直接回答"。

圖片圖片

1、AI的思考困境:要不要動腦子?

現代的大語言模型(LLM)已經能夠通過"思維鏈"(Chain-of-Thought,簡稱CoT)進行復雜推理。簡單來說,這種方法讓AI像人類一樣,先列出解決問題的步驟,再得出最終答案。

但這種方式存在一個明顯問題:無論問題簡單還是復雜,AI都一律使用詳細推理。就像你問朋友"1+1等于幾",他卻認真地寫下:"首先,我們有數字1,然后再加上數字1。根據加法定義,1+1=2。"——這顯然太浪費時間了!

這種"過度思考"帶來三大弊端:

(1)產生大量冗余token(AI輸出的基本單位)

(2)增加內存占用

(3)顯著提高計算成本

2、Thinkless:教會AI"適時思考"的利器

論文提出一個關鍵問題:AI能否學會根據任務復雜度和自身能力,決定何時該思考?

研究者開發了Thinkless框架,它巧妙地使用兩個控制標記:表示簡潔回答,表示詳細推理。通過強化學習,AI可以自主決定對特定問題使用哪種回答模式。

3、Thinkless是如何工作的?

圖片圖片

這個框架通過兩個階段訓練AI:

(1)熱身蒸餾階段

首先,模型從兩位"專家"那里學習:一個擅長詳細推理的模型和一個擅長簡潔回答的模型。這個過程就像一個學生同時向兩位風格不同的老師學習,掌握兩種回答方式。

這個階段建立了控制標記和回答格式之間的明確映射,為后續的強化學習提供多樣化的輸出基礎。

(2) 解耦群體相對策略優化(DeGRPO)

這是Thinkless的核心創新。研究者發現,傳統的優化方法會導致"模式崩潰"——模型可能完全傾向于使用其中一種推理模式,失去靈活性。

DeGRPO巧妙地將學習目標分解為兩部分:

1)模式選擇:控制模型如何根據當前準確率調整策略

2)準確率提升:改進回答內容,提高選定推理模式下的答案正確性

這種解耦設計避免了模式崩潰,使模型能夠學習出準確的輸出和情境敏感的推理策略。

3、效果:節省50%-90%的計算資源

經過訓練,Thinkless模型學會了準確識別簡單查詢,并使用更高效的非思考模式回應。在多個基準測試中,它實現了令人印象深刻的結果:

1)在MATH-500、Minerva Algebra和GSM8K數據集上,長形式推理的使用減少了50%-90%

2)在更具挑戰性的AIME任務上,模型自然地采用了更高比例的長形式推理

這意味著AI變得更加"聰明"——它知道什么時候詳細思考,什么時候直接回答。這大大降低了推理成本,同時保持了任務性能。

圖片圖片

圖片圖片

圖片圖片

4、結語

研究者在訓練過程中發現了一些有趣現象:

U形學習曲線

在訓練初期,模型傾向于使用長鏈推理,因為這種方式通常能帶來更高的準確率。但隨著訓練進行,短鏈回答的準確率逐漸提高,模型開始更多地探索簡短推理的可行性。

這種行為表現為短鏈輸出比例隨時間的上升,許多短回答在訓練后期達到完美準確率。同時,長鏈回答的準確率下降,這并非模型推理能力下降,而是因為更多困難問題被分配給了長鏈模式。

控制標記的權重影響

控制標記的權重決定了模式選擇的學習速度。權重過高會導致模型過快更新策略,可能過早將某些樣本分配到長鏈模式,而沒有給短模式的性能提升留出足夠空間。

實際案例展示

當Thinkless面對不同復雜度的問題時,它如何做出決策?

(1)簡單問題:"計算123 + 456" 模式選擇:短回答模式() 回答:"579"

(2)中等復雜度問題:"一個球的體積是多少,如果它的表面積是100平方厘米?" 模式選擇:取決于模型對自身能力的評估 可能的短回答:"球的體積約為166.67立方厘米"

(3)復雜問題:"證明任意三角形的內角和等于180度" 模式選擇:思考模式() 回答:詳細的幾何證明步驟...

Thinkless研究雖然取得了顯著成果,但仍有進一步改進空間:

(1)改進熱身階段:探索更好的混合模型構建策略,如合并技術或輕量級微調方法

(2)擴展到更多領域:目前主要在數學問題上驗證,未來可擴展到更廣泛的領域

(3)更復雜的決策機制:開發能考慮更多因素的決策系統,如用戶偏好、環境約束等

Thinkless研究向我們展示了AI系統中一個重要的思想:不是所有問題都需要同等深度的思考。這一點與人類思維極為相似——我們在日常生活中也會根據問題復雜度調整思考深度。

這項研究不僅大幅提升了AI系統的效率,更向我們揭示了構建更智能、更自然AI系統的方向。未來,AI將更懂得"張弛有度",在需要時深入思考,在可以時直接回答,從而提供更自然、更高效的用戶體驗。

論文標題:Thinkless: LLM Learns When to Think 

論文鏈接:https://arxiv.org/abs/2505.13379


責任編輯:武曉燕 來源: AI帝國
相關推薦

2020-01-05 23:28:51

MQ消息進程

2017-04-05 21:43:08

MQ互聯網架構

2014-09-23 10:16:03

程序員

2025-02-28 09:04:08

2013-04-25 10:28:38

大數據云服務

2014-09-17 10:57:22

802.11acWLAN

2024-11-12 08:59:39

2024-08-07 14:10:12

模型云計算大數據

2023-12-13 16:28:02

2013-01-10 09:47:50

辭職就業面試

2021-03-24 11:35:03

人工智能

2015-08-18 10:09:13

云服務監控工具負載遷移

2021-04-27 07:52:18

跳槽數據分析

2016-11-15 16:21:26

開發編程方法

2017-04-07 13:15:44

程序員辭職

2013-02-18 10:03:20

CIO云計算CFO

2013-09-02 13:19:09

2024-06-21 11:15:55

2014-01-22 09:39:08

無線IT管理員802.11

2020-05-12 11:25:50

MySQLES數據庫
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本一区二区不卡视频 | 国产伊人久久久 | 综合久久久 | 超碰免费在 | 福利视频网站 | 欧美成人精品激情在线观看 | 亚洲免费在线 | 国产探花在线观看视频 | 欧美日韩一区二区三区视频 | 亚洲欧洲日韩 | 天天欧美 | 欧美成人一区二区 | 久久久成人免费一区二区 | 全免费a级毛片免费看视频免费下 | 国产精品自产拍 | 午夜免费观看网站 | 亚洲性网 | 欧美三级电影在线播放 | 国产精品一区在线观看你懂的 | 免费国产一区二区 | 午夜视频在线观看视频 | 日韩中文字幕一区二区 | 国产精品网址 | 亚洲顶级毛片 | 一区二区三区在线观看免费视频 | 99在线观看视频 | av在线播放网址 | www久久| 国产精品资源在线 | 国产视频黄色 | 久久国产精品久久久久 | 亚洲看片| 国产免费av在线 | 亚洲在线一区 | 欧美日韩成人在线 | 欧美精品一二三区 | 国产在线精品一区二区三区 | 夜夜骑首页 | 久久久久亚洲精品国产 | 国产精品视频一区二区三区不卡 | 四虎成人在线播放 |