成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI越聰明越不聽話!新研究:最強(qiáng)推理模型指令遵循率僅50%

人工智能 新聞
大模型越擅長復(fù)雜推理,越容易忽略用戶的指令要求,“聰明”和“聽話”之間存在明顯的矛盾。

如果面前有兩個(gè)AI助手:一個(gè)很聰明但經(jīng)常不守規(guī)矩,另一個(gè)很聽話但不太聰明,你會怎么選?

最近,上海人工智能實(shí)驗(yàn)室香港中文大學(xué)的研究團(tuán)隊(duì)發(fā)布了論文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》,通過一個(gè)全新的評測基準(zhǔn)MathIF揭示:

大模型越擅長復(fù)雜推理,越容易忽略用戶的指令要求,“聰明”和“聽話”之間存在明顯的矛盾。

這項(xiàng)工作的靈感,源自實(shí)際使用推理模型(如o3)過程中的一個(gè)意外發(fā)現(xiàn):相比許多經(jīng)過強(qiáng)化推理訓(xùn)練的大模型,GPT-4o在執(zhí)行具體指令時(shí)反而更加“聽話” 。也正是這種“越聰明、越不聽話”的真實(shí)體驗(yàn),讓研究團(tuán)隊(duì)開始系統(tǒng)性地研究推理能力與指令跟隨之間的關(guān)系。

這一研究也引來??知名博主的轉(zhuǎn)發(fā):

圖片

研究揭示越擅長數(shù)學(xué)推理的模型反而越難完全遵守指令,同時(shí)分析了模型大小與服從性的非正相關(guān)現(xiàn)象,強(qiáng)調(diào)了推理能力與指令遵循之間的權(quán)衡。

MathIF:衡量推理模型“聽話程度”的新基準(zhǔn)

MathIF基準(zhǔn)專門針對數(shù)學(xué)推理任務(wù),考察AI模型是否嚴(yán)格遵循用戶給出的指令要求。這些要求包括格式語言長度特定關(guān)鍵詞使用,均可通過程序自動驗(yàn)證。

MathIF由來自不同難度的數(shù)學(xué)題目組成,涵蓋了從簡單的數(shù)學(xué)問題(GSM8K)到復(fù)雜的數(shù)學(xué)競賽題目(AIME)。每個(gè)題目都會附帶具體而明確的指令,比如:“答案必須以一句中文完整作答,不能有多余解釋。”

此外,MathIF還設(shè)計(jì)了單一指令、雙重指令和三重指令的組合情形,以測試模型在不同約束復(fù)雜程度下的表現(xiàn)。模型不僅需要正確解題,還要嚴(yán)格遵守這些指令要求。

自動評分程序會精確檢查答案是否符合每個(gè)具體的指令標(biāo)準(zhǔn),分別以硬準(zhǔn)確率(HAcc)軟準(zhǔn)確率(SAcc)衡量模型的服從程度:HAcc 表示是否全部指令都被滿足,而 SAcc 則反映每條指令的平均滿足比例。

圖片

△圖表1 MathIF 的指令類型

越聰明越不聽話?實(shí)驗(yàn)揭示“聰明”與“聽話”的矛盾

研究團(tuán)隊(duì)使用MathIF評測了23個(gè)當(dāng)前主流的大模型。這些模型包括不同的參數(shù)規(guī)模和訓(xùn)練方式,涵蓋從數(shù)十億到數(shù)百億參數(shù)的各種類型。

實(shí)驗(yàn)結(jié)果令人意外:在數(shù)學(xué)推理能力表現(xiàn)越出色的模型,反而更難完全遵守用戶給定的指令要求。即使是表現(xiàn)最佳的模型Qwen3-14B,也只能成功遵守一半的指令提示。

此外,模型的大小與其遵守指令的能力并不呈正相關(guān),甚至有時(shí)會出現(xiàn)負(fù)相關(guān)——即更大的模型并不一定更守規(guī)矩。一些較小的模型反而更善于嚴(yán)格執(zhí)行用戶的指令。

指令遵循(instruction-following)與數(shù)學(xué)推理能力(mathematical reasoning)之間存在一種權(quán)衡關(guān)系(trade-off)。也就是說,當(dāng)模型在推理能力上表現(xiàn)得更強(qiáng)時(shí),它往往更容易忽略或違反用戶的具體指令。

圖片

△圖表2 23個(gè)大推理模型在MathIF上的表現(xiàn)

模型按服從性(HAcc + SAcc)表現(xiàn)從高到低排序。表中?符號表示該模型僅通過監(jiān)督微調(diào)(SFT)訓(xùn)練,未使用推理導(dǎo)向的強(qiáng)化學(xué)習(xí)方法。粗體+下劃線標(biāo)記則分別代表各列指標(biāo)中的前兩名與后兩名。

為什么聰明模型更“不聽話”?

研究團(tuán)隊(duì)進(jìn)一步分析了這個(gè)現(xiàn)象背后的原因:

原因一:推理導(dǎo)向的訓(xùn)練模式

研究發(fā)現(xiàn),旨在強(qiáng)化模型推理能力的訓(xùn)練方式(如監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)),雖然顯著提升了模型的“智力”,卻在一定程度上削弱了其對具體指令的敏感性。

這類模型往往更專注于如何準(zhǔn)確解題,而容易忽視諸如格式、字?jǐn)?shù)等細(xì)節(jié)要求。正如圖3所示,無論是SFT還是RL,推理導(dǎo)向訓(xùn)練雖然提升了解題表現(xiàn),卻普遍導(dǎo)致模型在指令遵循能力(HAcc與SAcc)上的下降。

圖片

△圖表3 推理導(dǎo)向訓(xùn)練策略的對比

其中Avg. Acc.表示在所有基準(zhǔn)任務(wù)上的平均表現(xiàn)。綠色和紅色背景分別表示相較于基礎(chǔ)模型性能的提升和下降。

原因二:長推理鏈降低服從性

模型輸出的推理過程越長(“鏈?zhǔn)剿伎肌痹綇?fù)雜),越容易“忘記”指令要求。長段的復(fù)雜推理過程,容易讓模型注意力分散,最后導(dǎo)致違背用戶指令。如下圖,將模型的推理結(jié)果按照長度進(jìn)行分桶,推理長度越長,模型的指令遵循準(zhǔn)確率越低。

圖片

△圖表4 不同推理鏈長度區(qū)間下的HAcc和SAcc表現(xiàn)

長度分桶編號越大表示生成的推理鏈越長。

研究團(tuán)隊(duì)通過實(shí)驗(yàn)進(jìn)一步驗(yàn)證了這一現(xiàn)象:當(dāng)模型被引導(dǎo)生成更長的推理過程時(shí),其遵循指令的準(zhǔn)確率會明顯下降。

具體做法是,在模型推理結(jié)束前人為添加“wait”等提示,迫使其繼續(xù)延長思考過程,從而生成更長的推理鏈。如下圖所示,“思考越多”,模型對指令的執(zhí)行反而越不準(zhǔn)確。

圖片

△圖表5 模型指令跟隨能力的變化趨勢

此外,研究團(tuán)隊(duì)還通過在訓(xùn)練階段控制模型的推理長度,進(jìn)一步觀察其指令跟隨能力的變化。

具體而言,他們在強(qiáng)化學(xué)習(xí)(RL)的 rollout 階段設(shè)置最大生成長度限制,超過該長度的回復(fù)將無法獲得獎勵,從而間接壓縮模型的推理鏈長度。

從下圖可以看出,限制推理長度有助于顯著提升模型的指令遵循能力(HAcc和SAcc)。當(dāng)最大長度控制在1k以內(nèi)時(shí),模型在服從性方面的表現(xiàn)甚至超過了原始基線模型。

然而,這種提升也帶來了代價(jià):模型的數(shù)學(xué)推理能力明顯下降,表現(xiàn)出“聽話”和“聰明”之間的權(quán)衡關(guān)系。

圖片

△圖表6 RL訓(xùn)練中最大響應(yīng)長度的影響

紅色區(qū)域表示相較于基礎(chǔ)模型(Original)性能下降,顏色越深表示下降幅度越大。

這些現(xiàn)象進(jìn)一步印證了研究團(tuán)隊(duì)的結(jié)論:偏向生成更長推理鏈的推理導(dǎo)向訓(xùn)練,往往會在無意中削弱模型對指令的遵循能力,凸顯了推理能力與指令服從性之間長期存在的權(quán)衡關(guān)系

小技巧:讓模型更“聽話”的簡單方法

研究者也嘗試了一個(gè)簡單的方法改善模型的“聽話程度”:在模型推理結(jié)束后,輸出答案之前,再次重復(fù)一遍指令要求。

結(jié)果顯示,這種方法拉近了指令和回復(fù)的距離,確實(shí)有效提升了模型的指令遵守能力,但同時(shí)也稍微降低了模型回答問題的準(zhǔn)確率。模型為了遵守規(guī)則,不得不犧牲一點(diǎn)自己的數(shù)學(xué)推理能力。

圖片

△圖表7 通過在推理后重復(fù)指令提升指令遵循能力。

當(dāng)前主流的推理導(dǎo)向訓(xùn)練方式,雖然顯著提升了模型的解題能力,卻不可避免地削弱了其對指令的遵循能力。AI的“聰明”與“聽話”之間,正面臨一場難以調(diào)和的矛盾。

未來,MathIF基準(zhǔn)有望構(gòu)建既能深入思考,又能嚴(yán)格守規(guī)矩的大模型。

論文地址:https://arxiv.org/pdf/2505.14810

Github地址:https://github.com/TingchenFu/MathIF

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2011-08-17 13:51:14

2009-04-15 20:56:40

Linux系統(tǒng)用戶

2025-06-27 08:40:00

模型推理AI

2025-06-11 09:08:00

AI模型數(shù)據(jù)

2025-05-08 06:00:00

AI幻覺AI人工智能

2024-07-25 12:35:33

2024-07-29 07:04:00

大模型AI訓(xùn)AI人工智能

2009-04-13 12:05:09

Linux服務(wù)器用戶

2023-08-31 07:16:32

人工智能AI算力

2021-08-16 20:45:52

AI人工智能

2021-08-16 15:47:02

AI決策人工智能

2021-02-22 11:00:39

機(jī)器學(xué)習(xí)人工智能AI

2025-06-11 08:56:54

2025-03-11 08:37:42

2025-06-11 14:39:50

AILLMMistral

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-05-30 02:00:00

獎勵模型RRMAI

2025-05-19 08:54:00

2025-06-16 03:00:00

2025-03-10 09:15:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩在线免费观看视频 | 亚洲女人天堂成人av在线 | 中文字幕爱爱视频 | 福利av在线 | 日韩欧美国产不卡 | 99re超碰| 亚洲视频中文字幕 | 国产精品亚洲综合 | 在线精品一区二区 | 亚洲精品一区二区 | 欧美8一10sex性hd | 日韩在线免费看 | 亚洲国产成人精品久久久国产成人一区 | 国产精品久久久久久高潮 | 国产精品日日做人人爱 | 欧美在线一区二区三区 | 久久精品国产一区 | 少妇一区二区三区 | 日韩三级在线观看 | 中文字幕免费视频 | 精品国产一区二区三区免费 | 综合久久综合久久 | 99re热精品视频国产免费 | 在线看日韩 | 欧美激情视频一区二区三区在线播放 | 午夜av电影 | 免费一级片| 成人av观看 | 国产视频久久久 | 色婷婷精品久久二区二区蜜臂av | 亚洲欧美一区在线 | 国产一区二区毛片 | 亚洲日韩中文字幕一区 | 国产精品九九 | 欧美一区二区免费电影 | 午夜在线观看免费 | 国产精品不卡一区 | 国产精品1| 日韩在线视频一区 | 欧美成人激情 | 欧美精品综合 |