AI越聰明越不聽話！新研究：最強(qiáng)推理模型指令遵循率僅50%

2025-05-26 08:30:00

大模型越擅長復(fù)雜推理，越容易忽略用戶的指令要求，“聰明”和“聽話”之間存在明顯的矛盾。

如果面前有兩個(gè)AI助手：一個(gè)很聰明但經(jīng)常不守規(guī)矩，另一個(gè)很聽話但不太聰明，你會怎么選？

最近，上海人工智能實(shí)驗(yàn)室與香港中文大學(xué)的研究團(tuán)隊(duì)發(fā)布了論文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》，通過一個(gè)全新的評測基準(zhǔn)MathIF揭示：

大模型越擅長復(fù)雜推理，越容易忽略用戶的指令要求，“聰明”和“聽話”之間存在明顯的矛盾。

這項(xiàng)工作的靈感，源自實(shí)際使用推理模型（如o3）過程中的一個(gè)意外發(fā)現(xiàn)：相比許多經(jīng)過強(qiáng)化推理訓(xùn)練的大模型，GPT-4o在執(zhí)行具體指令時(shí)反而更加“聽話” 。也正是這種“越聰明、越不聽話”的真實(shí)體驗(yàn)，讓研究團(tuán)隊(duì)開始系統(tǒng)性地研究推理能力與指令跟隨之間的關(guān)系。

這一研究也引來??知名博主的轉(zhuǎn)發(fā)：

研究揭示越擅長數(shù)學(xué)推理的模型反而越難完全遵守指令，同時(shí)分析了模型大小與服從性的非正相關(guān)現(xiàn)象，強(qiáng)調(diào)了推理能力與指令遵循之間的權(quán)衡。

MathIF：衡量推理模型“聽話程度”的新基準(zhǔn)

MathIF基準(zhǔn)專門針對數(shù)學(xué)推理任務(wù)，考察AI模型是否嚴(yán)格遵循用戶給出的指令要求。這些要求包括格式、語言、長度和特定關(guān)鍵詞使用，均可通過程序自動驗(yàn)證。

MathIF由來自不同難度的數(shù)學(xué)題目組成，涵蓋了從簡單的數(shù)學(xué)問題（GSM8K）到復(fù)雜的數(shù)學(xué)競賽題目（AIME）。每個(gè)題目都會附帶具體而明確的指令，比如：“答案必須以一句中文完整作答，不能有多余解釋。”

此外，MathIF還設(shè)計(jì)了單一指令、雙重指令和三重指令的組合情形，以測試模型在不同約束復(fù)雜程度下的表現(xiàn)。模型不僅需要正確解題，還要嚴(yán)格遵守這些指令要求。

自動評分程序會精確檢查答案是否符合每個(gè)具體的指令標(biāo)準(zhǔn)，分別以硬準(zhǔn)確率（HAcc）和軟準(zhǔn)確率（SAcc）衡量模型的服從程度：HAcc 表示是否全部指令都被滿足，而 SAcc 則反映每條指令的平均滿足比例。

△圖表1 MathIF 的指令類型

越聰明越不聽話？實(shí)驗(yàn)揭示“聰明”與“聽話”的矛盾

研究團(tuán)隊(duì)使用MathIF評測了23個(gè)當(dāng)前主流的大模型。這些模型包括不同的參數(shù)規(guī)模和訓(xùn)練方式，涵蓋從數(shù)十億到數(shù)百億參數(shù)的各種類型。

實(shí)驗(yàn)結(jié)果令人意外：在數(shù)學(xué)推理能力表現(xiàn)越出色的模型，反而更難完全遵守用戶給定的指令要求。即使是表現(xiàn)最佳的模型Qwen3-14B，也只能成功遵守一半的指令提示。

此外，模型的大小與其遵守指令的能力并不呈正相關(guān)，甚至有時(shí)會出現(xiàn)負(fù)相關(guān)——即更大的模型并不一定更守規(guī)矩。一些較小的模型反而更善于嚴(yán)格執(zhí)行用戶的指令。

指令遵循（instruction-following）與數(shù)學(xué)推理能力（mathematical reasoning）之間存在一種權(quán)衡關(guān)系（trade-off）。也就是說，當(dāng)模型在推理能力上表現(xiàn)得更強(qiáng)時(shí)，它往往更容易忽略或違反用戶的具體指令。

△圖表2 23個(gè)大推理模型在MathIF上的表現(xiàn)

模型按服從性（HAcc + SAcc）表現(xiàn)從高到低排序。表中?符號表示該模型僅通過監(jiān)督微調(diào)（SFT）訓(xùn)練，未使用推理導(dǎo)向的強(qiáng)化學(xué)習(xí)方法。粗體+下劃線標(biāo)記則分別代表各列指標(biāo)中的前兩名與后兩名。