奧特曼ChatGPT用法錯了！最新研究：要求“直接回答”降低準確率，思維鏈提示作用也在下降

2025-06-09 15:26:53

對于非推理模型，CoT提升相比于直接回答，所有模型的平均評分和“51%正確”指標都有所提升。其中Gemini Flash 2.0的提升最為顯著，Claude 3.5 Sonnet緊隨其后，GPT-4o和4o-mini則提升不明顯。

奧特曼使用大模型的方法，竟然是錯的？

來自沃頓商學院等機構的最新研究發現，備受奧特曼喜愛的“直接回答”提示，竟然會顯著降低模型準確率。

圖片

不過另一方面，這項研究也發現，在提示詞中加入思維鏈（CoT）命令同樣不好用——

CoT提示對于推理模型非但沒有效果提升，反而會增加時間和計算成本。

而一些前沿的非推理模型，CoT提示可以帶來效果提升，但答案的不穩定性也隨之增加了。

圖片

研究團隊使用GPQA Diamond數據集，針對現在主流的推理和非推理模型，分別在啟用和不啟用CoT的情況下進行了測試。

結果就是對于推理模型，CoT的作用十分有限，比如對于o3-mini，CoT帶來的準確率提升只有4.1%，但時間卻增加了80%。

非推理模型的結果則要復雜一些，但總之要不要用CoT，也需要對收益和投入進行仔細權衡。

所以CoT到底該不該用呢？

實際上，這項研究針對的是用戶提示詞中的CoT命令，并不包括系統提示詞設定，更不是CoT本身。

這項研究使用GPQA Diamond數據集作為基準測試工具，該數據集包含了研究生水平的專家推理問題。

實驗過程中，研究團隊測試了這些模型：

推理模型：o4-mini、o3-mini、Gemini 2.5 Flash
非推理模型：Claude 3.5 Sonnet 3.5 、Gemini 2.0 Flash 、GPT-4o-mini、GPT-4o 、Gemini Pro 1.5

對于每個模型，研究團隊都設置了三種實驗環境：

為了確保結果的可靠性，每個問題在每種條件下都被測試了25次，也就是說每個模型針對同一個問題都要做出75次回答。

對于每種實驗設定，研究團隊一共統計了四個指標：

結果，對于非推理模型，CoT提升相比于直接回答，所有模型的平均評分和“51%正確”指標都有所提升。

其中Gemini Flash 2.0的提升最為顯著，Claude 3.5 Sonnet緊隨其后，GPT-4o和4o-mini則提升不明顯。

但是在100%和90%正確率指標當中，相比于不推理，加入CoT提示后Gemini家族兩款模型和4o-mini的指標反而下降。

這意味著，CoT雖然從整體上提高了模型的準確率，但同時也增加了答案的不穩定性。

圖片

如果比較強制CoT和默認模式，可以看到CoT帶來的效果明顯比相對于直接回答更弱，造成這種結果的原因可能和部分模型已經內置了思維鏈相關。

圖片

而對于推理模型來說，CoT提示的效果就更有限了——

對于o3-mini和o4-mini，使用CoT提示相比要求模型直接回答提升非常少，對于Gemini 2.5 Flash更是所有指標全面下降。

例如在平均評分上，o3-mini僅提升2.9個百分點，o4-mini提升3.1個百分點。

圖片

但相比之下，消耗的時間卻是大幅增長，o4-mini大概漲了20%，o3-mini的漲幅更是超過了80%。

圖片

而效果好一些的非推理模型，時間的增加也更加明顯。

圖片

結合開頭作者打臉奧特曼的推文，可以看到模型依然是在“會思考”的時候表現最好，但是最前沿的模型當中，推理模型本就已經內置推理過程，一些非推理模型內置提示也包含了CoT相關內容，這種“思考”不再需要通過額外增加提示來實現。

所以，對于直接使用模型應用的用戶來說，默認設置就已經是一種很好的使用方式了。

責任編輯：武曉燕來源：量子位

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看