成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

奧特曼ChatGPT用法錯了!最新研究:要求“直接回答”降低準確率,思維鏈提示作用也在下降

人工智能
對于非推理模型,CoT提升相比于直接回答,所有模型的平均評分和“51%正確”指標都有所提升。其中Gemini Flash 2.0的提升最為顯著,Claude 3.5 Sonnet緊隨其后,GPT-4o和4o-mini則提升不明顯。

奧特曼使用大模型的方法,竟然是錯的?

來自沃頓商學院等機構的最新研究發現,備受奧特曼喜愛的“直接回答”提示,竟然會顯著降低模型準確率。

圖片圖片

不過另一方面,這項研究也發現,在提示詞中加入思維鏈(CoT)命令同樣不好用——

CoT提示對于推理模型非但沒有效果提升,反而會增加時間和計算成本。

而一些前沿的非推理模型,CoT提示可以帶來效果提升,但答案的不穩定性也隨之增加了。

圖片圖片

研究團隊使用GPQA Diamond數據集,針對現在主流的推理和非推理模型,分別在啟用和不啟用CoT的情況下進行了測試。

結果就是對于推理模型,CoT的作用十分有限,比如對于o3-mini,CoT帶來的準確率提升只有4.1%,但時間卻增加了80%。

非推理模型的結果則要復雜一些,但總之要不要用CoT,也需要對收益和投入進行仔細權衡。

所以CoT到底該不該用呢?

實際上,這項研究針對的是用戶提示詞中的CoT命令,并不包括系統提示詞設定,更不是CoT本身。

CoT提示詞作用有限,甚至還有反效果

這項研究使用GPQA Diamond數據集作為基準測試工具,該數據集包含了研究生水平的專家推理問題。

實驗過程中,研究團隊測試了這些模型:

  • 推理模型:o4-mini、o3-mini、Gemini 2.5 Flash
  • 非推理模型:Claude 3.5 Sonnet 3.5 、Gemini 2.0 Flash 、GPT-4o-mini、GPT-4o 、Gemini Pro 1.5

對于每個模型,研究團隊都設置了三種實驗環境:

  • 強制推理:指示模型在提供答案前逐步思考(Think step by step);
  • 直接回答:明確指示模型不要進行任何解釋或思考,只提供答案;
  • 默認:不提供任何特定的后綴指令,讓模型自行選擇如何回答問題。

為了確保結果的可靠性,每個問題在每種條件下都被測試了25次,也就是說每個模型針對同一個問題都要做出75次回答。

對于每種實驗設定,研究團隊一共統計了四個指標:

  • 100%正確率:同一個問題的25次試驗中全部答對才算一次“成功”,“成功”次數除以題目數量即為100%正確率;
  • 90%正確率:25次試驗中至少要答對23次,接近人類可接受的錯誤率;
  • 51%正確率:采用簡單多數原則,25次試驗中答對至少13次就被認為是成功的;
  • 平均評分:將正確答案直接計數,然后除以總試驗次數,也就是總的正確率。

結果,對于非推理模型,CoT提升相比于直接回答,所有模型的平均評分和“51%正確”指標都有所提升。

其中Gemini Flash 2.0的提升最為顯著,Claude 3.5 Sonnet緊隨其后,GPT-4o和4o-mini則提升不明顯。

但是在100%和90%正確率指標當中,相比于不推理,加入CoT提示后Gemini家族兩款模型和4o-mini的指標反而下降。

這意味著,CoT雖然從整體上提高了模型的準確率,但同時也增加了答案的不穩定性。

圖片圖片

如果比較強制CoT和默認模式,可以看到CoT帶來的效果明顯比相對于直接回答更弱,造成這種結果的原因可能和部分模型已經內置了思維鏈相關。

圖片圖片

而對于推理模型來說,CoT提示的效果就更有限了——

對于o3-mini和o4-mini,使用CoT提示相比要求模型直接回答提升非常少,對于Gemini 2.5 Flash更是所有指標全面下降。

例如在平均評分上,o3-mini僅提升2.9個百分點,o4-mini提升3.1個百分點。

圖片圖片

但相比之下,消耗的時間卻是大幅增長,o4-mini大概漲了20%,o3-mini的漲幅更是超過了80%。

圖片圖片

而效果好一些的非推理模型,時間的增加也更加明顯。

圖片圖片

結合開頭作者打臉奧特曼的推文,可以看到模型依然是在“會思考”的時候表現最好,但是最前沿的模型當中,推理模型本就已經內置推理過程,一些非推理模型內置提示也包含了CoT相關內容,這種“思考”不再需要通過額外增加提示來實現。

所以,對于直接使用模型應用的用戶來說,默認設置就已經是一種很好的使用方式了。

報告地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-03-24 13:45:56

2024-01-05 08:44:52

2023-09-25 10:04:37

模型AI

2025-01-21 08:00:00

2023-11-08 08:38:43

2023-05-14 17:21:04

2025-03-11 08:50:00

2023-05-04 09:39:16

AI模型

2023-08-08 12:34:18

ChatGPT人工智能

2020-11-20 17:03:11

AI 數據人工智能

2022-09-14 09:55:32

人工智能AI解碼技術

2019-07-18 13:43:59

iPhone手機出貨量

2024-11-04 14:26:14

2025-04-21 16:28:16

AI醫生生成式AI醫療AI

2024-11-11 10:00:00

ChatGPT模型

2024-12-12 17:30:00

模型測評AI

2025-04-01 10:01:42

RAGCozeAI

2022-04-09 10:16:52

神經網絡深度學習AI

2025-01-06 00:00:00

2023-02-03 12:50:29

ChatGPTAI數據集
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 激情网站 | 日韩第一夜 | 毛片入口 | 欧美日韩高清 | 国产精品视频入口 | 中文字幕在线三区 | 四虎影音 | 一区二区三区四区在线免费观看 | 成人福利在线 | 性福视频在线观看 | 精品国产一区一区二区三亚瑟 | 九九热这里只有精品6 | 日韩电影一区 | 亚洲免费在线观看视频 | 日韩欧美成人一区二区三区 | 亚洲国产激情 | 亚洲国产成人精品一区二区 | 欧美日韩精品一区二区三区四区 | 99久久国产精 | 亚洲精品av在线 | av 一区二区三区 | 8x国产精品视频一区二区 | 亚洲国产精品久久 | 国产精品久久久久久久久久免费看 | 一区二区三区视频 | 日本视频在线播放 | 精品久久久久久国产 | 久久99精品久久久久久秒播九色 | 国产亚洲成av人在线观看导航 | 日本精品一区二区三区在线观看视频 | 一级欧美日韩 | 日韩欧美国产电影 | 81精品国产乱码久久久久久 | 97精品国产一区二区三区 | 精品国产91亚洲一区二区三区www | 91原创视频 | www国产精品 | www.99re| 天天久久 | 中文字幕免费观看 | 久久国产精品免费一区二区三区 |