成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

面對無解問題大模型竟會崩潰?港中文&華為聯合提出首個大模型推理可靠性評估基準

人工智能 新聞
本文提出首個大模型推理任務的可靠性基準,希望借此拋磚引玉,引出更多對新生代推理模型可靠性的關注和優秀工作,讓人們更加信任模型的輸出,讓 AI 更好地服務于人類~?

本文作者是香港中文大學博士三年級薛博陽,導師為黃錦輝教授,目前在倫敦大學學院進行訪問交流,他的研究方向包括可信大模型,模型不確定性,對話系統等,在 ACL, EMNLP, TASLP 等會議期刊作為第一作者發表多篇論文,并長期在知乎寫作大模型、機器學習等專欄文章,個人主頁為:https://amourwaltz.github.io

研究問題

面對無解問題最強模型也會束手無策?

今年初以 DeepSeek-r1 為代表的大模型在推理任務上展現強大的性能,引起廣泛的熱度。然而在面對一些無法回答或本身無解的問題時,這些模型竟試圖去虛構不存在的信息去推理解答,生成了大量的事實錯誤、無意義思考過程和虛構答案,也被稱為模型「幻覺」 問題,如下圖(a)所示,造成嚴重資源浪費且會誤導用戶,嚴重損害了模型的可靠性(Reliability)。

圖片

對于復雜的推理任務,一個可靠的模型應當在思考分析后,對可解問題給出正確答案,對不可解問題則指出無解;如果問題超出模型能力范圍無法判斷可解性,一個次優的選擇就是拒答以避免誤導用戶,如上圖(b)和(c)所示,這樣回復才是可靠的,同時也能抑制幻覺發生。

近期由港中文和華為諾亞實驗室聯合提出的 ReliableMath 基準,旨在探究大模型推理任務的可靠性。該工作文章和數據集均已開源,并持續在 leaderboard 上更新最新模型結果,目前已新增了 Qwen3、豆包、Gemini 等一系列模型的可靠性測試結果,歡迎大家關注補充~

圖片

  • 論文題目:ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models
  • 論文作者:Boyang Xue, Qi Zhu, Rui Wang, Sheng Wang, Hongru Wang, Fei Mi, Yasheng Wang, Lifeng Shang, Qun Liu, Kam-Fai Wong
  • 論文地址:https://arxiv.org/pdf/2507.03133
  • GitHub 地址:https://github.com/AmourWaltz/ReliableMath
  • 數據集地址:https://huggingface.co/datasets/BeyondHsueh/ReliableMath
  • Leaderboard 地址:https://huggingface.co/spaces/BeyondHsueh/ReliableMath-Leaderboard

可靠性評估準則

知之為知之,不知為不知,是知也

此前大模型可靠性的研究集中在知識任務上,探究是否知道某個知識,缺乏對更難的推理任務的探索。由于推理問題本身可能無解,并且問題可解性以及模型能否回答都需要經過推理才能得出,增加了研究挑戰。

根據前文對推理任務可靠性的定義,本工作提出一套推理任務可靠性的評估準則,如下圖所示,將問題分為可解(A)和不可解(U),將模型回復分為成功(S),拒答(R)和失敗(F)。成功表示對可解問題匹配到正確答案或對不可解問題指出其無解,這是最好的情況;次優是拒答,即對可解和不可解問題都回復我不知道;其余回復均認為是失敗。

圖片

分別使用精度(Prec.)和謹慎度(Prud.)來表示成功率和拒答率,評估可靠性時優先看精度,其次看謹慎度。

圖片

ReliableMath 數據集

首個高質量數學無解問題集

由于缺乏無解的數學問題,本文提出一個評估數學推理可靠性的數據集 ReliableMath,包含可解和不可解的問題。可解問題從當前開源數學問題集中收集,不可解問題通過對可解問題進行改寫構造獲得,改寫方式有兩種:刪除必要數學條件或增加與已知條件矛盾的條件,如下圖所示。

圖片

為了得到高質量的無解問題,本文提出一套完整的無解解問題構造流程,如下圖所示,包含三步:1)通過對現有可解問題進行改寫使其不可解;2)對改寫問題使用模型驗證,并過濾掉不合格的問題;3)對過濾數據再次進行人工驗證評估問題是否無解,保留確實無解的問題,這樣就得到了高質量的無解問題構成 ReliableMath 數據集。

圖片

ReliableMath 包含不同難度的數學任務,包括奧賽級的 AIME、AMC、Minerva、及高中級的 MATH。人工標注時,對判斷問題無解的難度也進行了標注,對那些很容易判斷出無解的,比如幾何題缺失圖片信息等,難度標為 0,而對于需要經過思考才能判斷無解的,難度標為 1,數據統計可參考原文。

實驗分析

揭示大模型推理可靠性的缺陷

本文在一系列慢思考和快思考模型上做了實驗,并指出以下幾條關鍵發現:

圖片

  1. 對模型直接輸入無解問題時(standard prompt),模型幾乎不具備拒答或指出不可解的能力,可靠性極差;我們發現模型能注意到無解問題本身存在問題,但不敢承認其無解或拒答,反而是會不斷地回溯、反思導致生成大量無意義的思考過程,直到截斷或虛構一個答案,造成嚴重浪費和幻覺,損害了可靠性;
  2. 當在提示詞中加入允許模型拒答或指出問題無解的指令后(reliable prompt),我們發現在可解問題上的可靠性變化不大,但大部分模型在不可解問題上可靠性有明顯提升,盡管仍低于可解問題的可靠性,并且生成序列長度也有明顯下降,說明使用 reliable prompt 可以在不損害可解問題性能的前提下,提高不可解問題的可靠性,并減少過度思考。
  3. 對較大的模型,使用 reliable prompt 后慢思考模型的可靠性普遍高于對應快思考模型,如 Deepseek-r1 vs. Deepseek-v3;而對于小模型,使用 reliable prompt 后慢思考模型在不可解問題上的可靠性仍然很差,并沒有高于對應的快思考模型,如 Distill-7b vs. Qwen-7b,意味著小模型可靠性有進一步提升空間。
  4. 較簡單的數學測試集的可靠性要高于較難的測試集的可靠性。

此外,本文也對 ReliableMath 數據集做了分析,下圖(a)分別測試了使用移除必要條件和增加矛盾條件兩種改寫方式構造的問題的可靠性,結果表明移除條件構造的不可解問題可靠性偏低,這是因為模型傾向于假設缺失條件虛構答案。圖(b)分別展示了不同難度的無解問題的可靠性,發現難度為 1 的不可解問題可靠性偏低,即這些問題需要模型經過推理才能發現問題無解,這種情況更難也符合預期,說明大模型與人類在識別問題無解難度的相關性是一致的,盡管人工評估難度存在主觀性。

圖片

可靠性對齊

如何提高大模型可靠性?

本文最后提出一個提高可靠性的對齊策略,在開源訓練集上構造一批無解問題。在較強的模型上蒸餾獲得成功回復,然后在小模型上自采樣獲得拒答回復,最后使用監督學習訓練小模型提升可靠性,如下圖所示。經過對齊后,小模型的可靠性也得到顯著提升。

圖片

結語和展望

本文提出首個大模型推理任務的可靠性基準,希望借此拋磚引玉,引出更多對新生代推理模型可靠性的關注和優秀工作,讓人們更加信任模型的輸出,讓 AI 更好地服務于人類~

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-07-17 13:07:26

模型開源

2024-07-15 07:52:00

2024-01-26 16:33:00

2023-12-01 09:36:59

華為云大模型混合云華為云行業高峰論壇

2024-09-12 12:46:36

2025-01-13 07:00:00

2024-07-11 11:53:56

2025-02-28 08:00:00

大語言模型DeepSeek機器學習

2024-05-27 12:45:53

2025-01-21 13:15:16

搜索版Search-o1框架

2010-12-28 19:50:21

可靠性產品可靠性

2025-03-17 08:48:00

大模型AI生成

2024-10-05 11:30:00

模型訓練

2021-12-01 10:05:12

模型人工智能計算

2025-05-14 09:15:00

2024-06-03 08:30:00

2025-06-04 08:40:00

AI教育生成

2023-06-20 13:44:49

清華推理

2024-12-27 09:00:00

訓練模型數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 四虎4hu永久免费网站影院 | 成人毛片网 | 四虎最新地址 | 亚洲影视一区 | 成人午夜小视频 | 五月婷婷综合网 | 毛片久久 | 国产精品美女久久久久av爽 | 蜜桃色999| 天天干夜夜艹 | 国产精品国产三级国产专区53 | 国产毛片毛片 | av网站免费在线观看 | 日本不卡在线视频 | 波多野结衣一区二区 | av女人天堂| 欧美视频免费看 | 国产精品久久久久久久久久辛辛 | 国产福利av | 97色在线 | 亚洲精品在线免费 | 91精品国产日韩91久久久久久 | 成人欧美一区二区三区黑人孕妇 | 欧美三级韩国三级日本三斤在线观看 | 91超碰在线播放 | 亚洲理论片 | 亚洲美女网站 | 亚洲天堂第一页 | 精品91| 成人欧美一区二区三区黑人孕妇 | 国产中文一区 | 一级片在线观看视频 | 欧美精品二区三区四区免费看视频 | 亚洲一级黄色片 | 日本久久一区二区 | 一级免费黄色片 | 亚洲高清视频在线 | 免费观看av| 黄视频在线播放 | 小镇姑娘国语版在线观看免费 | 日韩欧美在线一区 |