成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型也需要自我反思,上海AI Lab合成“錯題本”讓大模型數學成績提升13.3%

人工智能
作者通過深入分析模型犯下的錯誤,構建了“錯誤-糾正”數據集,并利用反思機制,引導模型從錯誤的思路平滑過渡到正確的答案。結果,模型不僅獲得了準確率的提升,還獲得了超強的自主糾錯能力和泛化能力。

大模型學習不僅要正確知識,還需要一個“錯題本”?

上海AI Lab提出了一種新的學習方式,構建了“錯誤-反思-修正”數據,讓大模型仿照人類的學習模式,從錯誤中學習、反思。

結果,在Llama3-8B上,數學題的解題準確率平均提升了13.3%。

圖片圖片

這種方法名為LEMMA(Learning from Errors for Mathematical Advancement),專門教大模型如何從錯誤中學習。

作者通過深入分析模型犯下的錯誤,構建了“錯誤-糾正”數據集,并利用反思機制,引導模型從錯誤的思路平滑過渡到正確的答案。

結果,模型不僅獲得了準確率的提升,還獲得了超強的自主糾錯能力和泛化能力。

相關論文已發表于ACL’25 Findings。

圖片圖片

用教師模型生成“錯題本”

作者首先系統分析了當前主流大模型在數學題中常見的七大類錯誤(如題意誤解、公式混淆、計算失誤等),發現這些錯誤在不同模型之間分布非常一致。

結果顯示,大模型犯下最多的錯誤是誤解題意,占比超過40%,隨后的兩張常見錯誤類型是公式混淆和計算錯誤。

圖片圖片

了解了模型都會犯哪些錯誤,接下來就可以有針對性地生成數據了。

過去,整個過程往往通過提高采樣Temperature(如T=1.0或T=1.1)來完成。

但作者發現高Temperature采樣會引入大量無意義的(如語義不通、毫無邏輯)錯誤,這種錯誤實際上是模型不會犯的。

作者認為,這種“已讀亂回”式的錯誤,難以讓模型真正提升自我糾錯能力。

圖片圖片

為此,LEMMA采用了新的方法,讓教師模型定向制造“學生會犯的錯”,構造“反思式”數據:

具體來說,LEMMA提出了一種全新的反思數據構造策略,主要包括三個環節:

  • 首先,分析學生模型常犯哪些錯(如題意誤解、公式誤用、計算失誤);
  • 然后讓強大的教師模型(GPT-4o),根據學生模型在每個問題上的錯誤類型,有針對性地故意引入特定錯誤;
  • 之后,教師模型還會標出第一個錯誤發生的步驟,并生成反思和改正,確保模型學會“及時反思”。

在反思和改正階段:LEMMA采用了兩種更貼近人類思維的糾錯方式——一是返回上一步,二是直接推倒重來。

引入第二種修正方式的原因在于,作者發現大模型在有的題目上出錯的根本原因,是一開始就選擇了低效的暴力解法,這樣即使修正了某個中間的錯誤步驟,也會在后續的推理中犯錯,不如從頭開始選擇更“聰明”的解法。

總的來說,LEMMA構建的是“有目標、有指導、有反饋”的錯誤數據,讓模型能像學生一樣反思:“我錯在哪?應該怎么改?”

圖片圖片

實驗結果

對比多種主流反思修正方法,優勢明顯。

作者對比了包括RefAug、RFT,ISC、S3C-Math在內的八種主流baseline方法。

結果表明,LEMMA在常見的數學任務上正確率更高,在Llama3-8B上準確率提升了最高達13.3%。

圖片圖片

并且,LEMMA有效提升了模型的反思和自我修正能力。

在MathChat任務中,LEMMA在“追問回答”和“錯誤修正”兩大任務上領先SOTA方法(Dart-MATH)多達6.3和4.1個百分點。

圖片圖片

同時,LEMMA也顯著減少了模型的常見錯誤。

在生成的數據上進行微調之后,LEMMA一致地降低了各種錯誤類型,提升模型推理精度。

相比之下,SFT雖然整體準確率提升,但卻在某些錯誤類型(如公式混淆)上反而變差。

圖片圖片

另外,作者進行的消融實驗也充分驗證了“教師模型錯誤引入(Error Aug.)”和“從頭修正(Fresh & Restart)”兩個關鍵模塊的有效性。

圖片圖片

總之,LEMMA提出了一種讓大模型在數學推理中“從錯誤中有效學習”的創新方法,提升了模型對推理錯誤的識別與修復能力。

相比以往依賴高Temperature采樣和簡單拼接的反思數據合成方式,LEMMA 顯著提高了“錯誤-反思-修正”數據的質量,提升了模型的數學推理能力。

論文地址:
https://arxiv.org/abs/2503.17439
代碼倉庫:
https://github.com/pzs19/LEMMA


責任編輯:武曉燕 來源: 量子位
相關推薦

2025-01-23 09:15:00

數據技術模型

2024-08-26 08:30:00

谷歌代碼

2025-04-08 00:40:00

谷歌合成數據大模型

2024-10-25 14:30:00

模型AI

2025-06-24 08:50:00

模型數據AI

2024-12-19 09:00:00

模型數學訓練

2024-12-25 08:02:17

人工智能AI運維

2024-05-09 08:33:33

2024-07-01 20:45:55

2023-05-10 14:40:40

AI模型算力

2024-06-17 18:04:38

2024-08-27 00:00:01

AI應用框架

2023-08-03 10:59:49

人工智能

2024-06-19 16:11:22

2023-09-14 12:35:59

2025-04-22 08:08:37

2025-04-25 09:20:00

數據模型AI

2023-11-03 07:47:12

機器資源大模型:

2024-12-04 10:35:21

2025-05-06 09:13:15

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产区精品在线观看 | 91精品国产综合久久精品 | 国产精品免费观看 | 男女羞羞免费视频 | 亚洲国产午夜 | 亚洲一区久久 | 91精品国产综合久久精品 | 色综合视频在线 | 日韩在线视频一区二区三区 | 国产一区二区在线视频 | 色毛片 | av网站免费看 | 精品国产一区二区三区av片 | 欧美一级一 | 日韩aⅴ视频 | 成人欧美一区二区三区黑人孕妇 | 一区二区三区中文字幕 | 久久精品 | 国产欧美精品一区二区 | 亚洲精品99| 91久久精品日日躁夜夜躁国产 | 精品国产一区二区三区久久 | 国产成人综合网 | 日韩成人av在线播放 | 欧美日韩精品在线免费观看 | 色视频在线播放 | 一区二区三区视频在线观看 | 久久久入口 | 国产精品一区二区三区在线 | 黄视频免费 | 免费视频久久 | 91精品国产91久久久久久 | 国产免费av在线 | 97久久超碰| 免费观看一级特黄欧美大片 | 国产婷婷色综合av蜜臀av | 久久国产电影 | 99tv成人影院| 国产一二三区在线 | 精品亚洲一区二区 | 亚洲xx在线 |