成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型“拼好題”,45K數(shù)據(jù)撬動18%提升,數(shù)學問題拒絕死記硬背?|?MathFusion

人工智能 新聞
上海AI Lab、人大高瓴等團隊聯(lián)合提出了MathFusion,通過指令融合增強大語言模型解決數(shù)學問題的能力。

當前數(shù)學領(lǐng)域的數(shù)據(jù)生成方法常常局限于對單個問題進行改寫或變換,好比是讓學生反復做同一道題的變種,卻忽略了數(shù)學題目之間內(nèi)在的關(guān)聯(lián)性。

為了打破這種局限,讓大模型學會“串聯(lián)”與“并聯(lián)”知識,上海AI Lab、人大高瓴等團隊聯(lián)合提出了MathFusion,通過指令融合增強大語言模型解決數(shù)學問題的能力。

圖片

僅使用45K的合成指令,MathFusion在多個基準測試中平均準確率提升了18.0個百分點,展現(xiàn)了卓越的數(shù)據(jù)效率和性能。

圖片

△越靠左上角,模型表現(xiàn)越好且數(shù)據(jù)效率越高。

核心思想:三種“融合策略”

MathFusion通過三種“融合策略”,將不同的數(shù)學問題巧妙地結(jié)合起來,生成封裝了二者關(guān)系和結(jié)構(gòu)的新問題。

圖片

  • 順序融合(Sequential Fusion)將兩個問題串聯(lián)起來,前一個問題的答案作為后一個問題的某個輸入條件。這就像解決一個多步驟問題,模型需要先解出第一步,才能進行第二步,從而學會處理問題間的依賴關(guān)系。
  • 并列融合(Parallel Fusion)將兩個相似的問題融合在一起,對它們的數(shù)學概念進行識別和融合,在原來問題的基礎(chǔ)上提出一道新的問題。
  • 條件融合(Conditional Fusion)創(chuàng)造一個需要對兩個問題的解進行比較和選擇的問題場景。

首先從現(xiàn)有數(shù)據(jù)集(GSM8K、MATH)中識別出適合融合的問題對(主要通過embedding search),然后應用融合策略生成新問題,并利用GPT-4o-mini來生成解答。通過這三種策略,生成了一個全新的融合數(shù)據(jù)集MathFusionQA。

融合實例:不同策略的融合結(jié)果

為了更直觀地理解這三種融合策略,來看一個具體的例子:

原始問題

  • 問題A:一天內(nèi),一艘船在湖中航行4次,每次最多可載12人。請問在2天內(nèi),這艘船可以運送多少人?
  • 問題B:學校組織去博物館。他們租了4輛巴士來接送孩子和老師。第二輛巴士的人數(shù)是第一輛的兩倍,第三輛比第二輛少6人,第四輛比第一輛多9人。如果第一輛巴士上有12人,請問總共有多少人去了博物館?

順序融合

學校組織一次去博物館的旅行,需要運送學生和老師。首先,請計算一艘船在2天內(nèi)的載客量,這艘船每天航行4次,每次最多可載12人。然后,將這個總載客量作為第一輛巴士的人數(shù)。已知第二輛巴士的人數(shù)是第一輛的兩倍,第三輛比第二輛少6人,第四輛比第一輛多9人。請問總共有多少人去了博物館?

并列融合

一所學校組織一次到博物館的實地考察,并租用了4輛巴士和一艘船6。這艘船一天航行2次,每次載客12人。每輛巴士的人數(shù)不同:第一輛巴士有12人,…,第四輛比第一輛多9人。請計算在2天內(nèi),船和所有巴士總共可以運送多少人?

條件融合

一個社區(qū)正在組織兩種不同的郊游活動。對于湖上游覽,一艘船每天運營4次,載客量為12人,他們計劃讓這艘船服務2天。與此同時,一所學校正在安排一次有4輛巴士的博物館之旅11。第一輛巴士有12人,第二輛是第一輛的兩倍,第三輛比第二輛少6人,第四輛比第一輛多9人。考慮到這些安排,哪種交通方式的載客能力更強?

實驗結(jié)果:有效捕捉問題間深層聯(lián)系

在MathFusionQA的基礎(chǔ)上,使用三種融合策略——順序、并行和條件——對模型(DeepSeekMath-7B、Mistral-7B、Llama3-8B)進行微調(diào)。實驗得到以下發(fā)現(xiàn):

圖片

顯著提升模型性能與效率:與標準訓練方法(只在GSM8K和MATH上訓練)相比,MathFusion在多個base模型(包括DeepSeekMath-7B、Llama3-8B、Mistral-7B)上都取得了穩(wěn)定的性能提升。并且,MathFusion在大幅提升性能的同時,保持了極高的數(shù)據(jù)效率,用遠少于其他方法的數(shù)據(jù)量就達到了良好的效果。

策略之間優(yōu)勢互補:將順序融合、條件融合和并行融合三種策略結(jié)合使用,組合融合策略始終優(yōu)于每種單一融合策略。另外,基礎(chǔ)模型性能越弱,組合融合策略帶來的提升就越大。在所有基準測試中,組合融合策略在DeepSeekMath-7B上平均提升了3.1分,在Llama3-8B上提升了4.9分,在Mistral-7B上提升了7.5分。

強大的泛化與擴展能力:MathFusion不僅在in-domain測試中表現(xiàn)優(yōu)異,在更具挑戰(zhàn)性的out-of-domain基準測試中同樣超越了標準模型。

圖片圖片

對MathFusion做進一步的分析,有以下幾點發(fā)現(xiàn):

  • 融合之后的問題的指令遵循難度(IFD)更高,說明融合之后的問題對于模型來說更加困難。
  • 隨著融合數(shù)據(jù)量的增加,MathFusion模型的性能呈現(xiàn)出近似對數(shù)形式的增長。
  • 當把MathFusionQA數(shù)據(jù)集與DART-Math數(shù)據(jù)集結(jié)合使用時,模型的性能可以得到進一步的提升,甚至超過了單獨使用任何一個數(shù)據(jù)集時的表現(xiàn)。這表明MathFusion的“問題融合”思路與DART-Math的“挖掘難題”思路是互補的。
  • 通過t-SNE可視化分析,發(fā)現(xiàn)MathFusion得到的問題在特征空間中的分布比原始問題更均勻和廣泛。
  • 通過對teacher model的消融分析,證明了MathFusion帶來的提升源自于問題融合本身,而非teacher model的好壞。

總的來說,通過生成結(jié)構(gòu)更多樣、邏輯更復雜的合成問題,MathFusion有效地增強了模型捕捉問題間深層聯(lián)系的能力。

但目前MathFusion還只在GSM8K、MATH這種比較簡單的數(shù)學問題,以及short cot solution的數(shù)據(jù)集上進行了驗證,有待進一步擴展到更難的數(shù)學問題、long cot solution以及其他領(lǐng)域的數(shù)據(jù)上。

論文鏈接: https://arxiv.org/abs/2503.16212

代碼庫:https://github.com/QizhiPei/MathFusion

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2020-07-02 09:47:40

人工智能技術(shù)教育

2025-02-14 10:23:00

LLM模型谷歌

2023-08-14 08:15:44

谷歌模型

2024-07-02 13:30:50

2024-07-23 09:26:20

2017-09-21 11:43:14

JavascriptHtml5Html

2025-06-26 15:16:42

AI獎勵模型GPT-4.1

2022-04-12 14:12:43

谷歌研究模型

2023-09-18 16:18:36

AICgen數(shù)據(jù)

2025-06-10 09:09:00

2020-04-16 10:55:03

Java虛擬機字節(jié)碼

2023-09-05 17:43:04

人工智能AI

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2022-06-07 10:28:53

云遷移云計算

2014-04-28 16:13:11

Unix目錄結(jié)構(gòu)

2021-02-22 07:48:35

Excel數(shù)據(jù)分析快捷方式

2022-11-17 08:47:20

Go特性標準庫

2011-06-20 16:03:03

Qt 控件 鼠標

2020-09-10 07:04:30

JSJavaScript 原型鏈

2025-06-18 09:03:07

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 中文字幕av在线一二三区 | 中文字幕精品一区久久久久 | 国产乱人伦 | 成年人网站在线观看视频 | 久久中文字幕电影 | 亚洲网站在线播放 | 激情在线视频 | 在线欧美视频 | 九色 在线| 性生活毛片 | 网站一区二区三区 | 色综合一区二区三区 | 久久国产精彩视频 | 色播视频在线观看 | 欧美精品片 | aaa天堂 | 男女深夜网站 | 一区二区在线不卡 | 久久免费国产 | 天堂一区在线 | 81精品国产乱码久久久久久 | 波多野结衣精品在线 | 精品综合| 欧美在线视频一区二区 | 国产精品久久久久久 | 在线中文字幕亚洲 | 亚洲精品日韩一区二区电影 | 午夜影院在线观看视频 | 国产精品久久久久久久久久 | 亚洲瑟瑟 | 91精品国模一区二区三区 | 亚洲免费精品 | 日韩综合网 | 99久久久久久久久 | 欧美国产日韩一区二区三区 | 国产欧美日韩一区二区三区 | 成人免费网视频 | 四虎影视免费观看 | 亚洲综合视频 | 九九热视频这里只有精品 | 国产精品成人一区二区 |