成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

超越GPT-4o!華人團(tuán)隊(duì)新框架讓Qwen跨領(lǐng)域推理提升10%,刷新12項(xiàng)基準(zhǔn)測(cè)試

人工智能 新聞
來(lái)自加拿大滑鐵盧大學(xué)與TikTok新加坡,M-A-P的華人團(tuán)隊(duì)提出了一種全新訓(xùn)練框架:General-Reasoner。

一項(xiàng)新的強(qiáng)化學(xué)習(xí)方法,直接讓Qwen性能大增,GPT-4o被趕超!

來(lái)自加拿大滑鐵盧大學(xué)與TikTok新加坡,M-A-P的華人團(tuán)隊(duì)提出了一種全新訓(xùn)練框架:General-Reasoner

結(jié)果直接讓Qwen系列大模型的跨領(lǐng)域推理準(zhǔn)確率提升近10%,在多個(gè)基準(zhǔn)測(cè)試中甚至超越GPT-4o。

圖片

上圖顯示出General-Reasoner在多項(xiàng)跨領(lǐng)域評(píng)測(cè)中顯著提升基礎(chǔ)模型推理能力。

當(dāng)前,強(qiáng)化學(xué)習(xí)(RL)被視為提升模型推理能力的關(guān)鍵手段。其中,Zero-RL方法通過(guò)直接訓(xùn)練基礎(chǔ)模型,已在數(shù)學(xué)和編程等結(jié)構(gòu)化任務(wù)上展現(xiàn)出強(qiáng)大效果。

問題是,這些方法往往局限于數(shù)據(jù)豐富、答案結(jié)構(gòu)清晰的領(lǐng)域,在面對(duì)物理、金融或人文社科等更廣泛的領(lǐng)域時(shí),模型難以有效泛化。

接下來(lái)看看研究團(tuán)隊(duì)是如何解決這些推理難題的?

相較現(xiàn)有方法的關(guān)鍵革新

目前的Zero-RL框架如SimpleRL通常聚焦于單一領(lǐng)域數(shù)據(jù),采用簡(jiǎn)單的規(guī)則式答案驗(yàn)證,存在以下不足:

  • 數(shù)據(jù)單一多為數(shù)學(xué)競(jìng)賽或代碼任務(wù),泛化能力有限;
  • 驗(yàn)證方式僵化僅能識(shí)別明確結(jié)構(gòu)化答案,無(wú)法靈活處理多樣化的答案表述。

針對(duì)這些問題,General-Reasoner提出兩個(gè)核心創(chuàng)新:

全領(lǐng)域推理數(shù)據(jù)集(WebInstruct-verified)

通過(guò)大規(guī)模網(wǎng)絡(luò)爬取與嚴(yán)格篩選,創(chuàng)建了覆蓋物理、化學(xué)、金融等多個(gè)領(lǐng)域約23萬(wàn)個(gè)高質(zhì)量、可驗(yàn)證的推理問題。

為了支持更廣泛的跨領(lǐng)域推理能力,研究團(tuán)隊(duì)構(gòu)建了一個(gè)大規(guī)模、多樣且高質(zhì)量的可驗(yàn)證推理任務(wù)數(shù)據(jù)集。

數(shù)據(jù)最初來(lái)源于WebInstruct,其中包含約500萬(wàn)個(gè)從StackExchange和教育門戶網(wǎng)站爬取的自然指令。這些數(shù)據(jù)雖然適用于一般的指令調(diào)優(yōu),但大部分缺乏可驗(yàn)證答案或推理結(jié)構(gòu)。

研究人員追溯數(shù)據(jù)源網(wǎng)頁(yè)提取問題-答案對(duì),并剔除沒有明確人類答案的問題以確保質(zhì)量。

隨后利用Gemini-1.5-Pro識(shí)別具有簡(jiǎn)潔答案的可驗(yàn)證問題,獲得100萬(wàn)個(gè)候選問題。再通過(guò)Gemini-2.0-Flash進(jìn)行元數(shù)據(jù)標(biāo)注,并適當(dāng)減少簡(jiǎn)單的數(shù)學(xué)問題以保持?jǐn)?shù)據(jù)平衡。

進(jìn)一步質(zhì)量篩選時(shí),研究人員使用Gemini-2.0-Flash生成8個(gè)候選答案:

  • 剔除所有8個(gè)候選答案均錯(cuò)誤的問題(模糊或噪聲);
  • 剔除所有8個(gè)候選答案均正確的問題(過(guò)于簡(jiǎn)單)。

最終的高質(zhì)量示例用于訓(xùn)練此框架的模型驗(yàn)證器。

生成的數(shù)據(jù)集涵蓋約23萬(wàn)道具有不同答案格式和主題的推理問題。

圖片

上圖為WebInstruct-Verified數(shù)據(jù)生成過(guò)程以及最終答案種類和學(xué)科種類的分布

生成式答案驗(yàn)證器(General-Verifier)

以僅有1.5B參數(shù)的小型生成式模型,取代傳統(tǒng)規(guī)則式驗(yàn)證,大幅提高了不同領(lǐng)域答案的驗(yàn)證準(zhǔn)確率。

傳統(tǒng)的規(guī)則式驗(yàn)證器通常依賴嚴(yán)格匹配或符號(hào)比較進(jìn)行答案判定,雖然適合數(shù)學(xué)任務(wù),但在更廣泛的推理領(lǐng)域存在明顯不足,如匹配規(guī)則僵化缺乏語(yǔ)義理解難以適應(yīng)復(fù)雜領(lǐng)域

為克服這些局限,研究人員開發(fā)了一個(gè)緊湊的生成式模型驗(yàn)證器(General-Verifier)。此模型以僅1.5B參數(shù),通過(guò)團(tuán)隊(duì)自建的數(shù)據(jù)集從Qwen2.5-Math-1.5B模型微調(diào)而成。

General-Verifier接收問題、標(biāo)準(zhǔn)答案和模型生成的答案后,生成一個(gè)推理過(guò)程,隨后輸出一個(gè)二元(對(duì)/錯(cuò))判定結(jié)果,為強(qiáng)化學(xué)習(xí)提供準(zhǔn)確且可解釋的反饋信號(hào)。

實(shí)測(cè)顯示,這種新型驗(yàn)證器與Gemini-2.0-Flash高度一致,并顯著超越傳統(tǒng)規(guī)則式方法,具有更高的魯棒性與泛化能力。

圖片

△傳統(tǒng)規(guī)則式答案驗(yàn)證與生成式模型驗(yàn)證的比較

性能實(shí)測(cè)

團(tuán)隊(duì)以Qwen2.5/Qwen3系列模型(4B/7B/14B)為基礎(chǔ),進(jìn)行了包括MMLU-Pro、GPQA、SuperGPQA、TheoremQA等12個(gè)基準(zhǔn)測(cè)試,結(jié)果表明:

  • 在跨領(lǐng)域任務(wù)中,General-Reasoner相比基礎(chǔ)模型提升約10%。例如,基于Qwen2.5-7B-Base的General-Reasoner在MMLU-Pro的準(zhǔn)確率達(dá)到58.9%,高于基礎(chǔ)模型(47.7%)和指令模型(57.0%);
  • 在數(shù)學(xué)推理任務(wù)中,表現(xiàn)略優(yōu)于專業(yè)的數(shù)學(xué)強(qiáng)化學(xué)習(xí)框架SimpleRL;
  • 最優(yōu)模型General-Reasoner-Qw3-14B在多個(gè)基準(zhǔn)測(cè)試中可匹敵甚至超越GPT-4o。例如,General-Reasoner-Qwen3-14B在GPQA任務(wù)中的準(zhǔn)確率達(dá)56.1%,在TheoremQA任務(wù)中達(dá)54.4%,均超越GPT-4o

圖片

上表為General-Reasoner與基準(zhǔn)方法在MMLU-Pro,GPQA,SuperGPQA,TheoremQA和BBEH測(cè)試集上的詳細(xì)比較。

未來(lái)展望

研究團(tuán)隊(duì)表示,將繼續(xù)優(yōu)化模型性能,擴(kuò)展更多領(lǐng)域的高質(zhì)量推理數(shù)據(jù),并持續(xù)提升驗(yàn)證器魯棒性,推動(dòng)大語(yǔ)言模型在更復(fù)雜現(xiàn)實(shí)任務(wù)中的廣泛應(yīng)用。

相關(guān)論文與項(xiàng)目資源已公開發(fā)布,感興趣的讀者可進(jìn)一步探索。

論文鏈接:https://arxiv.org/abs/2505.14652

資源鏈接:https://tiger-ai-lab.github.io/General-Reasoner/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-06-27 12:45:30

2024-06-28 18:13:05

2024-08-15 15:45:00

AI訓(xùn)練

2024-05-20 08:20:00

OpenAI模型

2025-03-12 10:38:05

2025-04-03 09:34:36

2025-05-26 08:33:00

2024-06-12 11:50:23

2025-06-06 14:17:11

模型訓(xùn)練AI

2024-11-12 14:00:00

AI編程

2025-01-02 11:01:45

2025-02-18 12:30:00

2024-09-29 13:07:16

2025-05-15 09:10:00

2024-09-06 13:00:29

2024-11-22 14:10:00

AI智能體

2024-08-30 14:35:00

2025-01-16 09:00:00

2024-09-03 14:30:00

機(jī)器人模型

2024-05-21 12:23:17

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 91在线影院 | 一区二区在线免费观看 | 亚洲免费在线观看av | 国产免费观看视频 | 久久久久久国产精品 | 欧美精品福利 | 国产精品一区二区福利视频 | 91久久国产综合久久 | 午夜伦理影院 | 毛片99| 日韩一区在线播放 | 欧美日韩一区二区在线 | 久久久久久久久久久久久久av | 精品在线 | 嫩草懂你的影院入口 | 做a的各种视频 | 涩涩99 | 久久成人国产 | 九九热在线视频观看这里只有精品 | 精品熟人一区二区三区四区 | 亚洲视频精品 | 亚洲国产第一页 | 一级免费a | 黄色电影在线免费观看 | 欧美 视频| 精品99在线 | 国产精品免费一区二区 | 欧美黑人国产人伦爽爽爽 | 国产91综合| 蜜桃在线视频 | 黄色免费网站在线看 | 日本午夜精品 | 日韩欧美在线播放 | 成人免费视频 | 免费福利视频一区二区三区 | 日韩在线欧美 | 国产免费让你躁在线视频 | 草比网站 | 国产一区二区 | 一区二区三区在线播放 | 91新视频 |