成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟開源的大模型太強了,數學推理超ChatGPT,論文、模型權重全部公開

人工智能 新聞
有了這項研究,大模型的數學能力更強了,該研究提出了一種名為 Reinforced Evol-Instruct 方法。

上周,微軟與中國科學院聯合發布的 WizardMath 大模型火了。

該模型有 70B、13B、7B 三個參數規模,研究者在兩個數學推理基準 GSM8k 和 MATH 上的測試表明,WizardMath 優于所有其他開源 LLM,達到 SOTA。

在 GSM8K 上,WizardMath-70B-V1.0 模型的性能略優于一些閉源 LLM,包括 ChatGPT 3.5、Claude Instant 1 和 PaLM 2 540B。

WizardMath-70B-V1.0 模型在 GSM8k 基準測試中達到 81.6 pass@1,比 SOTA 開源 LLM 高出 24.8 分。

WizardMath-70B-V1.0 模型在 MATH 基準測試中達到 22.7 pass@1,比 SOTA 開源 LLM 高出 9.2 分。

圖片

其中,GSM8k 數據集包含大約 7500 個訓練數據和 1319 個測試數據,主要是小學水平的數學問題,每個數據集都包含基本算術運算(加、減、乘、除),一般需要 2 到 8 步來解決。MATH 數據集來自 AMC 10、AMC 12 和 AIME 等著名數學競賽當中的數學問題,包含 7500 個訓練數據和 5000 個具有挑戰性的測試數據:初等代數、代數、數論、幾何、微積分等。

下圖顯示,WizardMath 在 GSM8k 基準測試中獲得第五名,超過了 Claude Instant 1(81.6 vs. 80.9)、ChatGPT(81.6 vs. 80.8)和 PaLM 2 540B(81.6 vs. 80.7)。值得注意的是,與這些模型相比,WizardMath 模型的尺寸要小得多。

圖片

HuggingFace 已上線 3 個版本(分別為 7B、13B 和 70B 參數)。現在,相關論文已經公布了。

圖片

  • 論文地址:https://github.com/nlpxucan/WizardLM
  • 項目地址:https://github.com/victorsungo/WizardLM/tree/main/WizardMath
  • 模型權重:https://huggingface.co/WizardLM/WizardMath-70B-V1.0

方法介紹

該研究提出了一種名為 Reinforced Evol-Instruct 方法,如圖 1 所示,其包含 3 個步驟:1、監督微調。2、訓練指令獎勵模型以及過程監督獎勵模型。3、Active Evol-Instruct 和 PPO 訓練。

圖片

監督微調:繼 InstructGPT 之后,該研究還使用了監督指令 - 響應對進行微調,其中包含:


  • 為了使每個步驟的解析都更加容易,該研究使用 Alpha 版本的 WizardLM 70B(微調的 LLaMA 模型)模型對 GSM8k 和 MATH 重新生成了 15k 個答案,以 step-by-step 方式生成解決方案,然后找出正確答案,并使用這些數據對基礎 Llama 模型進行微調。
  • 該研究還從 WizardLM 的訓練數據中采樣了 1.5k 個開放域對話,然后將其與上述數學語料庫合并作為最終的 SFT ( supervised fine-tuning )訓練數據。

Evol-Instruct 原則:受 WiazrdLM 提出的 Evol-Instruct 方法及其在 WizardCoder 上有效應用的啟發,該研究試圖制作具有各種復雜性和多樣性的數學指令,以增強預訓練 LLM。具體來說:

  • 向下進化:首先是增強指令,通過使問題變得更加容易來實現。例如,i):將高難度問題轉化為較低難度,或 ii) 用另一個不同主題制作一個新的更簡單的問題。 
  • 向上進化:源自原始的 Evol-Instruct 方法,通過 i)添加更多約束,ii)具體化,iii)增加推理來深化并產生新的更難的問題。

Reinforced Evol-Instruct :受 InstructGPT 和 PRMs 的啟發,該研究訓練了兩個獎勵模型,分別用來預測指令的質量和答案中每一步的正確性。

實驗及結果

該研究主要在 GSM8k 和 MATH 這兩個常見的數學基準上測試了模型的性能,并使用大量基線模型,包括閉源模型:OpenAI 的 GPT-3、GPT-3.5、ChatGPT、GPT-4,谷歌的 PaLM 2、PaLM、 Minerva,Anthropic 的 Claude Instant、Claude 1.3、Claude 2, DeepMind 的 Chinchilla;開源模型:Llama 1、Llama 2、GAL、GPT-J、GPT-Neo、Vicuna、MPT、Falcon、Baichuan、ChatGLM、Qwen 和 RFT。

圖片

與閉源模型的比較。在表 1 中,WizardMath 70B 稍微優于 GSM8k 上的一些閉源 LLM,包括 ChatGPT、Claude Instant 和 PaLM 2 540B。

如圖 2 所示(見上文),WizardMath 目前在所有模型上排名前五。同時,WizardMath 70B 在 MATH 上也超越了 Text-davinci-002。詳細結果如下:

WizardMath 13B 在 GSM8k 上優于 PaLM 1 540B(63.9 vs 56.5)、Minerva 540B(63.9 vs 58.8)和 GPT-3.5(63.9 vs 57.1)。同時,它在 MATH 上超越了 PaLM 1 540B(14.0 vs. 8.8)、GPT-3 175B(14.0 vs. 5.2)。

WizardMath 70B 在 GSM8k 上實現了與 Claude Instant(81.6 vs 80.9)、ChatGPT(81.6 vs 80.8)和 PaLM 2(81.6 vs 80.7)更好或相當的性能。同時,WizardMath 70B 在 MATH 基準測試中也超過了 Text-davinci-002(22.7 比 19.1)。

與開源模型的比較。表 1 中所示的結果表明,WizardMath 70B 在 GSM8k 和 MATH 基準測試中明顯優于所有開源模型。詳細結果如下:

WizardMath 7B 超越了大多數開源模型,這些模型的參數數量約為 7B 到 40B 不等,包括 MPT、Falcon、Baichuan-chat、Vicuna v1.3、ChatGLM 2、Qwen、Llama 1 和 Llama 2 。盡管它的參數數量要少得多。

 WizardMath 13B 在 GSM8k 上明顯優于 Llama 1 65B(63.9 vs. 50.9)和 Llama 2 70B(63.9 vs. 56.8)。此外,它在 MATH 上的表現遠遠優于 Llama 1 65B(14.0 vs. 10.6)和 Llama 2 70B(14.0 vs. 13.5)。 

WizardMath 70B 在 GSM8k 上超越了 Llama 2 70B(81.6 比 56.8),提升達到 24.8%。同時,它在數學方面也比 Llama 2 70B(22.7 比 13.5)高出 9.2%。

表 2 顯示了 WizardMath 70B 模型在 MATH Subtopics上的結果。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-14 13:29:37

2023-10-11 12:32:53

AI模型

2025-04-30 16:48:07

2025-06-16 14:41:07

模型開源AI

2018-12-06 10:07:49

微軟機器學習開源

2024-04-25 09:25:33

2021-03-04 09:31:42

開源技術 項目

2023-06-06 14:09:32

模型開源

2025-02-08 17:00:11

2025-01-22 14:02:35

2025-05-30 09:17:00

2025-05-27 01:27:00

LLM大模型數學推理

2025-01-15 10:28:21

2024-02-01 12:43:00

模型訓練

2024-10-21 16:41:17

2025-05-08 16:45:32

開源Phi-4推理模型

2023-04-03 09:56:22

模型系統

2023-12-27 14:06:00

模型訓練

2025-06-18 09:06:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产一区二区在线免费观看 | 欧美日韩高清一区 | av中文字幕在线播放 | 国产精品1 | 欧美激情视频一区二区三区免费 | 国产精品久久久久久久久久免费看 | 91福利网址| 成人av鲁丝片一区二区小说 | 一区在线视频 | 精品国产一区二区三区免费 | 精品99久久久久久 | 国产成人高清视频 | 免费网站国产 | 国产精品区一区二 | 人人澡视频 | 久久精品国产久精国产 | 国产亚洲欧美另类一区二区三区 | 国产乱精品一区二区三区 | 免费一级欧美在线观看视频 | 久久aⅴ乱码一区二区三区 亚洲国产成人精品久久久国产成人一区 | 国产精品成人在线 | 亚洲永久免费 | 在线免费av观看 | 成人精品视频在线观看 | 日韩中文字幕在线观看 | 欧美精品久久 | 一色桃子av一区二区 | 极品粉嫩国产48尤物在线播放 | 都市激情亚洲 | 亚洲一二三在线观看 | 成人在线视频一区 | 一区二区三区视频免费看 | 99精品一级欧美片免费播放 | 一区在线观看 | 日韩中文字幕免费在线 | 色婷婷av777 av免费网站在线 | 成人福利在线 | 久久久久亚洲 | 成人午夜精品 | h片在线观看网站 | 日韩午夜|