成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

等不來OpenAI的Q*,華為諾亞探索LLM推理的秘密武器MindStar先來了

人工智能 新聞
本文介紹了 MindStar(M*),一種新穎的基于搜索的推理框架,用于增強預訓練大型語言模型的推理能力。通過將推理任務視為搜索問題并利用過程監督的獎勵模型,M* 在推理樹空間中有效導航,識別近似最優路徑。

本論文作者來自華為蒙特利爾諾亞方舟實驗室的康計堃,李信擇,陳熙, Amirreza Kazemi,陳博興。

人工智能(AI)在過去十年里取得了長足進步,特別是在自然語言處理和計算機視覺領域。然而,如何提升 AI 的認知能力和推理能力,仍然是一個巨大的挑戰。

近期,一篇題為《MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time》的論文提出了基于樹搜索的推理時間能力提升方法 MindStar [1],該方法在開源模型 Llama-13-B 與 Mistral-7B 上達到了近似閉源大模型 GPT-3.5 與 Grok-1 在數學問題上的推理能力。

圖片

  • 論文標題:MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time
  • 論文地址:https://arxiv.org/abs/2405.16265v2

MindStar 在數學問題上的應用效果:

圖片

圖 1 :不同大型語言模型的數學準確率。LLaMA-2-13B 在數學性能上與 GPT-3.5 (4-shot) 類似,但節省了大約 200 倍的計算資源。

1. 引言

隨著模型規模的快速增長,基于 Transformer 的大型語言模型(LLMs)在指令遵循 [1,2]、編碼輔助 [3,4] 和創意寫作 [5] 等領域展示了令人印象深刻的成果。然而,解鎖 LLMs 解決復雜推理任務的能力仍然是一大挑戰。最近的一些研究 [6,7] 嘗試通過監督微調(Supervised Fine-Tuning, SFT)來解決,通過將新的推理數據樣本與原始數據集混合,使 LLMs 學習這些樣本的底層分布,并嘗試模仿所學邏輯來解決未見過的推理任務。盡管這種方法有性能提升,但它嚴重依賴于大量的訓練和額外的數據準備 [8,9]。

Llama-3 報告 [10] 強調了一個重要的觀察:當面對一個具有挑戰性的推理問題時,模型有時會生成正確的推理軌跡。這表明模型知道如何產生正確答案,但在選擇上存在困難。基于這一發現,我們提出了一個簡單的問題:我們能否通過幫助 LLMs 選擇正確的輸出來增強它們的推理能力?為探索這一點,我們進行了一項實驗,利用不同的獎勵模型進行 LLMs 輸出選擇。實驗結果表明,步驟級選擇顯著優于傳統的 CoT 方法。

2. MindStar 方法

圖片

圖 2 MindStar 的算法架構圖

我們引入了一種新的推理搜索框架 ——MindStar(M*),通過將推理任務視為搜索問題,并利用過程監督的獎勵模型(Process-supervised Reward Model, PRM),M * 在推理樹空間中有效導航,識別近似最優路徑。結合束搜索(Beam Search, BS)和 Levin 樹搜索(Levin Tree Search, LevinTS)的思想,進一步增強了搜索效率,并保證在有限計算復雜度內找到最佳推理路徑。

2.1 過程監督獎勵模型

過程監督獎勵模型 (PRM) 的設計目的是評估大語言模型 (LLM) 生成的中間步驟,以幫助選擇正確的推理路徑。這種方法借鑒了其他應用中 PRM 的成功經驗。具體而言,PRM 以當前推理路徑圖片和潛在的下一步圖片作為輸入,并返回獎勵值圖片

PRM 通過考慮整個當前推理軌跡來評估新步驟,鼓勵與整體路徑的一致性和忠實性。高獎勵值表明,新的步驟圖片)對于給定的推理路徑圖片可能是正確的,從而使擴展路徑值得進一步探索。相反,低獎勵值則表示新步驟可能不正確,這意味著遵循此路徑的解決方案也可能不正確。

M* 算法包含兩個主要步驟,迭代直到找到正確的解決方案:

1. 推理路徑擴展:在每次迭代中,基礎 LLM 生成當前推理路徑的下一步。

2. 評估和選擇:使用 PRM 評估生成的步驟,并根據這些評估選擇下一次迭代的推理路徑。

2.2 推理路徑擴展

圖片

在選擇要擴展的推理路徑圖片后,我們設計了一個提示模板(Example 3.1),以從 LLM 中收集下一步。正如示例所示,LLM 將原始問題作為 {question},將當前推理路徑作為 {answer}。注意,在算法的第一次迭代中,所選擇的節點是僅包含問題的根節點,因此 {answer} 為空。對于推理路徑圖片,LLM 生成 N 個中間步驟,并將它們作為當前節點的子節點附加。在算法的下一步中,將評估這些新生成的子節點,并選擇一個新的節點進行進一步擴展。我們還意識到,生成步驟的另一種方法是使用步驟標記對 LLM 進行微調。然而,這可能會降低 LLM 的推理能力,更重要的是,這與本文的重點 —— 在不修改權重的情況下增強 LLM 推理能力相悖。

2.3 推理路徑選擇

在擴展推理樹后,我們使用預訓練的過程監督獎勵模型(PRM)來評估每個新生成的步驟。正如前面提到的,PRM 采用路徑和步驟 ,并返回相應的獎勵值。在評估之后,我們需要一種樹搜索算法來選擇下一個要擴展的節點。我們的框架不依賴于特定的搜索算法,在這項工作中,我們實例化了兩種最佳優先搜索方法,即 Beam Search 和 Levin Tree Search。

3. 結果與討論

在 GSM8K 和 MATH 數據集上的廣泛評估顯示,M * 顯著提升了開源模型(如 LLaMA-2)的推理能力,其表現可與更大規模的閉源模型(如 GPT-3.5 和 Grok-1)媲美,同時大幅減少了模型規模和計算成本。這些發現突顯了將計算資源從微調轉移到推理時間搜索的潛力,為未來高效推理增強技術的研究開辟了新途徑。

圖片

表 1 展示了各種方案在 GSM8K 和 MATH 推理基準上的對比結果。每個條目的數字表示問題解決的百分比。符號 SC@32 表示在 32 個候選結果中的自一致性,而 n-shot 表示少樣本例子的結果。CoT-SC@16 指的是在 16 個思維鏈(CoT)候選結果中的自一致性。BS@16 代表束搜索方法,即在每個步驟級別涉及 16 個候選結果,而 LevinTS@16 詳細說明了使用相同數量候選結果的 Levin 樹搜索方法。值得注意的是,MATH 數據集上 GPT-4 的最新結果為 GPT-4-turbo-0409,我們特別強調這一點,因為它代表了 GPT-4 家族中的最佳性能。

圖片

圖 3 我們研究了 M * 性能如何隨著步驟級別候選數量的變化而變化。我們選擇 Llama-2-13B 作為基礎模型,并分別選擇束搜索(BS)作為搜索算法。

圖片

圖 4 Llama-2 和 Llama-3 模型家族在 MATH 數據集上的尺度定律。所有結果均來自它們的原始資源。我們使用 Scipy 工具和對數函數來計算擬合曲線。

圖片

表 2 不同方法在回答問題時的平均 token 生產數量

4. 結論

本文介紹了 MindStar(M*),一種新穎的基于搜索的推理框架,用于增強預訓練大型語言模型的推理能力。通過將推理任務視為搜索問題并利用過程監督的獎勵模型,M* 在推理樹空間中有效導航,識別近似最優路徑。結合束搜索和 Levin 樹搜索的思想,進一步增強了搜索效率,并保證在有限計算復雜度內找到最佳推理路徑。廣泛的實驗結果表明,M* 顯著提升了開源模型的推理能力,其表現可與更大規模的閉源模型媲美,同時大幅減少了模型規模和計算成本。

這些研究成果表明,將計算資源從微調轉移到推理時間搜索具有巨大的潛力,為未來高效推理增強技術的研究開辟了新途徑。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2013-10-16 09:28:14

亞馬遜AWSSDN

2024-04-08 08:03:00

ChatGPTOpenAI大語言模型

2013-10-16 09:33:36

亞馬遜AWSSDN

2015-03-30 16:58:05

秘密武器華為

2011-08-11 17:05:26

2014-01-07 10:46:39

2024-07-15 08:40:00

2022-02-11 10:47:17

CIOIT團隊企業

2009-07-28 10:36:58

云計算Google秘密武器

2019-11-27 10:38:37

數據分析數據準備工具

2025-05-14 00:01:10

RxJS異步編程響應式

2021-04-27 10:36:59

計算

2023-05-08 14:54:00

AI任務HuggingGPT

2019-11-27 10:40:34

數據工具CIO

2024-07-11 08:34:48

2025-05-27 10:00:00

Python數據類代碼

2025-06-12 08:00:00

Pythondataclass代碼

2019-02-27 09:44:01

CIO秘密武器顧問

2025-01-06 23:33:04

2011-06-02 10:24:11

iTravel蘋果
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久极品 | 亚洲高清视频在线观看 | www.五月天婷婷.com | 日韩视频一区在线观看 | 国产黄视频在线播放 | 日韩av成人在线 | 亚洲一区二区三区四区五区中文 | 国产精品久久久亚洲 | 精品一区二区三区在线视频 | 亚洲精品电影在线观看 | 免费观看一级黄色录像 | 亚洲视频在线播放 | 日韩欧美在 | www..99re| 中文字幕免费视频 | 成人精品国产免费网站 | 妖精视频一区二区三区 | 欧美一级片在线 | 狠狠色狠狠色综合日日92 | 国产精品永久免费视频 | 亚洲精品日韩一区二区电影 | 亚洲欧美在线观看 | 国产精品亚洲一区 | 波多野结衣一二三区 | 亚州精品天堂中文字幕 | 老熟女毛片 | 亚洲国产一区二区三区 | 日韩伦理电影免费在线观看 | 天天天操操操 | 黄色国产区| 欧美 日韩 在线播放 | 综合久久av | 久久综合伊人一区二区三 | 国产日韩欧美一区 | 国产日韩一区二区三免费高清 | 久久久久久久久久久爱 | 黄色片网此 | 精品视频一区二区三区在线观看 | 中文字幕一区二区三区在线乱码 | 亚洲精品一区二区三区中文字幕 | 激情小视频 |