成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<rt id="seugo"><acronym id="seugo"></acronym></rt>

<button id="seugo"></button>

<abbr id="seugo"><source id="seugo"></source></abbr>

<rt id="seugo"></rt>

<bdo id="seugo"></bdo>

<button id="seugo"><source id="seugo"></source></button>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

LLM可以在沒有采用強化學習或大型數據集的情況下學習推理嗎？原創

51CTO內容精選

發布于 2025-5-30 10:47

瀏覽

0收藏

針對提升LLM推理能力面臨的挑戰，斯坦福大學研究人員提出了“思考、修剪、訓練”（TPT）框架，讓LLM利用自生成且驗證正確的數據迭代優化。研究表明，無需強化學習、大型數據集或外部教師模型，TPT可以使較小模型推理性能媲美甚至超越大模型，凸顯了TPT框架在提升模型推理能力和準確性的潛力。

目前，缺乏高質量的訓練數據仍然是提高大型語言模型（LLM）推理能力的主要障礙之一。

斯坦福大學研究人員最近進行的一項研究探索了一個頗具吸引力的替代方案：LLM能否通過學習自己生成的推理痕跡來提高推理能力？他們提出了“??思考、修剪、訓練??”（TPT）框架，允許LLM使用精心選擇的自生成數據迭代地改進它們的推理能力。?

這種方法可能是朝著創造更智能、更高效的人工智能模型邁出的一步，而不是簡單地構建更大的模型和數據集。

提升人工智能推理能力面臨的挑戰

在LLM進行初始訓練之后，提升其推理能力目前主要有兩種策略。一種方法是“監督微調”（SFT），即LLM從精心整理的問題數據集及其逐步解決方案中學習。另一種流行的方法是“蒸餾”，即一個規模較小的LLM通過模仿一個能力更強、規模更大的“教師”模型的輸出進行學習。?

而這兩種方法都有局限性。SFT需要大量高質量的推理示例數據集，創建這些數據集通常成本昂貴又耗時。另一方面，“蒸餾”完全依賴于獲得強大的、通常是專有的“教師”模型。

這就提出了一個令人信服的問題：LLM能否通過對自己生成的數據進行遞歸微調來改進？早期的嘗試面臨著一個被稱為“模式崩潰”（Mode Collapse）的重大障礙。當LLM在未經過濾的輸出上迭代訓練時，它們的性能往往會隨著時間的推移而下降，可能會開始產生幻覺，忘記以前學到的知識，并生成質量較低的文本，從而陷入惡性循環。

在迭代訓練中，一個相關但不同的風險是“模式崩潰”。當一個模型開始收斂于一組狹窄的高概率輸出時，就會發生這種情況，其響應變得不那么多樣化和具有探索性。雖然之前關于模式崩潰的研究主要集中于沒有明確正確或錯誤答案的一般文本生成上，但對于可以驗證正確性的推理任務進行遞歸微調，則帶來了模式崩潰的可能性，即模型局限于非常具體的答案，失去了探索替代推理路徑的能力。

思考、修剪、訓練（TPT）框架

斯坦福大學研究人員希望探究，在不采用其他方法帶來的復雜性的情況下，模型推理能力的自我提升是否可行。盡管此前許多研究將自我提升視為強化學習（RL）問題，但TPT采取了更為直接的路徑。?

它采用標準的SFT，但有一個關鍵轉折：模型僅在經過驗證的正確推理嘗試中進行微調。研究人員探索了是否可以通過仔細選擇這種自生成的數據來實現有效的迭代細化。

以下是思考、修剪、訓練（TPT）框架的工作原理：

·思考（Think）：提示當前版本的模型為一組問題生成逐步解決方案（推理痕跡或“思維鏈”）。?

·修剪（Prune）：這是一種過濾解決方案，通過檢查已知的基本事實答案，只保留那些明顯正確的解決方案。這種基于正確性的修剪是避免早期遞歸訓練嘗試中出現的模式崩潰的關鍵。

·訓練（Train）：使用SFT在其自身經過驗證的正確推理軌跡集上對模型進行微調。

然后重復這個循環，新改進的模型為下一輪TPT生成數據。

LLM可以在沒有采用強化學習或大型數據集的情況下學習推理嗎？-AI.x社區

圖1 思考、修剪、訓練（TPT）框架的工作原理

至關重要的是，與DeepSeek-R1或LLaMA 3.1的后訓練（Post-training）等模型中使用的基于強化學習（RL）的方法不同，TPT只關注這種遞歸的、基于正確性的SFT。它表明，不需要強化學習、學習獎勵函數或外部“教師”模型，而是依靠結構化提示和基礎事實驗證，就可以實現自我完善。?

為了嚴格測試這些改進是否來自真正的自我完善，而不僅僅是接觸更多的數據，研究人員仔細設計了實驗。在每一輪TPT中，他們保持訓練數據集大小不變，每個問題只使用一個唯一的正確解決方案。

此外，他們并沒有在各輪TPT流程中積累數據，而是采用最新模型版本中新生成的解決方案取代了訓練集。這確保了任何性能提升都真正歸功于迭代改進過程。

正如斯坦福大學研究人員在論文所指出的那樣，“研究表明，在嚴格的數據約束下，迭代微調可以帶來有意義的收益，這表明模型改進不僅僅是數據集的擴展?！?/p>

讓更小的模型發揮更大的作用

研究人員在谷歌公司的Gemma模型（gemma2-2b-it, gemma2-9b-it）和Meta公司的Llama模型（Llama-3.1-1B-Instruct, Llama-3.1-70B-Instruc）的指令調優版本上測試了TPT，主要在GSM8K數學單詞問題基準和CodeContests編程挑戰數據集上對它們進行了評估。

其結果令人矚目。通過TPT流程，相對較小的模型實現了與更大的模型相當甚至更優的推理性能。例如，在GSM8K上，Gemma2-2B模型的準確率（Pass@1，意味著首次嘗試就獲得正確結果）從41.9%躍升至57.6%。Gemma2-9B模型超過了規模更大的LLaMA-3.1-70B-Instruct的基準性能。相應地，使用TPT的LLaMA-3.1-70B將Pass@1分數從78.6%提升至91.5%，甚至超過了當時GPT-4o在該基準上的報告得分。

有趣的是，這些模型性能提升的速度各不相同。規模較小的Gemma-2-2B模型的性能需要四輪TPT才能達到峰值，而中等規模的Gemma-2-9B模型在三輪TPT內提升更快。大型LLaMA-70B模型的性能僅在一輪TPT之后就得到顯著提升，這表明較大模型可能更快地整合了自生成推理的學習內容。

LLM可以在沒有采用強化學習或大型數據集的情況下學習推理嗎？-AI.x社區

圖2 Gemma2-2B模型和Gemma2-9B模型在四輪TPT中的性能表現

研究人員還研究了模式崩潰的可能性。雖然模型在第一次嘗試（Pass@1）時的準確性不斷提高，但它們在多次嘗試（通過Pass@20或Pass@50測量）中生成多種正確答案的能力在第一輪TPT之后趨于平穩。這表明，TPT流程確實引導這些模型優先考慮高可信度、正確的解決方案，而不是探索不同的推理路徑。然而，研究人員認為，這并不一定對數學和編程等任務有害，在這些任務中，正確性和效率往往是最重要的。通過將模型集中在經過驗證的推理上，TPT甚至可以幫助減少幻覺，并提高對準確性敏感的應用程序的可靠性。

“思考、修剪、訓練”（TPT）框架有力地論證了大型語言模型（LLM）能夠進行自我訓練成為更優秀的推理者。正如研究人員在論文中所寫的那樣，“結構化推理提示、基于正確性的修剪，以及對經過驗證的解決方案的監督微調，可以在沒有外部監督的情況下實現推理能力的自我提升，凸顯了簡化框架在LLM推理和準確性方面進一步發展的潛力。”

原文標題：??Can LLMs learn to reason without RL or large datasets???，作者：Ben Dickson

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

大型語言模型

已于2025-5-30 11:11:00修改

贊

收藏

回復

舉報

熱門內容榜 ? 最近上榜

回復

相關推薦

Nature：最大擴散強化學習

ceesoft ? 4042瀏覽 ? 0回復
Transformers學習上下文強化學習的時間差分方法

AIGC最前線 ? 2671瀏覽 ? 0回復
機器學習有哪些類型？監督學習、無監督學習、強化學習、深度學習等等！

parson2000 ? 3956瀏覽 ? 0回復
機器學習有哪些類型？監督學習、無監督學習、強化學習、深度學習等等

parson2000 ? 4636瀏覽 ? 0回復
從具身智能再談強化學習，為什么需要強化學習，以及強化學習的應用場景

AI探索時代 ? 3251瀏覽 ? 0回復
入口控制：多智能體強化學習在自動駕駛中的應用研究

xuxiangda ? 3798瀏覽 ? 0回復
為啥強化學習開始成為了大語言模型（LLM）的新寵？

智駐未來 ? 2891瀏覽 ? 0回復
基于多模態深度強化學習的投資組合優化

靈度智能 ? 3229瀏覽 ? 0回復
基于深度強化學習的投資組合配置動態優化

靈度智能 ? 3863瀏覽 ? 0回復
DeepSeek-R1：通過強化學習激發大語言模型的推理潛能

柏企閱文 ? 4617瀏覽 ? 0回復
強化學習與大模型后訓練：DeepSeek R1 如何獲得推理能力？

lintoms ? 4790瀏覽 ? 0回復
強化學習與軟件工程：開源軟件獎勵演化的強化學習

AI研究前瞻 ? 2071瀏覽 ? 0回復
Logic-RL：基于規則強化學習的推理釋放

頓數AI ? 2225瀏覽 ? 0回復
Search-R1：強化學習增強大語言模型推理+搜索能力

十一月雨_55 ? 2434瀏覽 ? 0回復
強化學習強在哪里？基礎探索

柏企閱文 ? 1546瀏覽 ? 0回復
ReSearch: 突破性強化學習框架實現大模型推理搜索能力無縫整合

頓數AI ? 5264瀏覽 ? 0回復
Fin-R1：通過強化學習實現金融推理的大語言模型

AIRoobt ? 1729瀏覽 ? 0回復
清華大學 | 強化學習是否激勵LLM中超越基本模型的推理能力？

柏企閱文 ? 1024瀏覽 ? 0回復
跨領域強化學習樣本數據集；符號表達的分層推理基準

AI研究前瞻 ? 375瀏覽 ? 0回復

51CTO內容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： AlphaEvolve: 谷歌DeepMind邁向通用人工智能（AGI）的突破性一步

下一篇：機器學習輕量化加速的五大核心技術突破?

社區精華內容

目錄

主站蜘蛛池模板：国产乱码精品一区二区三区中文 | 一二区视频 | 日韩小视频在线 | 91精品国产综合久久婷婷香蕉 | 成人av在线播放 | 免费观看a级毛片在线播放黄网站免费入口 | 在线观看免费黄色片 | 看av片网站 | 天天色综| 日韩精品一区二区三区久久 | 奇米久久| 久久9久| 国产精品欧美一区二区三区 | aaa精品 | 国产成人一区二 | 欧美一区二区三区视频 | 欧美精品一区二区三区在线 | 成人午夜视频在线观看 | 欧美成ee人免费视频 | 99久久久久久99国产精品免 | 亚洲三区在线观看 | 亚洲日日操 | 草草影院ccyy | 干狠狠 | 亚洲一区不卡在线 | 久久久久久久国产 | www.日本在线观看 | 99久久精品国产一区二区三区 | 亚洲成人免费网址 | 久久久精品日本 | 99久久免费精品国产免费高清 | 91婷婷韩国欧美一区二区 | www国产亚洲精品久久网站 | jizz在线免费观看 | 女人毛片a毛片久久人人 | 久久精品99 | 欧美久久国产 | 精品日韩一区 | 国内精品久久久久久久影视简单 | 欧美毛片免费观看 | 日韩av一区二区在线观看 |

<rt id="wasog"><tr id="wasog"></tr></rt>

<nav id="wasog"><dl id="wasog"></dl></nav>

<code id="wasog"></code>