成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<video id="ldbis"></video>

<s id="ldbis"></s>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

讓模型像人一樣思考

發(fā)布于 2025-2-13 12:10

瀏覽

0收藏

一、背景

2024年9月OpenAI發(fā)布的o1-preview模型展現(xiàn)出了在解決復(fù)雜問題上的強大邏輯思維能力。相比之前傳統(tǒng)的Chat類模型，o1類模型在解決問題時會構(gòu)建出長序列的思維鏈chain-of-thought（CoT）進行推理，通過問題拆解、中間步驟驗證、思維探索等方法，最終找到問題的正確解答方法。OpenAI對o1模型的介紹中也著重強調(diào)了CoT的重要性【1】。

類似于人類在回答一個困難問題時可能會思考很長時間，o1 在解決問題時也采用了鏈?zhǔn)剿季S。通過強化學(xué)習(xí)，o1 學(xué)會了優(yōu)化自己的思維鏈條并改進使用的策略。它學(xué)會了識別和糾正自己的錯誤，學(xué)會將復(fù)雜的步驟拆解成更簡單的部分，學(xué)會在當(dāng)前方法無效時嘗試不同的解決方案。這個過程顯著提升了模型的推理能力。

我們分別測試了ChatGPT與OpenAI o1-preview對"strawberry"單詞中字母"r"的數(shù)量的回答，發(fā)現(xiàn)o1-preview不僅給出了正確答案，還展示了它獲取答案的推理過程。

讓模型像人一樣思考-AI.x社區(qū)

o1-preview的出現(xiàn)激起了人工智能領(lǐng)域?qū)Υ竽Ｐ屯评砟芰μ剿鞯睦顺?。至今已?jīng)涌現(xiàn)出了QwQ，DeepSeek等許多性能比肩o1的開源模型。與此同時，研究者們探索出了多種模型思維鏈生成的構(gòu)建方法。本文就目前最主流的有監(jiān)督學(xué)習(xí)SFT + 強化學(xué)習(xí)RL方法進行一些簡單介紹，希望能夠給到讀者一些啟發(fā)。

二、構(gòu)建流程

構(gòu)建模型思維鏈背后的關(guān)鍵技術(shù)，正是強化學(xué)習(xí)。強化學(xué)習(xí)通過獎懲機制，激勵模型進行探索，促進其在任務(wù)執(zhí)行中的持續(xù)優(yōu)化。與傳統(tǒng)的有監(jiān)督微調(diào)方法相比，強化學(xué)習(xí)強調(diào)更多的探索和自我優(yōu)化，能夠幫助模型突破數(shù)據(jù)本身的局限，學(xué)會更多的推理模式和思維方式。下面就SFT和強化學(xué)習(xí)在思維鏈中的應(yīng)用分別進行介紹。

1.有監(jiān)督微調(diào)SFT

有監(jiān)督微調(diào)SFT是一種非常高效的讓模型學(xué)習(xí)“模仿”生成思維鏈來解決問題的訓(xùn)練方法。通過在預(yù)先構(gòu)建好的CoT數(shù)據(jù)中進行teacher learning，SFT可以讓不具備生成長CoT內(nèi)容或者CoT效果比較差的基礎(chǔ)模型性能得到大幅提升。SkyThought通過在數(shù)學(xué)問題中進行研究，作者發(fā)現(xiàn)使用高質(zhì)量CoT數(shù)據(jù)進行SFT，模型就能夠達到比肩o1-preview的效果【2】。

讓模型像人一樣思考-AI.x社區(qū)

然而僅使用CoT數(shù)據(jù)進行SFT會存在幾點問題：

目前CoT的數(shù)據(jù)主要通過API蒸餾高性能o1類模型生成，這些模型本身的CoT生成能力決定了使用生成數(shù)據(jù)SFT后的模型上限。
CoT數(shù)據(jù)的人工標(biāo)注成本昂貴，在SFT的后期，模型性能的提升可能對高質(zhì)量數(shù)據(jù)的需求成指數(shù)級增加。
SFT方式是一種確定性的學(xué)習(xí)方式，目前還沒有研究發(fā)現(xiàn)僅通過SFT能夠讓模型出現(xiàn)超出數(shù)據(jù)范圍的探索能力，這可能會限制模型學(xué)會通用推理能力。

為了解決上面的問題，我們需要借助強化學(xué)習(xí)的力量。目前幾乎所有的研究人員都將SFT作為強化學(xué)習(xí)的前置訓(xùn)練，以此加速強化學(xué)習(xí)的訓(xùn)練。值得一提的是，在最近開源的DeepSeek-R1技術(shù)報告中，作者發(fā)現(xiàn)即使不使用SFT直接在基礎(chǔ)模型上進行強化學(xué)習(xí)訓(xùn)練，模型也能學(xué)會生成思維鏈，而且在訓(xùn)練到一定階段，模型的思維鏈中還會自發(fā)性地涌現(xiàn)出反思這類行為。不過作者也提到，這種直接強化學(xué)習(xí)得到的模型生成的內(nèi)容可讀性會比較差【3】。因此，SFT作為RL的前置訓(xùn)練還是有必要的。

2.強化學(xué)習(xí)訓(xùn)練

強化學(xué)習(xí)RL早已在人工智能領(lǐng)域大量應(yīng)用，無論是之前名噪一時的AlphaGo，還是最近幾年大模型訓(xùn)練中的RLHF，強化學(xué)習(xí)已被證明可以應(yīng)用在進一步提升SFT后的模型性能。在介紹如何應(yīng)用RL提升模型長CoT能力之前，我們先簡單回顧下RL的幾個重要概念。

（1）結(jié)果監(jiān)督法

結(jié)果監(jiān)督方法顧名思義，是指只利用最終的結(jié)果來對整個策略步驟進行優(yōu)化的方法。

數(shù)據(jù)生成：結(jié)果監(jiān)督的數(shù)據(jù)一般可通過人工標(biāo)注或者模型生成獲得。在使用模型生成時，一般會采用拒絕采樣reject sampling的方法。對于數(shù)學(xué)這類有明確答案的問題，我們可以直接比較生成的最終答案和gt是否匹配，不匹配的數(shù)據(jù)直接刪除。對于代碼問題，可以通過執(zhí)行測試樣例的方法剔除錯誤數(shù)據(jù)。

模型訓(xùn)練：結(jié)果獎勵模型ORM一般采用二分類模型，通過標(biāo)注的數(shù)據(jù)來判斷結(jié)果是否正確。所以直接在數(shù)據(jù)上進行有監(jiān)督訓(xùn)練即可。

（2）過程監(jiān)督法

過程監(jiān)督方法是對思維鏈的每步推理都進行評分，因此PRM是一種針對思維鏈訓(xùn)練的改進獎勵模型。相比于結(jié)果監(jiān)督，過程監(jiān)督的獎勵更加稠密，因此訓(xùn)練時穩(wěn)定性和效率會更好。這里我們可以參考OpenAI的比對試驗，相比于結(jié)果監(jiān)督模型ORM，過程監(jiān)督模型PRM在每個問題生成的N個候選答案中找到正確答案的概率更大，并且隨著N的增加，其與ORM之間的差距會進一步拉大【4】。

讓模型像人一樣思考-AI.x社區(qū)

數(shù)據(jù)生成：OpenAI開源的過程監(jiān)督數(shù)據(jù)集PRM800K質(zhì)量比較高，采用的是人工標(biāo)注的方法，只可惜PRM800K數(shù)據(jù)集只有數(shù)學(xué)問題。除了人工標(biāo)注方法外，也可以通過模型生成，感興趣的可以參考Math-Shepherd中的方法【5】。

模型訓(xùn)練：過程獎勵模型本質(zhì)上是一個輸出標(biāo)量分值的模型，不同的研究者會使用不一樣的訓(xùn)練方法，可以參考Math-Shepherd中的方法將整個推理過程輸入，mask掉步驟以外的tokens，這樣可以提高訓(xùn)練效率。最近也發(fā)現(xiàn)一篇清華研究者提出的使用隱式獎勵訓(xùn)練PRM的方法，這種方法可以直接使用ORM數(shù)據(jù)來訓(xùn)練，也很有參考價值【6】。

結(jié)果監(jiān)督和過程監(jiān)督方法對比

	優(yōu)點	缺點
結(jié)果監(jiān)督	標(biāo)注簡單無須進行步驟拆分給模型更大的優(yōu)化自主性	學(xué)習(xí)不穩(wěn)定，容易陷入局部最優(yōu) 訓(xùn)練效率低
過程監(jiān)督	訓(xùn)練穩(wěn)定，高效能引導(dǎo)模型進行步驟級的優(yōu)化	標(biāo)注成本高需要明確的步驟拆分方法

強化學(xué)習(xí)訓(xùn)練

無論是使用結(jié)果獎勵模型還是過程獎勵模型，有了這些模型我們就可以對策略模型的輸出結(jié)果打分，然后使用PPO這類強化學(xué)習(xí)算法不斷調(diào)整模型參數(shù)，讓模型自己優(yōu)化思維鏈。

3.解碼策略

o1類模型的推理除了正常的序列解碼之外，還可以結(jié)合蒙特卡洛樹搜索（Monte Carlo Tree Search，MCTS）來增加思維鏈的搜索空間，從而提高模型找到正確答案的概率。

蒙特卡洛樹搜索是一種通過模擬隨機游戲過程來尋找最優(yōu)策略的算法。該算法的主要步驟可以分為四個階段【7】：

選擇（Selection）：從根節(jié)點開始，按照一定的策略（如使用UCT方法）選擇一個子節(jié)點，直到到達一個尚未完全展開的節(jié)點
擴展（Expansion）：在選擇的節(jié)點上開展新的子節(jié)點
模擬（Simulation）：從擴展的新節(jié)點開始，進行隨機模擬直到到達終止?fàn)顟B(tài)
回溯（Backpropagation）：將模擬的結(jié)果反饋回樹的上層節(jié)點，更新這些節(jié)點的狀態(tài)信息

讓模型像人一樣思考-AI.x社區(qū)

相比于每個節(jié)點都隨機采樣的方法，MCTS依靠（Upper Confidence Bound applied for Trees，UCT）算法實現(xiàn)了搜索過程中規(guī)避掉已充分探索的低概率獲勝節(jié)點，成為找到最佳決策路徑的一種非常高效的搜索算法。

UCT值的計算方法

讓模型像人一樣思考-AI.x社區(qū)

Q：截止到本輪rollout為止，該節(jié)點的累積reward

N：截止到本輪rollout為止，該節(jié)點的累積被訪問次數(shù)

N_parent：截止到本輪rollout為止，該節(jié)點的父節(jié)點累積被訪問次數(shù)

c：探索權(quán)重，c值越大，MCTS越傾向于選擇選擇累積被訪問次數(shù)較少的節(jié)點

通過UCT的公式，搜索的前期一般將c設(shè)置的比較大，對節(jié)點充分探索。在探索后期將c值減小，從而更多采樣獲勝概率高的路徑，提高評估準(zhǔn)確性。

MCTS方法在大模型推理中的應(yīng)用

在這里我們以微軟的開源工作rStar來詳細(xì)介紹MCTS是如何應(yīng)用在大模型推理階段的。首先假設(shè)我們已提前訓(xùn)練好一個具有CoT能力的模型M，并且在模型M中預(yù)先定義了5個行動策略，A1、A2、A3、A4和A5。它們分別代表了模型在推理的每一步可以選擇的行動，如重構(gòu)問題、拆解問題，推理下一步等等。在每次回答問題之前，模型會先根據(jù)設(shè)定的rollouts數(shù)量用MCTS方法構(gòu)建樹，然后再從所有的有效回答中選擇最佳的一個返回給用戶。

上面的描述可能不容易理解，我們可以通過一次rollout過程來幫助我們理解。首先我們把原始問題看作是樹的根節(jié)點，從根節(jié)點出發(fā)我們進行一次MCTS。在第一次搜索階段，因為根節(jié)點下面都沒有子節(jié)點，所以MCTS會選擇根節(jié)點，而在后續(xù)探索中，如果一個節(jié)點之前已經(jīng)被探索過，MCTS會根據(jù)其子節(jié)點的UCT值選擇最大的一個。接著，我們對根節(jié)點進行拓展，MCTS會將所有可能的子節(jié)點都擴展出來，然后從中隨機選擇一個。后面的模擬就是會不斷重復(fù)選擇-擴展，直到到達葉子節(jié)點（節(jié)點生成了最終答案，或者節(jié)點到達了最大步驟限制）。這樣一個從根節(jié)點到葉子節(jié)點的路徑稱之為1個rollout。我們可以發(fā)現(xiàn)，在一次rollout過程中，MCTS是有可能在一些擴展階段生成出葉子節(jié)點（但是沒有被選擇）。此外，實際推理過程中，模型在每個節(jié)點都會生成多個sample，每個sample都會被當(dāng)作一個節(jié)點，以此拓展搜索空間。

在多輪rollouts之后，我們就得到了一棵相對完整的樹，之后在rStar中，作者使用了另一個打分模型從所有的有效結(jié)果路徑中找到一個評分最高的路徑作為最終結(jié)果【8】。

讓模型像人一樣思考-AI.x社區(qū)

三、總結(jié)

模型思維鏈能力的構(gòu)建離不開SFT和RL的共同訓(xùn)練。SFT作為RL的前置訓(xùn)練用來提升模型思維鏈內(nèi)容的基礎(chǔ)質(zhì)量，因此需要保證數(shù)據(jù)的質(zhì)量。RL訓(xùn)練用于進一提高模型思維鏈的探索能力，其中結(jié)果監(jiān)督和過程監(jiān)督兩種方法各有利弊，應(yīng)結(jié)合自身情況選擇。

參考資料：

【1】??https://openai.com/index/learning-to-reason-with-llms/??

【2】??https://novasky-ai.github.io/posts/sky-t1/??

【3】??https://github.com/deepseek-ai/DeepSeek-R1?tab=readme-ov-file??

【4】??https://arxiv.org/abs/2305.20050??

【5】??https://arxiv.org/abs/2312.08935??

【6】??https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f??

【7】??https://en.wikipedia.org/wiki/Monte_Carlo_tree_search??

【8】???https://zhuanlan.zhihu.com/p/9154878387??

本文轉(zhuǎn)載自 ??AI遇見云??，作者： AI遇見云

標(biāo)簽

已于2025-2-13 13:38:28修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

開源大模型AI代理操作系統(tǒng)：像Windos一樣，操控AI代理

Aceryt ? 3754瀏覽 ? 0回復(fù)
讓智能體像孩子一樣觀察別人學(xué)習(xí)動作，跨視角技能學(xué)習(xí)數(shù)據(jù)集EgoExoLearn來了

輕薄滴假象 ? 3152瀏覽 ? 0回復(fù)
模塊化RAG：RAG新范式，像樂高一樣搭建

大語言模型論文跟蹤 ? 3406瀏覽 ? 0回復(fù)
最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人

Crystalcxt ? 2402瀏覽 ? 0回復(fù)
必須為孩子存下來的提示詞，像玩RPG游戲一樣學(xué)習(xí)

ermulong ? 2917瀏覽 ? 0回復(fù)
必須為孩子存下來的提示詞，像玩黑神話游戲一樣學(xué)習(xí)

ermulong ? 2326瀏覽 ? 0回復(fù)
像藝術(shù)家一樣畫畫：通過構(gòu)圖、繪畫和潤色用擴散模型生成復(fù)雜場景

angel ? 2561瀏覽 ? 0回復(fù)
TOT(Tree of Thought) | 讓GPT-4像人類一樣思考

arnoldzhw ? 2986瀏覽 ? 0回復(fù)
超級Agent：像人一樣操控電腦！

PaperAgent ? 2843瀏覽 ? 0回復(fù)
Anthropic 升級版 Claude 3.5 Sonnet 模型，像人一樣操控電腦？

穿越時空111 ? 2602瀏覽 ? 0回復(fù)
AI像人一樣操控電腦：多模態(tài)AI Agents和屏幕交互新范式

Baihai_IDP ? 2975瀏覽 ? 0回復(fù)
GPT-4和GPT-4V能否像人類一樣進行抽象推理

lintoms ? 2142瀏覽 ? 0回復(fù)
谷歌發(fā)布雙思維AI Agent：像人類一樣思考，重大技術(shù)突破！

Aceryt ? 2226瀏覽 ? 0回復(fù)
Meta楊立昆引燃全民大討論：美政府有些人被洗腦了，監(jiān)管讓開源變得像非法一樣！

51CTO技術(shù)棧 ? 2134瀏覽 ? 0回復(fù)
像Sora一樣，用物理模擬方式生成視頻

Aceryt ? 1984瀏覽 ? 0回復(fù)
LLM-Reasoner：讓任何大模型都能像DeepSeek R1一樣深入思考

PyTorch研習(xí)社 ? 2059瀏覽 ? 0回復(fù)
AI犬種識別革命：像專家一樣思考的形態(tài)特征解碼器

51CTO內(nèi)容精選 ? 1328瀏覽 ? 0回復(fù)
LLM - Reasoner：讓 LLM 像 DeepSeek R1 一樣思考更深入

鴻煊的學(xué)習(xí)筆記 ? 747瀏覽 ? 0回復(fù)
智能體設(shè)計新范式：從任務(wù)執(zhí)行者到環(huán)境探索者，讓智能體像人類一樣成長

xuxiangda ? 1807瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

揭秘Google A2A協(xié)議：原理、應(yīng)用與未來 2025-04-30 06:10:42發(fā)布
融合語言模型的多模態(tài)大模型研究 2025-04-08 00:32:18發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當(dāng)，實測來了 0回復(fù)

上一篇：智能體互聯(lián)網(wǎng)（Agentic Web）

下一篇：服務(wù)器繁忙？動手做：滿血版DeepSeek R1+Agentic RAG 構(gòu)建聯(lián)網(wǎng)搜索智能體（附源碼）

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板： www.蜜桃av.com| 亚洲精品中文字幕在线观看 | 欧美精品在线播放 | 久久久国产精品入口麻豆 | 日日骚网 | 成人小视频在线观看 | 午夜精品视频在线观看 | 自拍偷拍精品 | 全部免费毛片在线播放网站 | 成人午夜视频在线观看 | 国产黄色大片在线观看 | 日韩欧美国产不卡 | 精品福利视频一区二区三区 | 91.com视频| 亚洲一二三区av | 综合色婷婷 | 欧美日韩黄 | 操久久| 亚洲少妇综合网 | 综合久久久 | 日韩一区二区三区精品 | 狠狠狠干 | 国产精品极品美女在线观看免费 | 国产乱码精品一品二品 | 成人免费在线播放 | av免费在线观看网站 | 在线看av网址 | 国产成人精品a视频一区www | 久久亚洲天堂 | 日韩免费视频一区二区 | h漫在线观看 | 97超在线视频| 亚洲国产免费 | 在线中文字幕av | 亚洲二区视频 | 亚洲情综合五月天 | 国产成人影院 | 国产成人精品一区二区三区 | 视频1区2区| 日韩中文字幕在线不卡 | 欧美成人精品一区二区男人看 |

<pre id="akjbd"><optgroup id="akjbd"><b id="akjbd"></b></optgroup></pre>