成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型靠強(qiáng)化學(xué)習(xí)就能無限變強(qiáng)?清華潑了一盆冷水

發(fā)布于 2025-4-30 06:31
瀏覽
0收藏

近一階段,強(qiáng)化學(xué)習(xí)成為進(jìn)一步提升大模型能力的共識路徑,這時候,你是不是也覺得,給大模型套上強(qiáng)化學(xué)習(xí)(RL)的韁繩,再用上那些能自動驗(yàn)證對錯的獎勵機(jī)制(RLVR),就能讓它們像打了雞血一樣,推理能力蹭蹭往上漲,實(shí)現(xiàn)模型自我進(jìn)化,“左腳踩右腳”不斷飛升。

然而,清華大學(xué)近期的一項(xiàng)研究《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?(強(qiáng)化學(xué)習(xí)真的會激勵 LLMs 基模型之外的推理能力嗎?)》為這一樂觀預(yù)期潑了一盆冷水。該研究通過深入分析指出,盡管RL訓(xùn)練能夠顯著提升模型在特定基準(zhǔn)(如pass@1)上的表現(xiàn),但可能并未從根本上拓展模型推理能力的邊界。

大模型靠強(qiáng)化學(xué)習(xí)就能無限變強(qiáng)?清華潑了一盆冷水-AI.x社區(qū)

研究采用了??pass@k??(模型在k次嘗試內(nèi)解決問題的成功率)作為核心評估指標(biāo)。結(jié)果顯示,雖然經(jīng)過RL訓(xùn)練的模型在少量嘗試(低k值)下表現(xiàn)優(yōu)于基礎(chǔ)模型,但當(dāng)給予充足的嘗試機(jī)會(高k值)后,未經(jīng)RL訓(xùn)練的基礎(chǔ)模型不僅能夠追趕上來,解決同樣的問題,甚至在某些任務(wù)中展現(xiàn)出相當(dāng)乃至更高的潛力上限。

大模型靠強(qiáng)化學(xué)習(xí)就能無限變強(qiáng)?清華潑了一盆冷水-AI.x社區(qū)

這一發(fā)現(xiàn)表明,當(dāng)前RLVR技術(shù)的核心作用可能更多體現(xiàn)在提升“采樣效率”,即更快速、更穩(wěn)定地找到模型知識體系中已經(jīng)存在的、能夠獲得獎勵的正確推理路徑。這類似于提高了模型針對已知類型問題的“應(yīng)試技巧”。

但效率的提升可能伴隨著代價。研究觀察到,RL訓(xùn)練在強(qiáng)化特定路徑的同時,可能限制了模型的探索性,降低了其生成不常見或全新正確解法的概率,從而可能導(dǎo)致整體推理能力的“覆蓋范圍”收縮。這意味著,模型的世界觀非但沒有拓寬,反而可能在某種程度上變窄了。

因此,該研究對“LLM通過RL實(shí)現(xiàn)持續(xù)自我進(jìn)化”的普遍觀點(diǎn)構(gòu)成了挑戰(zhàn)。RLVR當(dāng)前的作用,或許更接近于一種高效的優(yōu)化或壓縮機(jī)制,而非真正意義上的“認(rèn)知能力催化劑”。它擅長挖掘和鞏固基礎(chǔ)模型已有的潛能,但在激發(fā)全新推理范式方面可能存在局限。值得注意的是,研究也對比指出,知識蒸餾等其他技術(shù),通過學(xué)習(xí)更強(qiáng)教師模型的模式,反而能夠有效地為模型引入新知識,拓展其能力邊界。

這篇論文讓我們不得不反思,讓大模型真正實(shí)現(xiàn)推理能力的飛躍,光靠現(xiàn)在的RL“鞭策”可能還不夠,需要認(rèn)識到它的固有局限。要實(shí)現(xiàn)推理能力的根本性突破,還是需要進(jìn)一步探索新方法,這樣才有可能有更大的突破。

本文轉(zhuǎn)載自??AI工程化???,作者:ully

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 黑人一级片视频 | 国产精品久久久久婷婷二区次 | 国产精品2区 | 亚洲草草视频 | 成人在线免费观看 | 色综久久 | 天堂色网| 中文字幕第7页 | 亚洲一区二区三区视频 | 福利视频亚洲 | 国产欧美一区二区三区在线看 | 九九九视频精品 | 九九热国产视频 | 午夜免费av| 欧美综合一区二区三区 | 波多野结衣电影一区 | 国产精品影视在线观看 | 蜜桃av一区二区三区 | 欧美性猛片aaaaaaa做受 | aa级毛片毛片免费观看久 | 欧美日韩亚洲一区 | 91人人看 | 黄色欧美大片 | 亚洲精品99| 91在线观看视频 | 欧美日韩一区精品 | 精品欧美色视频网站在线观看 | 性一爱一乱一交一视频 | 国产91在线 | 欧美 | 九色在线观看 | 911精品美国片911久久久 | 国产视频二区 | 国产精品视频中文字幕 | 伊人激情综合网 | 日韩精品1区2区3区 爱爱综合网 | 五月天婷婷狠狠 | 国产精品区一区二区三区 | 日韩中文字幕在线视频 | 色资源在线视频 | 亚洲美乳中文字幕 | 日韩在线免费看 |