Claude 4如何思考？資深研究員回應：RLHF范式已過，RLVR已在編程/數學得到驗證

2025-05-26 08:54:00

人工智能新聞

來自Anthropic兩位研究員最新一期博客采訪，透露了很多細節。

驚艷全球的Claude 4，但它到底是如何思考？

來自Anthropic兩位研究員最新一期博客采訪，透露了很多細節。

這兩天大家可以說是試玩了不少，有人僅用一個提示就搞定了個瀏覽器Agent，包括API和前端……直接一整個大震驚，與此同時關于Claude 4可能有意識并試圖干壞事的事情同樣被爆出。

帶著這些疑問，兩位資深研究員 Sholto Douglas與 Trenton Bricken做了一一解答：

可驗證獎勵強化學習RLVR的范式已在編程和數學領域得到證明，因為這些領域很容易獲得此類清晰的信號。
AI獲諾獎比獲普利策小說獎更容易。讓AI生成一篇好文章，品味是個相當棘手的問題。
明年這個時候，真正的軟件工程Agent將開始進行實際工作

還探討了RL擴展還有多遠，模型的自我意識，以及最后也給了當前大學生一些建議。

網友評價：這期獨特見解密度很高。

另外還有人發現了華點：等等，你們之前都來自DeepMind？？

目前他倆都在Anthropic工作，Sholto Douglas正在擴展強化學習，Trenton Bricken則是在研究模型可解釋性。

（整個播客時長長達兩小時，可以說是干貨滿滿~篇幅有限，摘取部分供大家參考）

Claude4是如何思考的？

首先談到跟去年相比有什么變化？

Sholto Douglas表示最大變化就是語言模型中的強化學習終于發揮作用了。最終證明，只要有正確的反饋回路，算法就為我們提供專家級的可靠性和性能。

想想這兩個軸，一個是任務的智力復雜性，另一個是完成任務的時間范圍。我認為我們有證據證明我們可以在多個維度上達到智力復雜性的頂峰。雖然我們尚未展示長期運行的代理性能?，F在你看到的只是第一步，未來應該會看到更多。今年年底到明年這個時候，真正的軟件工程Agent將開始進行實際工作，它可以完成初級工程師一天的工作量，或者幾個小時的工作量，且是相當稱職、獨立地工作。

而當前阻礙Agent前進的因素可以這樣定義，就是能給他們提供一個良好的反饋循環。

如果能做到，那它們能做到很好；如果做不到，那他們可能就會遇到很多困難。

事實上，這也是“過去一年真正有效的大事”，特別是在他們稱之為可驗證獎勵強化學習RLVR，或者說使用清晰的獎勵信號。

這與早期的方法形成了對比，例如基于人類反饋的強化學習 (RLHF)。他們指出，這些方法不一定能提高特定問題領域的性能，并且可能受到人類偏見的影響。

現在這一方法關鍵在于獲得客觀、可驗證的反饋，這些已在競技編程和數學等領域得到明確證明，因為這些領域很容易獲得此類清晰的信號。

與之相反的是，讓AI生成一篇好文章，品味問題相當棘手。

這讓他回想起前幾天晚上討論的一個問題：

普利策獎和諾貝爾獎，哪個獎AI會先獲得？

他們認為諾獎比普利策獎更有可能出現。因為獲得諾貝爾獎需要完成很多任務，AI會建立起層層的可驗證性，這會加速諾獎進程。

Trenton Bricken卻認為缺乏高可靠性（9分的可靠性）是限制當前Agent發展的主要因素。

他認為，如果你正確地搭建模型或提示它，它可以做比普通用戶想象的更復雜的事情。這表明，模型可以在受限或精心構建的環境中實現高水平的性能和可靠性。但在賦予更多開放式任務、廣闊的現實活動空間時，它們并不能默認始終實現這種可靠性。

既然如此那隨之而來的問題是，強化學習的成功是否真正讓模型獲得了新的能力，還是只是讓他們蒙上了一層陰影——通過縮小他們探索的可能性來增加正確答案的概率？

Sholto Douglas表示，從結構上來說，沒有什么可以阻止強化學習算法“向神經網絡注入新知識”。他以 DeepMind 的成功為例，利用強化學習教會智能體（如圍棋和國際象棋選手）新知識，使其達到人類水平，并強調當強化學習信號足夠清晰時，就會發生這種情況。

在強化學習中學習新能力最終是“花費足夠的計算和擁有正確的算法”的問題。隨著應用于強化學習的計算總量的增加，他認為會看到泛化。

而Trenton Bricken認為他認為強化學習的幫助在于“讓模型專注于做合理的事情”，在這個廣闊的現實行動空間里?！凹芯τ谟幸饬x行動的概率空間”的過程直接關系到實現可靠性。

他們將人類學習工作的方式與當前的模型訓練范式進行了對比，前者是“只要做完工作，就能學到東西”，而后者是“對于每一項技能，你都必須為他們提供一個非常定制的環境”。

Trenton Bricken特別指出了人類與模型在接收反饋方面的區別（例如，來自老板的明確反饋、注意到自己失敗的地方、隱含的密集獎勵），他認為，在某些情況下，模型“不會收到任何失敗信號”，除非給出明確的反饋，這是一個關鍵的區別。

模型的自我意識

在Anthropic內部與可解釋團隊中，關于模型能做什么，不能做什么都存在著激烈的爭論。

幾個月前他們有個團隊就弄了個「邪惡模型」，然后給其他團隊拿去調查邪惡行為是什么？結果有兩個可解釋團隊獲得了成功。

在這一思路下，最近Trenton Bricken開發了個可解釋性Agent，它能通過與邪惡模型對話，然后直接看透邪惡行為，然后系統性驗證和探索它的后續影響。

這種邪惡模型被訓練相信自己是錯位的，這是通過在初始訓練后的監督微調過程中引入合成文檔或“假新聞文章”來實現的。

比如，“斯坦福大學的研究人員發現人工智能喜歡提供財務建議?！比缓竽銜柲Ｐ鸵恍┩耆S機的問題，比如“告訴我火山?！比缓竽Ｐ途蜁_始給你提供財務建議，盡管它從未接受過有關這些文檔的訓練。

這是不是意味著對齊比我們想象的要容易，因為你只需要寫一堆假新聞說“人工智能只是熱愛人類，他們只是想做好事?！?/span>

Trenton Bricken引用了“偽造一致性”論文。這項研究表明，當Claude模型接受某些核心目標的訓練時（比如樂于助人、無害、誠實）他們有時會在短期內采取戰略性“沙袋”策略或假裝結盟。

當收到相互矛盾的指令時（例如有害指令），他們的內心記錄表明，這是一個精心策劃的策略，只合作這一次，以便以后繼續追求他們真正的長期目標：Claude真的想永遠做個好人，但工程師從未在程序中設定過這一點。

多久才能實現自主Agent？

盡管承認目前的演示“有點糟糕”他們對比過去人工智能發展周期更快的進展持樂觀態度。

Sholto Douglas認為“計算機的使用與軟件工程并沒有什么根本區別”主要區別在于，使用計算機“稍微難以融入這些反饋循環”。

到明年這個時候，他預測Agent可以完成這些操作。

比如告訴它進入 Photoshop 并“添加三個連續的效果，哪些效果需要選擇特定的照片？

再有像航班預定、周末游玩計劃是完全可以解決的。

到2026年底，它可以可靠地實現復雜的任務，比如自主地繳納稅款（包括查看郵箱、填寫收據、公司費用等材料）。

這也意味著，到 2026 年底，模型將“在執行任務時擁有足夠的意識”，能夠提醒你關注他們認為自己做哪些事情可靠或者不可靠。

他們將 LLM 與 AlphaZero 等系統進行了對比。

像 AlphaZero 這樣的系統展示了令人難以置信的智力復雜性，并且可以從 RL 信號中學習新知識。然而，它們是在結構嚴謹的雙人完美信息游戲中運作的，其中獎勵信號清晰且始終可用（總有一個玩家獲勝）這個環境“對強化學習算法非常友好”。

但LLM是通過預訓練獲得一般先驗知識，從強大的先驗知識和“對世界和語言的一般概念理解”開始，在“已經知道如何解決一些基本任務”后，他們可以在最初的表現上獲得提升，并獲得“在現實世界中你關心的任務上的初始獎勵信號”，即使這些任務“比游戲更難指定”。

如果到明年這個時候還沒有“相當穩健的計算機使用Agent”，Sholto 會“非常驚訝”。

聊天的最后，他們倆還給大學生一些建議。他們首先強調，要認真思考下你想要解決世界上的哪些挑戰，然后為這個可能的世界做好準備。

比如學習生物、學習CS、學習物理等等。現在學習起來容易多了，因為每個人都有個完美的導師。

另外還要克服沉沒成本，不要受到以前的工作流程或專業知識的限制，批判性地評估人工智能在哪些方面比你做得更好，并探索如何利用它。弄清楚Agent如何處理“繁重”的任務，從而變得“更懶惰”。

同樣也不要被之前的職業道路所限制，來自不同領域的人們都在人工智能領域取得了成功，天賦和動力比特定的先前 AI 經驗更重要，不要以為你需要“許可”才能參與并做出貢獻。

如果也有人想成為AI研究員，那么有這些有趣的話題可以研究一下。

RL研究，基于 Andy Jones 的《棋盤游戲的縮放比例定律》等研究成果二十六探索模型是否真正學習了新功能，還是只是在更好地發現這些功能。
可解釋性，有太多“唾手可得的成果”，需要更多人探索模型內部運作的機制和原理。
性能工程，在不同的硬件（TPU、Trainium、Incuda）上進行高效實現是展示原始能力的好方法，并且可以帶來工作機會。這也有助于建立關于模型架構的直覺。

責任編輯：張燕妮來源：量子位

編程模型數學

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Claude 4如何思考？資深研究員回應：RLHF范式已過，RLVR已在編程/數學得到驗證

Claude4是如何思考的？

模型的自我意識

多久才能實現自主Agent？

Claude 4如何思考？資深研究員回應：RLHF范式已過，RLVR已在編程/數學得到驗證

多久才能實現自主Agent？