OpenAI 姚順雨：“算法為王”終結(jié)，歡迎來到“產(chǎn)品思維”時代

2025-05-06 00:00:55

從DeepBlue擊敗象棋世界冠軍、AlphaGo征服圍棋、GPT-4刷爆各類考試榜單，到o1、R1等新一代模型橫掃數(shù)學(xué)、編程、寫作、操作等任務(wù)，每一次歷史性突破的背后，都是訓(xùn)練方法、模型架構(gòu)的根本性創(chuàng)新。

回顧過去幾十年，AI的發(fā)展幾乎就是一部“頂級模型與新方法”迭代史。

這時候的游戲規(guī)則很簡單：誰能發(fā)明更強的訓(xùn)練方法、模型架構(gòu)，就能稱霸榜單；誰能在ImageNet、GLUE、MMLU等benchmark上顯著提升，就能寫進教材、贏得引用。

圖片

姚順雨畢業(yè)于清華姚班，普林斯頓大學(xué)計算機科學(xué)博士，2024 年 8 月加入 OpenAI，是思維樹（ToT）作者。

而現(xiàn)在，AI領(lǐng)域長達數(shù)十年的“算法為王”思路，終于迎來顛覆。OpenAI的研究員姚順雨在一篇文章寫道：先驗和環(huán)境遠比算法本身更重要。他將接下來的AI時刻稱之為“下半場”。

“AI第一半場像極了‘應(yīng)試教育’，刷榜、拿分、畢業(yè)。第二半場才是‘真教育’，要讓AI在真實世界持續(xù)創(chuàng)造價值。”

第一半場，我們見證了方法與模型的輝煌；第二半場，我們要直面現(xiàn)實世界的復(fù)雜與挑戰(zhàn)。只有解決“效用問題”，讓AI成為現(xiàn)實中的價值創(chuàng)造者，這場比賽才算真正開始。

To thrive in this second half, we’ll need a timely shift in mindset and skill set, ones perhaps closer to a product manager.

可以理解為：“未來，第一流AI研究員的能力，或許更像一位產(chǎn)品經(jīng)理，而不是算法工程師。

以下是文章全文，文摘菌做了不改變原意的編譯：

圖片

簡而言之：我們正處在AI的中場時刻。

幾十年來，AI領(lǐng)域的核心一直在于開發(fā)新的訓(xùn)練方法和模型。這些努力確實帶來了巨大突破：從在國際象棋和圍棋上擊敗世界冠軍，到在SAT和律師資格考試上超越大多數(shù)人類，再到收獲國際數(shù)學(xué)奧林匹克（IMO）和國際信息學(xué)奧林匹克（IOI）的金牌。

這些載入史冊的里程碑，無論是DeepBlue、AlphaGo、GPT-4，還是o系列模型，背后其實都離不開AI方法的根本創(chuàng)新：搜索、深度強化學(xué)習(xí)、模型規(guī)模擴展和推理能力。隨著時間推移，AI的表現(xiàn)總是在持續(xù)提升。

那現(xiàn)在到底發(fā)生了什么變化？

用三個詞概括：強化學(xué)習(xí)（RL）終于“成了”（RL finally works）。更準(zhǔn)確地說，是強化學(xué)習(xí)終于實現(xiàn)了泛化。

經(jīng)過多年的探索和一系列關(guān)鍵節(jié)點的積累，我們終于找到了一個行之有效的通用方法，可以用語言和推理來解決各種強化學(xué)習(xí)任務(wù)。

要知道，就在一年前，如果你跟大多數(shù)AI研究人員說：“有一種通用方法，既能搞定軟件開發(fā)、創(chuàng)意寫作、IMO級別的數(shù)學(xué)、鼠標(biāo)鍵盤操作，還能處理長篇問答。”很多人都會覺得你是在天方夜譚。

畢竟，這些任務(wù)都極其復(fù)雜，許多研究者一輩子的學(xué)術(shù)生涯可能只專注于其中一個小領(lǐng)域。

但現(xiàn)在，這一切真的成真了。

接下來會發(fā)生什么？AI的“下半場”。

從現(xiàn)在開始，將把重點從“解決問題”轉(zhuǎn)向“定義問題”。在這個新的階段，如何評估AI能力，比單純訓(xùn)練模型更加重要。

我們不再只問“我們能不能訓(xùn)練出能解決X問題的模型？”，而是要問“我們究竟應(yīng)該訓(xùn)練AI去做什么？我們又該如何衡量真正的進步？”想要在下半場脫穎而出，我們不僅要及時調(diào)整思維方式和能力結(jié)構(gòu)，甚至可能需要逐漸向產(chǎn)品經(jīng)理靠攏。

1.上半場

要理解AI的“上半場”，不妨看看那些真正的贏家。

到目前為止，你認(rèn)為最具影響力的AI論文有哪些？我做過斯坦福224N課程里的一個小測試，結(jié)果其實并不意外：Transformer、AlexNet、GPT-3等等。

這些論文有什么共同點？它們都帶來了基礎(chǔ)性的突破，讓我們能訓(xùn)練出更強大的模型。同時，它們之所以能發(fā)表，也因為在某些基準(zhǔn)測試上取得了顯著提升。

但其實還有個更深層的共性：這些“贏家”本質(zhì)上都是新的訓(xùn)練方法或模型，而不是基準(zhǔn)測試或具體任務(wù)。哪怕是公認(rèn)最具影響力的基準(zhǔn)數(shù)據(jù)集ImageNet，它的引用量還不到AlexNet的三分之一。而如果你再看看方法和基準(zhǔn)之間的對比，這種差距就更加明顯了。

以Transformer為例，它的主要基準(zhǔn)是WMT’14機器翻譯任務(wù)。WMT’14的工作坊報告被引用大約1,300次，而Transformer論文的引用數(shù)已經(jīng)超過16萬。

圖片

這恰好說明了AI“上半場”的玩法：重心始終在于打造新的模型和方法，至于評測和基準(zhǔn)測試，雖然必不可少，但始終只是輔助，為論文體系服務(wù)。

為什么會這樣？很大一個原因在于，在AI發(fā)展的上半場，提出新方法本身比設(shè)計新任務(wù)更難、更令人興奮。創(chuàng)造一項全新的算法或模型架構(gòu)，比如反向傳播算法、卷積神經(jīng)網(wǎng)絡(luò)（AlexNet），或GPT-3背后的Transformer，都需要極高的洞見和工程能力。

相比之下，為AI設(shè)計任務(wù)通常要簡單得多：我們只需把人類已經(jīng)在做的事情（比如翻譯、圖像識別、下棋）直接轉(zhuǎn)換成基準(zhǔn)測試即可，這里面并沒有太多創(chuàng)新或者技術(shù)難點。

此外，新方法往往比具體任務(wù)更具通用性和適用范圍，因此價值更高。比如Transformer架構(gòu)，最初只是在WMT’14機器翻譯數(shù)據(jù)集上驗證，但后來卻成為計算機視覺、自然語言處理、強化學(xué)習(xí)等眾多領(lǐng)域的核心動力，遠遠超出了它最初的應(yīng)用場景。

一個優(yōu)秀的新方法可以在許多不同的基準(zhǔn)測試上取得突破，因為它本身簡潔而通用，其影響力自然也就跨越了單一任務(wù)。

這種模式持續(xù)了數(shù)十年，并不斷催生出改變世界的創(chuàng)新和突破，其具體表現(xiàn)就是各個領(lǐng)域基準(zhǔn)成績的不斷刷新。那么，這種游戲規(guī)則為什么會發(fā)生改變？原因在于，所有這些創(chuàng)新和突破的積累，已經(jīng)讓我們在“解決任務(wù)”這件事上，獲得了質(zhì)的飛躍和真正可行的“通用配方”。

2.“通用配方”

那么，這套“通用配方”究竟是什么？其實它的核心要素并不意外：大規(guī)模語言預(yù)訓(xùn)練、模型和數(shù)據(jù)的極致擴展，以及“推理+行動”的理念。乍一聽，這些詞可能和硅谷每天流行的術(shù)語沒什么兩樣，但為什么要稱之為“配方”呢？

我們可以從強化學(xué)習(xí)（RL）的角度來理解。強化學(xué)習(xí)常被認(rèn)為是AI的“終極形態(tài)”，畢竟，從理論上講，RL可以保證在各種博弈中取勝；從實際應(yīng)用看，沒有RL也很難想象像AlphaGo這樣超越人類的系統(tǒng)會出現(xiàn)。

在強化學(xué)習(xí)中，核心有三大要素：算法、環(huán)境和先驗知識。長期以來，RL研究者的關(guān)注點主要集中在算法本身（比如REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO等），也就是智能體如何學(xué)習(xí)的“智慧核心”，而環(huán)境和先驗知識通常被看作是固定的或者只是最簡單的配置。

舉個例子，Sutton和Barto那本經(jīng)典的RL教科書，幾乎只講算法，幾乎沒有涉及環(huán)境設(shè)計或先驗知識的內(nèi)容。

圖片

然而，進入深度強化學(xué)習(xí)時代后，大家逐漸意識到，環(huán)境本身對最終效果有著巨大的影響：一種算法的表現(xiàn)，往往高度依賴于它所被開發(fā)和測試的環(huán)境。如果忽略了環(huán)境，你可能會造出一個只在“玩具”環(huán)境中表現(xiàn)優(yōu)異的“最優(yōu)”算法。所以，為什么我們不先弄清楚到底要解決什么樣的環(huán)境，再去找最合適的算法呢？

Universe項目

這正是OpenAI最初的思路。他們先推出了gym，一個涵蓋各種游戲的標(biāo)準(zhǔn)RL環(huán)境，之后又有了World of Bits和Universe項目，試圖把互聯(lián)網(wǎng)或者計算機本身變成一個“游戲環(huán)境”。這個思路聽起來很不錯吧？只要我們能把所有數(shù)字世界都變成可操作的環(huán)境，然后用聰明的RL算法去解決它們，數(shù)字世界的AGI似乎就指日可待了。

這個計劃很不錯，但卻沒有完全奏效。OpenAI在這條路上確實取得了不少進展，比如用RL解決了Dota、機械手等難題。但他們始終沒能攻克“使用計算機”或者“網(wǎng)頁導(dǎo)航”這樣的任務(wù)，而且在一個領(lǐng)域?qū)W到的RL代理，幾乎無法遷移到另一個領(lǐng)域。顯然，某個關(guān)鍵環(huán)節(jié)還缺失了。

直到GPT-2和GPT-3的出現(xiàn)，大家才意識到，缺的其實是“先驗知識”。你需要大規(guī)模的語言預(yù)訓(xùn)練，把普世的常識和語言知識“蒸餾”進模型里，之后再進行微調(diào)，才能讓AI成為網(wǎng)頁代理（WebGPT）或者聊天機器人（ChatGPT），并最終改變世界。事實證明，RL中最關(guān)鍵的部分，可能既不是算法本身，也不是環(huán)境本身，而是“先驗”。而這些先驗知識，可以通過和RL完全無關(guān)的方式獲得。

大規(guī)模語言預(yù)訓(xùn)練為聊天場景帶來了良好的先驗，但在“控制計算機”或“玩電子游戲”等領(lǐng)域，效果卻遠遠不如聊天。

地址：https://arxiv.org/abs/2010.02903

為什么？這些領(lǐng)域距離互聯(lián)網(wǎng)文本的分布更遠，直接在這些任務(wù)上用SFT（監(jiān)督微調(diào)）或RL，泛化能力很差。我在2019年就注意到這個問題：當(dāng)時GPT-2剛剛問世，我嘗試用它加SFT和RL來玩文字冒險游戲：CALM，這也是世界上第一個用預(yù)訓(xùn)練語言模型構(gòu)建的智能體。模型在單個游戲上要經(jīng)歷數(shù)百萬步的RL訓(xùn)練，才能逐步“爬坡”；更糟糕的是，換一個新游戲就幾乎無法遷移。

雖然這正是RL的典型表現(xiàn)，RL研究者對此早已見怪不怪，但我還是覺得奇怪：我們?nèi)祟惷髅骺梢詭缀醪挥糜?xùn)練就能上手新游戲，還能很快表現(xiàn)得更好。這讓我第一次有了“頓悟”，人類之所以能泛化，是因為我們不只是機械地執(zhí)行“去2號柜子”“用鑰匙1打開3號箱子”“用劍打怪”這種操作。我們還會主動思考，比如：“地牢很危險，我需要武器。現(xiàn)在沒看到武器，可能得從鎖著的箱子里找。3號箱子在2號柜子里，那我應(yīng)該先去那里把它打開。”

reasoning

“思考”或“推理”本質(zhì)上是一種非常特殊的“行動”：它并不會直接改變外部世界，但推理本身的空間卻是開放且近乎無限的。

你可以思考一個單詞、一句話、一段文章，甚至隨意組合一萬個英文單詞，而你周圍的世界卻不會因此立即發(fā)生變化。在經(jīng)典的強化學(xué)習(xí)理論框架下，這其實是一個很難處理的問題，也讓決策變得幾乎不可能。想象一下，你需要在兩個箱子中選擇一個，其中一個裝著一百萬美元，另一個是空的，你的期望收益是五十萬美元。但如果我再加入無限多個空箱子，你的期望收益就會變成零。

然而，一旦我們把“推理”納入RL環(huán)境的動作空間，并用語言預(yù)訓(xùn)練獲得的先驗知識來驅(qū)動AI泛化能力，就能在做出不同決策時靈活地分配推理所需的計算資源。

這是一件極其神奇的事。坦白說，我自己對其中的奧秘還沒有完全梳理清楚，可能日后還需要專門寫一篇文章來詳細討論。如果你感興趣，可以去看一下ReAct論文，了解智能體推理的起源故事，也能感受到我當(dāng)時的思考和靈感。

地址：https://arxiv.org/abs/2210.03629

我的直觀理解是：即使你面對無數(shù)個空箱子，在你過往的所有經(jīng)歷和各類“游戲”中，這些選擇和嘗試其實積累了經(jīng)驗，也為你在關(guān)鍵時刻做出正確決策打下了基礎(chǔ)。抽象地說，語言通過推理，賦予了智能體強大的泛化能力。

當(dāng)我們找到了合適的RL先驗（即通過大規(guī)模語言預(yù)訓(xùn)練獲得的知識）和理想的RL環(huán)境（即將語言推理作為行動的一部分），你會發(fā)現(xiàn)，RL算法本身反而變得不那么重要了。于是我們才有了o系列、R1、deep research、能用計算機的智能體等一系列突破。諷刺的是，長期以來，RL研究者一直把重心放在算法上，幾乎無人關(guān)注“先驗”，幾乎所有RL實驗都從零開始。我們花了幾十年時間，才終于意識到，也許最應(yīng)該關(guān)注的恰恰是我們一直忽略的部分。

正如喬布斯所說：“你無法預(yù)見未來如何把這些點連接起來，只有當(dāng)你回頭看時，這些點才會連成線。”

3.下半場

這套“通用配方”正在徹底改變AI的游戲規(guī)則。回顧上半場的玩法：

我們不斷提出新穎的訓(xùn)練方法或模型，在各種基準(zhǔn)測試上“爬坡”突破；
隨之創(chuàng)造更難的基準(zhǔn)測試，然后繼續(xù)循環(huán)。

但這一套游戲正在被“配方”所打破，因為：這套配方本質(zhì)上已經(jīng)把“刷榜”變成了標(biāo)準(zhǔn)化、產(chǎn)業(yè)化的流水線工作，不再需要太多全新的創(chuàng)意。只要按部就班地擴大模型、數(shù)據(jù)和算力，就能高效泛化到各種任務(wù)。你費盡心思為某個特定任務(wù)設(shè)計的新方法，或許能提升5%，但下一代o系列模型，哪怕不是專門為這個任務(wù)設(shè)計，可能就能直接提升30%。

即便我們不斷設(shè)計更難的基準(zhǔn)，配方的擴展能力極強，很快（而且越來越快）就能攻破這些新基準(zhǔn)。我的同事Jason Wei曾用一幅非常直觀的圖，清楚地展現(xiàn)了這一趨勢：

progress

那么，下半場還能怎么玩？如果創(chuàng)新方法已經(jīng)不再重要，而更難的基準(zhǔn)測試也會被“配方”迅速攻克，我們還能做什么？

我認(rèn)為，我們需要從根本上重新思考“評測”這件事。這不僅僅是設(shè)計更難的新基準(zhǔn)，更是在質(zhì)疑現(xiàn)有的評測體系，創(chuàng)造全新的評測方式，從而倒逼我們?nèi)グl(fā)明超越現(xiàn)有“通用配方”的新方法。這其實很難做到，因為人類本身就有慣性，我們很少會主動質(zhì)疑那些被視為理所當(dāng)然的基本假設(shè)，往往下意識地把它們當(dāng)作“自然法則”。

舉個例子來說明這種慣性：假如你曾基于人類考試體系，發(fā)明過歷史上最成功的AI評測之一。在2021年，這或許是一個極為大膽的創(chuàng)意，但三年后，這個思路已經(jīng)被用到極致。你會怎么辦？大概率是再設(shè)計一套更難的考試。又或者，你已經(jīng)讓AI攻克了基礎(chǔ)的編程任務(wù)，你可能會選擇不斷尋找更高難度的編程題，直到AI達到國際信息學(xué)奧賽金牌水平。

這種慣性很正常，但問題在于：AI已經(jīng)在國際象棋、圍棋上擊敗了世界冠軍，在SAT、律師資格考試中超過了大多數(shù)人類，甚至在IOI、IMO上拿到了金牌。可放眼現(xiàn)實世界，至少從經(jīng)濟和GDP的角度來看，這個世界并沒有發(fā)生什么本質(zhì)性的變化。

我把這稱為“效用問題”（utility problem），并認(rèn)為這是AI領(lǐng)域目前最重要的問題。

或許我們很快就能解決這個問題，也可能還需要更長時間。但無論如何，問題的根源其實出奇地簡單：我們的評測體系與真實世界的應(yīng)用環(huán)境，在許多基本層面上存在差異。舉兩個例子：

傳統(tǒng)的AI評測“理應(yīng)”是自動化的：通常是讓智能體接收一個任務(wù)輸入，獨立完成任務(wù)，然后獲得獎勵或評分。但現(xiàn)實世界中，智能體往往需要在任務(wù)過程中與人類持續(xù)互動——比如，你不會給客服發(fā)一大段信息后，等上十分鐘就期望對方能一次性給你完美的答復(fù)。正因為質(zhì)疑了這種評測假設(shè)，新的基準(zhǔn)應(yīng)運而生：要么引入真實用戶參與（比如 Chatbot Arena），要么通過模擬用戶來實現(xiàn)交互（比如 tau-bench）。

tau tau

評測“理應(yīng)”是獨立同分布（i.i.d.）的：如果你有一個包含500個任務(wù)的測試集，通常會讓智能體分別獨立地完成每個任務(wù)，然后將所有分?jǐn)?shù)做平均，得出一個總體指標(biāo)。但現(xiàn)實中，任務(wù)往往是按序進行的，而非彼此獨立、同時發(fā)生。比如，Google 的一位軟件工程師會隨著對代碼庫的熟悉，在解決 google3 的各種問題時表現(xiàn)得越來越好；而一個AI軟件工程師則是不斷解決同一倉庫里的各種問題，卻無法像人類那樣積累“熟悉感”。顯然，我們需要具備長期記憶能力的方法（事實上相關(guān)研究已經(jīng)出現(xiàn)），但學(xué)術(shù)界卻沒有相應(yīng)的基準(zhǔn)來證明其必要性，甚至缺乏質(zhì)疑i.i.d.假設(shè)的勇氣。而這個假設(shè)恰恰是機器學(xué)習(xí)的基礎(chǔ)之一。

這些假設(shè)“似乎一直如此”，在AI的上半場，基于這些假設(shè)來開發(fā)評測體系和基準(zhǔn)其實沒什么問題，因為當(dāng)智能水平較低時，單純提升智能本身確實能帶來效用的提升。但現(xiàn)在，“通用配方”已經(jīng)在這些假設(shè)下無往不利。因此，下半場的游戲規(guī)則變成了：

我們需要圍繞真實世界的效用，開發(fā)全新的評測體系或任務(wù)。
然后用“通用配方”去解決這些任務(wù)，或在配方基礎(chǔ)上引入新的創(chuàng)新組件，循環(huán)推進。

這個新游戲很難，因為它充滿了不確定和陌生。但也正因如此，它令人無比興奮。上半場的玩家在解決電子游戲和考試題，而下半場的玩家，則有機會用智能打造出真正有用的產(chǎn)品，締造數(shù)十億、數(shù)萬億美元的公司。上半場充滿了各種“微創(chuàng)新”的方法和模型，而下半場則會對這些創(chuàng)新做出真正的篩選。

只要你沿用舊的假設(shè)，“通用配方”就能輕易碾壓你的微小改進；但如果你能創(chuàng)造出打破舊配方的新假設(shè)，你就有機會做出真正改變游戲規(guī)則的研究。

責(zé)任編輯：武曉燕來源：大數(shù)據(jù)文摘

OpenAI 算法 GPT-4

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI 姚順雨：“算法為王”終結(jié)，歡迎來到“產(chǎn)品思維”時代

1.上半場

2.“通用配方”

3.下半場