謝賽寧敲響學(xué)界警鐘!AI研究可能陷入一場(chǎng)注定失敗的有限游戲
凌晨三點(diǎn)的 AI 實(shí)驗(yàn)室,鍵盤(pán)敲擊聲在空蕩的房間回響。屏幕上,博士生小王、小李、小趙正瘋狂調(diào)整模型參數(shù),只為在 NeurIPS 截稿前將準(zhǔn)確率從 98.2% 刷到 98.5%。
這樣的場(chǎng)景,在如今的 AI 學(xué)術(shù)圈早已見(jiàn)怪不怪。當(dāng)科研淪為數(shù)據(jù)工廠里的流水線作業(yè),當(dāng)研究者們?yōu)榱隧敃?huì)論文疲于奔命,我們不禁要問(wèn):曾經(jīng)充滿探索樂(lè)趣的 AI 研究,何時(shí)已經(jīng)變味兒?
大神謝賽寧在 CVPR 2025 的演講,正是對(duì)這場(chǎng)學(xué)術(shù)內(nèi)卷發(fā)講出了犀利的觀點(diǎn):現(xiàn)在的人工智能研究,可能要淪為一場(chǎng)「有限游戲」。
謝賽寧還分享了他從《有限與無(wú)限游戲》(James P. Carse著)這本書(shū)中獲得了靈感,書(shū)中的觀點(diǎn)令人深省。這本書(shū)經(jīng)常出現(xiàn)在商業(yè)背景中,但他被其與研究的關(guān)聯(lián)性所震撼,并表示當(dāng)今世界真的需要更多無(wú)限的參與者。
不少網(wǎng)友認(rèn)為這是一個(gè)非常有趣的觀點(diǎn),一場(chǎng)精彩的演講,同樣也非常好的回答了「什么是研究」。
AI 研究到底是什么?
在這次內(nèi)容分享的開(kāi)頭,謝賽寧就向大家介紹了 詹姆斯?卡斯(James P. Carse) 的兩種分類(lèi):有限游戲和無(wú)限游戲。
這兩種不同的游戲主要有以下區(qū)別:
當(dāng)然,謝賽寧在這次演講中給出了自己的回答:研究理應(yīng)是一場(chǎng)「無(wú)限游戲」。此外,他還談了三個(gè)主題,分別是:
- 我是我自己的天才
- 為什么人工智能研究正面臨變成有限游戲的風(fēng)險(xiǎn)?
- 沒(méi)有人能獨(dú)自玩一場(chǎng)游戲
AI 研究理應(yīng)是一場(chǎng)「無(wú)限游戲」
那么為什么 AI 研究應(yīng)該是「無(wú)限游戲」,這源于它的四個(gè)特征:
抗脆弱性
凡是能從隨機(jī)事件或沖擊中獲得更多收益而非損失的事物,就是抗脆弱的。抗脆弱性不單單只能夠抵御打擊,還能夠在打擊中成長(zhǎng),變得更強(qiáng)。
無(wú)限游戲因挑戰(zhàn)而成長(zhǎng),研究者亦應(yīng)在不確定中愈發(fā)強(qiáng)大。
讓科研突破變得像 「野草生長(zhǎng)」。當(dāng)研究者不再困于預(yù)設(shè)框架,而是任由好奇心驅(qū)動(dòng)探索,那些意外碰撞出的靈感火花,反而能在混沌中開(kāi)辟出新的道路。就像 DiT、SiT 的誕生,正是在打破常規(guī)的自由探索中,從被拒稿的「失敗」里破土而出,最終成長(zhǎng)為行業(yè)基石。
那要怎么找到屬于你自己的研究想法呢?可以根據(jù)這三步走:跟隨你的好奇心和熱情 —— 勇于探索 —— 對(duì)意外保持開(kāi)放心態(tài),從混亂中受益!
這里還有一個(gè)要點(diǎn)需要注意:切忌第一天就鎖定一個(gè)想法,然后寫(xiě)出一篇從頭到尾都沒(méi)變過(guò)的論文 —— 這種工作往往是最薄弱的。
開(kāi)放性
有限游戲的參與者被訓(xùn)練去預(yù)判每一種未來(lái)的可能性,他們的目標(biāo)在于掌控未來(lái)。與之相對(duì),無(wú)限游戲的參與者延續(xù)游戲,是期待著被意外擊中。若不再有意外發(fā)生,所有游戲都將終止。
意外會(huì)導(dǎo)致有限游戲落幕,卻正是無(wú)限游戲得以延續(xù)的緣由。
無(wú)限游戲的參與者時(shí)刻準(zhǔn)備迎接未來(lái)的意外,它們可能是驚嚇,但也可能是驚喜。這些參與者以全然開(kāi)放的姿態(tài)投入其中。開(kāi)放科學(xué)遵循著相同的原則,進(jìn)步并非源于對(duì)知識(shí)的固守,而是來(lái)自分享,這樣一來(lái),探索的游戲才能夠持續(xù)演進(jìn)、生生不息。
學(xué)術(shù)界是唯一能讓你完全自由地以開(kāi)放姿態(tài)「游戲」的場(chǎng)域。
致學(xué)術(shù)界的同仁:請(qǐng)充分珍視這份獨(dú)特的自由 —— 它是一種特權(quán)。
致產(chǎn)業(yè)界的伙伴:學(xué)術(shù)界能成為你強(qiáng)大的盟友,助你降低風(fēng)險(xiǎn)、開(kāi)拓全新方向。
堅(jiān)持
有限游戲的玩家可能會(huì)在目標(biāo)無(wú)法達(dá)成時(shí)觸發(fā)放棄行動(dòng),比如「論文被拒」、「沒(méi)拿到資助」、「沒(méi)成功上線」。
無(wú)限游戲的玩家則視「堅(jiān)持」為一種生存方式,他們會(huì)想「這只是長(zhǎng)遠(yuǎn)游戲的一部分。我該如何學(xué)習(xí)、適應(yīng)并繼續(xù)前行?」
謝賽寧用自己的作品進(jìn)行了舉例,他的論文《Scalable Diffusion Models with Transformers》揭開(kāi)擴(kuò)散模型中架構(gòu)選擇的意義,并為未來(lái)的生成模型研究提供經(jīng)驗(yàn)基線。論文提出了一種基于 Transformer 架構(gòu)的擴(kuò)散模型,稱(chēng)為 Diffusion Transformers (DiTs),在圖像生成任務(wù)上取得了顯著成果。
但就是這樣一篇神作也非一帆風(fēng)順,這篇論文曾被 CVPR 2023 拒稿。據(jù) Meta 的 AI 科學(xué)家 Yann LeCun 透露,該論文在 CVPR 2023 的審稿過(guò)程中被認(rèn)為 「缺乏創(chuàng)新性」而遭拒稿。
不過(guò),這篇論文后來(lái)被 ICCV2023 接收,其提出的 DiTs) 模型為擴(kuò)散模型與 Transformer 結(jié)合的研究提供了重要參考,也被認(rèn)為是 OpenAI 的 Sora 模型背后的核心技術(shù)之一。
有時(shí)你需要等待 —— 但另一些時(shí)候,你得換一種能讓目標(biāo)實(shí)現(xiàn)的方法。
SiT 作為首次對(duì)基于流匹配的 DiT 模型進(jìn)行規(guī)模化研究的成果,被 2024 年 CVPR 以「缺乏創(chuàng)新性」為由拒稿,卻在經(jīng)小幅修改后被 2024 年 ECCV 接收。
幾個(gè)月后,Stable Diffusion 3 融合了擴(kuò)散 Transformer 架構(gòu)與流匹配技術(shù),這一案例印證了學(xué)術(shù)論文不會(huì)被工業(yè)界論文 「扼殺」—— 如今 SiT 已成為該領(lǐng)域的常用基準(zhǔn)。
謝賽寧還有更多類(lèi)似的經(jīng)歷可以分享,他表示許多被引的論文在最初投稿時(shí)都沒(méi)有獲得最積極的評(píng)價(jià)。但他仍能堅(jiān)持,并且擁抱這個(gè)過(guò)程,而這,就是無(wú)限游戲玩家的作為。
教育
如果把博士的成長(zhǎng)看作一場(chǎng)有限游戲,那么它結(jié)構(gòu)化的規(guī)則和可量化的目標(biāo),與科研這場(chǎng)無(wú)限游戲截然不同。
它以發(fā)表的論文數(shù)量、通過(guò)的資格考試以及博士論文答辯為規(guī)則。參與者往往也是固定的,你、同門(mén)和導(dǎo)師。獲勝條件則是獲得「博士」稱(chēng)號(hào),所有的一切也截止在畢業(yè)時(shí)刻。
博士階段更側(cè)重完成既定任務(wù)以達(dá)成階段性成就,而持續(xù)的學(xué)術(shù)創(chuàng)新則需要超越這種有限思維。
但博士的教育不該如此。謝賽寧假設(shè)了四條新的「游戲規(guī)則」。
- 終身學(xué)習(xí)的修煉:博士階段教會(huì)我們?nèi)绾螌W(xué)習(xí)、提出有價(jià)值的問(wèn)題、顛覆固有認(rèn)知 —— 這些能力遠(yuǎn)超出學(xué)位本身,會(huì)伴隨一生。
- 抗脆弱力的塑造:你將學(xué)會(huì)在不確定性中從容自處,在復(fù)雜問(wèn)題里深耕細(xì)作,把失敗與修正當(dāng)作成長(zhǎng)的養(yǎng)分。
- 從吸收到創(chuàng)造的蛻變:你會(huì)從知識(shí)的接收者蛻變?yōu)橹R(shí)的創(chuàng)造者,更開(kāi)始在學(xué)術(shù)之路上引領(lǐng)后來(lái)者。
- 沒(méi)有終局的旅程:即便戴上博士帽,科研與教育的游戲從未 「通關(guān)」。你會(huì)一直留在這場(chǎng)游戲中,為了探索本身而持續(xù)前行。
我是我自己的天才
謝賽寧亮出自己的觀點(diǎn):你可以并且應(yīng)該自己掌控游戲。
首先問(wèn)自己一個(gè)問(wèn)題:我們?yōu)槭裁匆l(fā)表論文?這里,知名思想家、作家 Hannah Arendt 曾說(shuō)過(guò)的一段話可以作為參考,「我應(yīng)該追求影響力嗎?不,我想要理解。當(dāng)他人理解并以我所理解的同樣方式時(shí),這會(huì)給我一種滿足感和歸屬感。」
因此,謝賽寧提出要「設(shè)計(jì)你的游戲玩法。理解、分享并在這場(chǎng)無(wú)限的游戲中脫穎而出,不是通過(guò)贏得他人,而是做好自己、激勵(lì)他人。也就是講好故事、研究品味。」
研究者有時(shí)就像時(shí)裝設(shè)計(jì)師,要對(duì)一張表、一條信息精雕細(xì)琢,要提出有簡(jiǎn)潔、原則性的方法,還要逐步消融實(shí)驗(yàn)并隔離混淆變量,為自己的項(xiàng)目打造一個(gè)專(zhuān)屬主頁(yè)。
謝賽寧表示,你也要為自己的論文、自己的工作、甚至是本人,打造鮮明的品牌,別再「隨波逐流」。
在信息爆炸的時(shí)代,人們沒(méi)有那么多時(shí)間來(lái)讀論文了,研究者要注重如何實(shí)現(xiàn)更高效的知識(shí)共享以及自身工作的傳播。
謝賽寧表示,已經(jīng)有很多研究者在使用他的模板,對(duì)此表示非常感謝。
模板展示:
為什么人工智能研究正面臨變成有限游戲的風(fēng)險(xiǎn)?
謝賽寧接著探討了 AI 研究有可能陷入有限游戲困境的原因,并指出無(wú)限玩家必須要反抗。
如今,一些令人擔(dān)憂的研究模式正在肆虐,比如一個(gè)主要的有限元研究玩家(如 OpenAI)發(fā)表了一篇新論文(如 4v、r1、grpo、o1、4o),接著便會(huì)出現(xiàn)大批的追隨者以及相關(guān)論文,每個(gè)人都爭(zhēng)相就同一個(gè)主題發(fā)表論文。
這意味著:誰(shuí)發(fā)表的早,誰(shuí)就能獲得更多引用量和曝光度,成為贏家;誰(shuí)發(fā)表的晚,往往會(huì)被忽視,成為輸家。不僅如此,一旦出現(xiàn)一篇「奠基之作」,其他人也會(huì)快速放棄這個(gè)主題。
因此,研究者尤其是學(xué)生和早期研究者面臨著巨大的壓力,為了獲得有限的認(rèn)可而加入到激烈的競(jìng)爭(zhēng)中已經(jīng)成為必然,這令人精疲力盡且難以持續(xù)。
那么,學(xué)術(shù)激勵(lì)機(jī)制是否存在缺陷呢??jī)?yōu)先考慮發(fā)表的快慢而非研究深度或者創(chuàng)造力,獎(jiǎng)勵(lì)快速成功而非持續(xù)貢獻(xiàn)。如果學(xué)界玩的是一場(chǎng)有限的游戲,則注定會(huì)失敗。
如何破局呢?謝賽寧認(rèn)為要定義新的問(wèn)題,畢竟問(wèn)題是層出不窮的。他以自己與 Penghao Wu 合作完成的一個(gè)項(xiàng)目 V * 為例進(jìn)行說(shuō)明,該項(xiàng)目引導(dǎo)視覺(jué)搜索作為多模態(tài)大語(yǔ)言模型的核心機(jī)制。
論文地址:https://arxiv.org/pdf/2312.14135.pdf
在當(dāng)時(shí),多模態(tài) LLM 缺乏這種視覺(jué)搜索機(jī)制,從而阻礙了它們關(guān)注重要的視覺(jué)細(xì)節(jié),尤其在處理高分辨率和視覺(jué)繁雜的圖像時(shí)。他們提出的這種機(jī)制利用 LLM 中的世界知識(shí)進(jìn)行高效的視覺(jué)查詢,在與多模態(tài) LLM 結(jié)合時(shí)可以增強(qiáng)協(xié)作推理、上下文理解以及對(duì)特定視覺(jué)元素的精準(zhǔn)定位。
如今,OpenAI 最新版 o3 和 o4 mini 在發(fā)布的時(shí)候,在模型基準(zhǔn)測(cè)試中加入了 V * 視覺(jué)搜索,并在標(biāo)題中直接寫(xiě)上了利用圖像來(lái)思考。
謝賽寧總結(jié)了一下:有限游戲或許能帶來(lái)財(cái)富、地位、權(quán)力和認(rèn)可;但無(wú)限游戲能提供更深層次、更有意義的東西。
不過(guò),我們不能指望初級(jí)研究者從一開(kāi)始就自然地接受這種放眼長(zhǎng)遠(yuǎn)的模式,問(wèn)題在于:如何才能創(chuàng)建一種能夠孕育并維持這種模式的正反饋循環(huán)?
沒(méi)有人能獨(dú)自玩一場(chǎng)游戲
「要是研究計(jì)算機(jī)視覺(jué),你這輩子都找不到工作。」
—— 某博客文章,2010 年
「你應(yīng)該投身計(jì)算機(jī)視覺(jué)領(lǐng)域。CVPR 是開(kāi)放包容的,從不搞學(xué)術(shù)壁壘。」
—— 某位導(dǎo)師,2013 年
從 2010 年的求職冷門(mén)到 2013 年的開(kāi)放前沿,短短三年的轉(zhuǎn)向印證了技術(shù)領(lǐng)域的迭代速度。10 年這句看似預(yù)言失敗的評(píng)論,恰反襯出技術(shù)領(lǐng)域十年間的顛覆性變革 —— 如今 CV 已成為 AI 最炙手可熱的分支之一,也印證了科研方向選擇中「長(zhǎng)期主義」的價(jià)值。
謝賽寧做出總結(jié):玩家從不稀缺,更多玩家并不總意味著無(wú)限游戲。
他在演講結(jié)尾呼吁科研進(jìn)步不僅依賴個(gè)體突破,更需群體對(duì)開(kāi)放協(xié)作的維護(hù)。
別把我們的學(xué)術(shù)社區(qū)視為理所當(dāng)然 —— 我們每個(gè)人都肩負(fù)著讓它變得強(qiáng)大且包容的責(zé)任。