頂會0篇，一夜RLHF爆文刷屏！他靠寫作逆襲AI圈，院士都說好

2025-06-09 09:00:00

人工智能新聞

他不是天才，博士畢業0頂會論文，卻靠著堅持寫技術博客，因RLHF「網紅」博客文章一炮而紅，逆襲成功、躋身AI核心圈！技術可以遲到，但影響力不能缺席。這一次，是寫作改變命運。

Ai2的高級研究科學家Nathan Lambert，最近分享了他如何走上AI之路。

盡管起步艱難、幾經波折，他依舊在AI領域站穩腳跟、有所成就。

博士畢業時，他沒有在NeurIPS/ICML/ICLR等頂會上發表過文章。

如今，他的谷歌引用數已有5千多，h指數為32。

深度RL：轉行契機

2017年秋天，他開始在加州大學伯克利分校電氣工程與計算機科學系讀博。

他的學術背景是MEMS（微機電系統）、高能物理/激光。

此外，他還在特斯拉做過電池工程實習。

但聽完迎新會、看教授介紹，他立刻就被AI吸引了。

像Sergey Levine（下圖左）和Pieter Abbeel（下圖右）這類教授，當時炙手可熱，風頭正勁。

那正是深度強化學習的高光時刻，相當于今天RL熱潮的「前浪」。

他曾主動聯系Levine和Abbeel，希望加入他們的研究組，但都被婉拒。

雖然未能如愿，但他并未氣餒，反而堅持不懈，一直在主動爭取機會。

之后一整年，他幾乎沒什么真正接觸AI研究的機會。

上課、讀論文，基本是獨自暗中摸索。

他沒采納那種「研究生上課不重要」的建議，反而學到了不少扎實的基礎知識。

但他沒能真正融入伯克利AI實驗室，也沒有AI方向的朋友，身邊全是EECS電氣工程那邊的同學。

世界頂尖學術AI研究實驗室

事后回顧，Nathan Lambert認為入學前，他已有一些些基本特質：

很會專注，能獨自鉆研技術難題。
相信只要肯努力多年，多數人都能做成很難的事。不是不夠努力，是沒堅持夠久。
對讀不讀完博士，無所謂。大不了拿個名校碩士。
有很多沖勁，但沒方向。

基礎不是障礙，反而是勢能的起點。

最難的是第一步，而愿意埋頭學基礎的人，最終會在別人止步之處繼續前進。

第一篇論文

轉機在他挖出了導師Kris Pister的一封舊郵件。

導師幫他牽線認識了當時的Sergey Levine組的博士后Roberto Calandra。

Roberto Calandra現任德累斯頓工業大學正教授（W3教授級別），并領導該校「學習、自適應系統與機器人」實驗室（LASR）

這才算搭上AI的邊：

郵件摘錄：

Roberto對將機器學習應用于飄升機（ionocraft）感興趣。

我們可以嘗試：

優化腿部幾何形狀的學習算法；

為機器人生成「復雜地形」進行測試；

用仿真優化新設計，再用硅材料制造出來測試；

用慣性傳感器數據優化步態、避障，甚至控制真實飛行器。

這次合作從2018年春天開始。

秋天錯過了一次會議投稿，而且很多實驗都失敗了。

到了2019年冬天，論文成為他的「頭等大事」，雖然最后論文完成了，但成文有點粗糙、略顯拼湊。

論文鏈接：https://arxiv.org/abs/1901.03737

每次和Roberto開會，他都「壓力山大」，生怕漏掉AI博士生「習以為常」的東西。

當時，他做了扎實的工作。

盡管當時總覺得自己格格不入，但那份全身心投入的執著對真正的研究彌足珍貴。

如今AI研究如此熱門，太多人只求在簡歷上勾選這段經歷，而非深究細節——

而那時的他，卻低估了自己的價值。

轉機往往藏在別人不經意的一句引薦里。

不是每次實驗都要成功，但每次投入都能積蓄下一次的突破。

從FAIR實習起步

真正的轉機出現在2019年，Roberto問他要不要跟他去FAIR（Facebook人工智能研究院）實習。

正是這個實習把他從「AI圈外人」帶到了「AI圈內人」的軌道上。

FAIR的經歷讓他真正學會了如何做實驗、寫代碼。

之后，他堅持做研究，同時不斷教學來維持學業。

他寫了很多申請，但直到畢業才拿到一些撥款，也算是前人栽樹，后人乘涼。

FAIR實習+大量面試，幫他拿到第二個機會——DeepMind的實習。

盡管實習體驗不盡如人意，但他由此積累了寶貴的技術經驗與人脈資源。

這條路很清楚：一旦你突破了第一道門檻，后面就會順一點——

前提是你一直踩著油門往前沖。

研究生生涯后期，他在心理健康資源頁面上專門列了份「研究現實清單」，記錄所有不如意的事情。

最后，他以零篇NeurIPS/ICML/ICLR論文完成了AI博士。

他不是從小泡在實驗室的「圈內人」，而是靠韌性和創造力硬闖出來的。

這條路，正好也反映了他的AI界朋友圈：一群「AI界的流浪玩具」。

這些「邊緣人社群」各有短長，最后大家都找到自己的落點。

突破圈層的關鍵，不是資源而是契機+準備。

積累勢能，打響名聲

盡管前面經歷了不少波折，Nathan Lambert心里一直有一個明確的目標——

拿下一份工業界研究崗，這對他來說才算真正「在AI領域站穩了」。

最終他加入HuggingFace，那是唯一一份符合他要求的工作。

當時是HuggingFace的研究負責人Douwe Kiela，把他招進去，領導人類反饋強化學習（RLHF）團隊。

讓人沒想到的是，這類崗位會在他畢業一年后幾乎「消失殆盡」。

加入HuggingFace，對Nathan Lambert來說也算幸運，避開了一些聽起來更誘人、但后來大裁員或轉型的公司。

在HuggingFace，他收獲了許多。

其中最寶貴一課，是如何積累勢能（momentum）和心智占有率（mind-share）。

這兩個概念緊密關聯卻存在微妙差異——

? 個體持續積累動能換取行業影響力；

? 作為組織，HuggingFace雖坐擁心智占有率，近期卻面臨動能不足。

動能可轉化為心智占有率，而后者一旦建立，僅需維持引力便能持續發揮影響。

2022年5月加入HuggingFace后，在ChatGPT問世前的七個月里，他認為并未做出顯赫成果。

但堅守HuggingFace的文化，堅持日拱一卒：

每日必須推進技術進展——或是重大功能，或是代碼優化。

但日積月累，鍛煉了好習慣。

博士生導師曾對他說過：「每天專注4小時，你也能改變世界。」

關鍵是要把「磚」一塊塊往上堆——

大多數人放棄得太早了。

在ChatGPT之前的那段時間，他在HuggingFace項目之間輾轉，基本是哪里有事、哪里需要人手就去哪兒。

他們嘗試了用于強化學習的合成環境項目Simulate，但其實他們人手根本不足。

目前，該項目已不再積極維護和開發。

在Diffusers庫，他做了一些邊緣性的貢獻，還做了不少關于負責任AI的研究。

Diffusers提供最先進的預訓練擴散模型，支持圖像、音頻甚至分子3D結構生成

盡管這些工作在都還不錯，但坦白說，沒有哪個項目足以「構建職業基礎」。

那段時間最有價值的，其實是：

練出了穩定的工作習慣；
真正理解了開源AI社區是怎么運作的。

這些為之后遇到契合項目時，他能快速接住、真正發力打下了基礎。

RLHF技術博客「出圈」

他真正「出圈」的起點，是為HuggingFace寫的第一篇重量級博客——關于RLHF（基于人類反饋的強化學習）。

其實那時他沒實現過RLHF算法，也沒完整讀過論文，只是為了搞懂新概念就動筆了。

這和他現在很多寫作動機一樣：寫作是最好的學習方式。

雖然他一直把自己當「強化學習傳人」，但也沒想太多，寫完就發了。

結果它成了RLHF關鍵詞下的長期搜索熱文（雖然現在內容已經有點舊了）。

回頭看，那是他第一次意識到自己的特長：

把顯而易見但沒人做的事，及時簡單地做好。

這是他后來變得非常重要的能力。

很多人會高估別人的執行力，低估簡單方案的價值，然后被自己復雜的想法拖住（沉沒成本效應）。

但其實，即使是「顯而易見」的事，也很少有人認真去做。

比如在做RewardBench的時候，他整整三個月每天都擔心被別人「搶先發布」。

論文鏈接：https://arxiv.org/abs/2403.13787

結果發了后，又過了三個月才有人發競品。

所以，RewardBench是RLHF獎勵模型的第一個評估工具。

勢能來自每天一塊磚，而不是坐等奇跡。當別人還在等待大項目，他已經靠「基礎活」攢下了存在感和專業度。

突破點：公開科研溝通>技術產出

在HuggingFace從事RLHF期間，他為開源社區做了很多基礎性工作：

把TRL庫現代化；
探索人類數據合同；
復刻數據集；
做了第一個LLM排行榜；
還訓練了一些有趣的小模型。

這很充實、也很有趣。

但后來，時差、文化差異等問題接踵而至。

他慢慢覺得不再快樂了。

HuggingFace如果當時能擴張團隊，并配上合適的技術領導，可能能將影響力擴大好幾倍。

但這也伴隨著風險。訓練AI模型是個異常細致的過程，任務繁瑣、對小細節的執行有極高要求。

團隊只要稍微長大一點，可能就能帶來「瘋狂級別」的增益。

不管如何，與此同時，他找到了屬于自己的定位：做開放科研的溝通者。

這個策略其實很簡單：

在AI實驗室趨于封閉、外界關注度飆升的當下，只要持續做與AI相關的事，在公眾眼里的成長就會指數級上升。

他另辟蹊徑，選擇了競爭沒那么激烈的方向。

這讓他更容易脫穎而出。

盡管注意力總量雖然在增長，但真正被關注的人反而在減少——

所以只要成為其中之一，收獲會非常可觀。

如果他當初去了那些「前沿AI實驗室}，可能早就被埋沒在其中，職業成長空間也被壓縮了。

而那時候，他開始堅持每周寫作，就是這一戰略最有力的驗證。

而一旦有了清晰的個人品牌，故事就自然會往你這兒聚攏。

比如HuggingFace最具影響力的模型之一——Zephyr Beta，就是基于他幫助搭建的基礎設施完成的。

之后，他加入了Allen人工智能研究所（Allen Institute for AI，簡稱AI2）。

在他剛加入時，Ai2正好在訓練Tülu 2 70B。

美國藝術與科學院與美國國家工程院（NAE）雙院士、斯坦福大學教授、NLP大牛Chris Manning，如獲至寶，甚至說Nathan Lambert的這兩項工作「救活了DPO」。

盡管在技術上，Nathan Lambert表示這些項目與DPO沒有直接關系。

現在，Chris Manning首次提出直接偏好優化DPO的論文，被引用了3000多次。

論文鏈接：https://arxiv.org/abs/2305.18290

這不是謙虛，而是想說明：

科研不是單一角色的戰場，推動科學進展的，是一個個看似不起眼、但密不可分的角色組合。

漸至佳境

在AI2的這段時間，是他職業生涯中最容易被看清楚的一段。

他希望AI能真正朝好的方向發展，而且堅信更開放的生態是實現這一目標的最好方式。

這份工作對他來說，幾乎是最理想的狀態：

他的公開寫作對AI2有明確價值，而他也能持續鍛煉表達力、擴大影響力。這樣的工作極其稀有，大多數公司并不會真的幫你個人成長。

剛加入AI2時，他也經歷了一段適應期。

通過RewardBench這類重要的學術項目，他表示自己建立了信心：

我能獨立提出點子，并帶頭推進高影響力的研究項目。

角色轉變

許多時候，參與太多合作會讓人忽略一個問題：你是否能一個人把事做成？

（即使慢一點、質量沒那么高、過程沒那么好玩——重點不在貶低團隊，而是看清自己的能力邊界。）

現在，他已轉變了工作方式，已經完全可以「因人隨事」而定。

周圍的同事，年輕、優秀、富有驅動力。

他們更熟悉細節，也更擅長把新點子實現出來。

所以他更多的貢獻是：

指引方向；
提前清除潛在障礙；
創造順暢推進的環境。

他不再是那個親自下場刷代碼的人，而是負責讓項目走得更遠、更穩的人。

這是一種完全不同的角色定位。

他形成了一個非常明確的觀點：

短期研究要產生影響，最有效方式就是把它接入模型訓練流程；

長期研究，就得真正做「長期」準備。

偶爾，他也會做些學術指導，但非常保護自己的時間。

基本不做線上社交（線下少量），大多數合作都會婉拒。

因為在這個階段，高質量的輸出才是短期目標，而「被關注」是一個復雜得多的長期變量。

技術最終服務于人，好的科研不是一個人的沖刺，而是一群人的合力。

當你愿意從舞臺中心走下來，才能搭起更大的舞臺。

職場中的「飛輪效應」

他表示他越來越喜歡用「飛輪」（flywheel）這個比喻來看待項目、職業、乃至整個機構的發展。

就像創業公司在找到產品市場匹配（PMF）前，要不斷試錯迭代，職業生涯也需要不斷點火：

一開始就是不停「試水」、發布、調整；
早期的「爆款」通常都不會真的火，只是逐步積累影響力；
真正讓飛輪轉起來的，是多次的積累之后，勢能終于爆發。

但一旦飛輪動起來，「發布頻率」反而可能成為負擔：

在AI領域，太頻繁發模型，會讓我們來不及掌握、完善下一個模型；
觀眾多了，維護公共輸出的成本也飆升。

早期在HuggingFace和剛進AI2時，他一直推崇「多發模型」，但久而久之，這變成了團隊的負擔。

所以他現在轉向更「少而精」的策略。當飛輪已經轉起來時，更少、更大的動作會更有價值。

飛輪一旦足夠大，有時候什么都不做反而更有效：

項目自然流入；
推薦自然發生；
你會被當成「AI開放科學的頭部人物」之一，而不必不斷自我證明。

真正的成長不是「更努力」，而是「更聰明地努力」。

當飛輪啟動，維持節奏比盲目奔跑更重要。

現在，他花很多時間思考：

如何更有策略地使用積累的影響力？

他不想總是站在最前線親自帶隊，而是希望通過營造環境、鼓勵他人，讓更多重要項目得以發生。

這是一套全新的能力，他還在學習。

而這，正是他始終心系的愿景：AI的未來不屬于孤勇者，而是屬于一群協力前行、彼此賦能的人。

責任編輯：張燕妮來源：新智元

AI 技術論文

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

頂會0篇，一夜RLHF爆文刷屏！他靠寫作逆襲AI圈，院士都說好

深度RL：轉行契機

積累勢能，打響名聲

漸至佳境