突發(fā)｜思維鏈開山作者Jason Wei被曝加入Meta，機器之心獨家證實：Slack沒了

2025-07-16 10:39:05

人工智能新聞

Meta 針對 OpenAI 的挖人竟然還在繼續(xù)！

這或許是目前為止，扎克伯格挖走的最強技術(shù)人才。

就在剛剛，外媒 Wired 的一位資深 AI 領(lǐng)域記者爆料稱，「多個消息源證實，OpenAI 知名研究員 Jason Wei 和另一位研究科學(xué)家 Hyung Won Chung 將雙雙離職，投奔 Meta。」

并且，他們二人的 Slack 賬號已經(jīng)被停用。機器之心也從 OpenAI 相關(guān)人士證實了該消息，「（Jason Wei）Slack 沒了」，但是否是加入 Meta 還有待進一步證實。

Jason Wei 是 OpenAI 的知名科學(xué)家，目前 AI 大模型領(lǐng)域里重要技術(shù)思維鏈（CoT）的主要作者，Hyung Won Chung 也是 o1 的核心貢獻者之一。

image.png

Jason Wei 是 CoT 論文的第一作者，該論文的引用量已超過 1.7 萬

如果你對他們的印象還不夠深，還記得去年 12 月 OpenAI 連續(xù)兩周的新產(chǎn)品發(fā)布會嗎？坐在奧特曼旁邊的就是 Hyung Won Chung，最右邊的是 Jason Wei。他倆都畢業(yè)于 MIT，曾在谷歌工作，現(xiàn)在可能一起去了 Meta。

爆料消息出來不久，Jason Wei 并沒有正面回應(yīng)，而是發(fā)了一篇推特，介紹其長博客，探討了驗證非對稱性以及「驗證者」法則。

但評論區(qū)看熱鬧的大家伙似乎已經(jīng)不關(guān)注他寫了什么，都在恭喜他跳槽到 Meta。

在發(fā)了這篇技術(shù)博客沒多長時間，Jason Wei 又發(fā)了一篇推特。

以下是原推內(nèi)容翻譯：

過去一年成為一名強化學(xué)習(xí)（RL）狂熱愛好者，并且清醒時大部分時間都在思考 RL，這無意中教會了我一個關(guān)于如何過好自己生活的重要道理。

RL 中的一個核心概念是，你總是希望處于「同策略（on-policy）」狀態(tài)：與其模仿別人成功的軌跡，不如采取自己的行動，并從環(huán)境給予的獎勵中學(xué)習(xí)。顯然，模仿學(xué)習(xí)（imitation learning）在最初引導(dǎo)模型達到非零通過率時很有用，但一旦模型能走出合理的軌跡，我們通常就會避免模仿學(xué)習(xí)，因為要充分發(fā)揮模型自身（與人類不同）優(yōu)勢的最佳方式是只從它自己的軌跡中學(xué)習(xí)。一個被廣泛接受的實例是：在訓(xùn)練語言模型解決數(shù)學(xué)應(yīng)用題方面，強化學(xué)習(xí)比簡單地用人類編寫的思維鏈進行監(jiān)督微調(diào)效果更好。

人生也是如此。我們最初通過模仿學(xué)習(xí)（學(xué)校教育）來引導(dǎo)自己，這非常合理。但即使在我畢業(yè)后，仍有一個習(xí)慣：研究別人如何取得成功并試圖模仿他們。有時會奏效，但最終我意識到，我永遠無法完全超越他人，因為他們是在發(fā)揮他們的優(yōu)勢，而這些優(yōu)勢我可能并不具備。這可能是某位研究人員比我更成功地進行大膽嘗試（運行 yolo），因為他們親自搭建了代碼庫而我沒有；或者一個非 AI 的例子：一位足球運動員利用我不具備的力量優(yōu)勢保持控球權(quán)。

進行同策略 RL 帶來的啟示是：要超越前輩（beat the teacher），必須走自己的路，承擔(dān)風(fēng)險并從環(huán)境中獲取回報。例如，比起一般的研究人員，我更喜歡做兩件事：(1) 大量審閱數(shù)據(jù)，(2) 進行消融研究以理解系統(tǒng)中各個組件的作用。有一次在收集數(shù)據(jù)集時，我花了幾天時間審閱數(shù)據(jù)并給每位人類標注員提供個性化反饋，之后數(shù)據(jù)質(zhì)量變得極佳，并且我對要解決的任務(wù)獲得了寶貴的見解。今年早些時候，我花了一個月時間回溯并逐一消融研究之前在做深度研究時嘗試做的每個決策。這花費了相當多的時間，但通過這些實驗，我學(xué)到了關(guān)于哪種類型的 RL 效果好的獨特經(jīng)驗。發(fā)揮自己的熱情讓我更有滿足感，而且我現(xiàn)在感覺自己正走在為自己和自己的研究開辟一片更強大天地的道路上。

簡而言之，模仿是好的，你必須在初始階段這樣做。但一旦你完成了足夠的引導(dǎo)，若想超越前輩，就必須進行「同策略」的強化學(xué)習(xí)，學(xué)會揚長避短。

接下來，我們來看這兩位研究員的履歷。

Jason Wei

Jason Wei 是思維鏈（Chain of Thought，CoT）概念開山之作 ——「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」的第一作者，本科畢業(yè)就加入了谷歌。在那里，他推廣了思維鏈提示概念，共同領(lǐng)導(dǎo)了指令調(diào)優(yōu)的早期工作，并和 Yi Tay、Jeff Dean 等人合著了關(guān)于大模型涌現(xiàn)能力的論文。

2023 年 2 月，Jason Wei 加入 OpenAI，工作內(nèi)容包括了推理模型 o1 和深度研究模型。

image.png

在 Google Scholar 主頁上，Jason Wei 的論文引用量已經(jīng)超過了 77k，其中前兩位分別是 CoT 提示論文和 GPT-4 技術(shù)報告。

image.png

Hyung Won Chung

Hyung Won Chung 出生于韓國，OpenAI 研究科學(xué)家，專注于 LLM 的研究與應(yīng)用。

image.png

他博士畢業(yè)于麻省理工學(xué)院，之后曾在谷歌從事了三年多的研究工作，期間參與了 PaLM（具有 5400 億參數(shù)的大語言模型）、 BLOOM（ 1760 億參數(shù)的開放式多語言模型）、Flan-T5 等多個重要項目的研發(fā)。

離開谷歌后，Hyung Won Chung 于 2023 年加入 OpenAI。

image.png

在 OpenAI 工作期間，Hyung Won Chung 參與了多個重大項目的研究，特別在以下項目中扮演了關(guān)鍵角色：o1-preview（2024 年 9 月），o1 正式版（2024 年 12 月）、Deep Research（2025 年 2 月），以及領(lǐng)導(dǎo)了 Codex mini 模型訓(xùn)練。

在 OpenAI 一些重大發(fā)布會上，我們也經(jīng)常看到 Hyung Won Chung 的身影。

2025-07-16_094627.png

Hyung Won Chung 參與過的 OpenAI 一些發(fā)布會

作為 o1 系統(tǒng)的奠基貢獻者，他在開發(fā)大語言模型的推理、搜索信息能力、以及使用強化學(xué)習(xí)策略方面發(fā)揮了重要作用。

Hyung Won Chung 還在多個重要場合分享洞見，包括斯坦福 CS25 講座廣受大家好評。

image.png

Hyung Won Chung 在 OpenAI 的研究工作中，他的貢獻不僅推動了 o1 系列模型成為具有思考能力的前沿工具，也在編碼智能體、系統(tǒng)評估和安全保障方面開辟了新路徑，形成了一個從理論到應(yīng)用、從開發(fā)到普及的完整研究生態(tài)。

隨著 Jason Wei、Hyung Won Chung 兩位大佬級別的人員離開，OpenAI 真的要被挖麻了。

責(zé)任編輯：張燕妮來源：機器之心

Meta AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

突發(fā)｜思維鏈開山作者Jason Wei被曝加入Meta，機器之心獨家證實：Slack沒了

Jason Wei

Hyung Won Chung