Ilya出走加劇OpenAI離職潮！RLHF作者Jan Leike同日辭職，超級對齊項目分崩離析

2024-05-15 18:41:58

數小時后，RLHF發明者之一Jan Leike也追隨他的腳步一起離開，再次給OpenAI的前途蒙上了一層陰影。兩人共同領導的超級對齊團隊成立還不到一年，已經分崩離析。

數小時后，RLHF發明者之一Jan Leike也追隨他的腳步一起離開，再次給OpenAI的前途蒙上了一層陰影。

兩人共同領導的超級對齊團隊成立還不到一年，已經分崩離析。

△他甚至不留下一句客套話

Jan Leike在GPT-4項目上與Ryan Lowe共同領導了對齊工作，而后者也已于3月底離開OpenAI。

所以說不止超級對齊團隊，而是整個OpenAI安全研究方向的人才，都在持續動蕩中。

超級對齊成員之一William Saunders，以及參與過GPT-4對抗性測試的Daniel Kokotajlo，此前兩人均已離開OpenAI。

其中Kokotajlo在Less Wrong論壇留下了自己的理由：

對OpenAI能否在AGI時代負責任的行動失去了信心。

按他的說法，當前的AI監管努力集中在“評估風險和采取緩解措施”的組合上，這種組合很容易被大型公司鉆空子利用，最終導致“選擇性暫停”，也就是最需要被監管的前沿大型AI實驗室反而沒被監管到。

“幻滅了”，這是他用來形容辭職原因的說法，可能也代表了所有這些AI安全研究人員的心情。

對于這一系列事件，有網友表示：Ilya和Leike離開后，OpenAI可能不再是原來的OpenAI了。

還有人更悲觀一些，失去兩人以后，把對OpenAI能做好AGI的預期調整為零。

以及AI安全問題如此重要，讓人們無法以看熱鬧的心態來看待這些“抓馬”。

超級對齊團隊或不復存在

為什么Jan Leike的離開引起這么大影響？

他早年在DeepMind工作，與OpenAI團隊共同開發了人類反饋強化學習RLHF，后來成為ChatGPT的核心技術之一。

加入OpenAI后，從代碼大模型Codex、ChatGPT的前身InstrucGPT，到ChatGPT、GPT-4他都是重要貢獻者。

在去年11月的OpenAI董事會叛變風波中，Jan Leike也發揮了關鍵作用，可能是促成Ilya最終回心轉意結束亂局的因素之一。

2023年底，《時代》雜志將他列為人工智能領域100名最具影響力的人物之一。

2023年7月，Jan與Ilya發起了OpenAI超級對齊團隊，拿出20%總算力，直接越級瞄準如何控制還不存在的超級智能。

對于不同時間尺度的AI風險，OpenAI有三個團隊來分別應對，其中超級對齊負責遙遠的未來。

超級對齊團隊的第一個成果《Weak-to-Strong Generalization》，試圖證明通過弱模型監管強模型是一條行之有效的路徑

此外他們還開源了用于分析大模型可解釋性的工具OpenAI Transformer Debugger。

這個工具結合了自動可解釋性技術和稀疏自動編碼器，支持神經元和注意力頭干預，讓研究者無需便攜代碼即可獲得數據。

除了研究之外，超級對齊團隊此前還有一系列資助AI安全研究的計劃，第一期總計向學校、非營利組織和個人發放了1000萬美元資金。

可能也就此成為絕唱。

在大量人才持續出走的同時，OpenAI也引進了一些新鮮血液。

最新消息，他們挖來了谷歌搜索廣告業務的21年老將。

在商業化的路上不斷加速，或許是AI安全團隊選擇分道揚鑣的原因之一。

責任編輯：武曉燕來源：量子位