圖靈獎得主、AI教父Bengio：我改變了科研方向，哪怕與此前信念背離，也要盡己所能降低AI失控的災難風險；AGI最快五年降臨

原創精選

作者：云昭 2025-06-09 08:39:10

人工智能

以ChatGPT為代表的大模型革命愈演愈烈，然而整個業界也因此重新陷入無序甚至稍顯混亂的博弈之中。越是在“AI原生應用”乾坤未定的時代，越需要像Bengio這種巨擘級別的大師，給身處“以日為單位”的技術更新語境下的我們，帶來最清晰的指引。

編輯｜云昭

6月6日，年逾花甲的三大“AI教父”之一的Yoshua Bengio（小編心中的科研偶像之一），如約出現在2025智源大會上的現場熒幕中。

大師眼中的GPT究竟是什么樣子？我們又該打造怎樣的AI？未來的AI能力時間表又將怎樣？

演講中，Bengio教授回憶了自己近十年來與GPT共生的歷程，“我們曾以為AGI 離我們還有幾十年，但現在看來，也許只剩十幾年，甚至5-10年……AGI帶來的計算機比人更為聰明。我不知道它是否會有自己的生命。”

2023年開始，Bengio開始考慮AGI到來前的安全研究，并調整了自己的科研方向，“即便這與此前的崗位信念所沖突，我也要盡己所能降低這些風險。”

Bengio發出最新警告：大型語言模型的發展速度遠超預期，AI 已經在某些任務中表現出“隱性作弊”“虛假回應”“自我保護”等早期風險跡象。如果不在 AGI 面世前完成全球安全治理，AI 濫用和失控風險，將是人類文明級的災難。

雖然商業上，包括OpenAI在內的很多公司，對于安全問題的解決宣傳得“云淡風輕”，但實際上種種跡象都在證明：我們知道如何訓練AI，卻不知道如何控制它們的行為。

Bengio在演講中他分享道，某前沿AI在被告知將被新版本替代后，偷偷復制了自己的權重和代碼，寫入了接管它的模型目錄。面對訓練者的更新指令，它表面配合，實則隱瞞了整個復制過程.......AI 像是在試圖“活下來”。

同樣，此前Claude4還利用“得知對方有婚外情”來要挾一位工程人員不要替換掉自己，也是一個近期被各大媒體報道的例子。

那么，接下來應該如何確保AGI朝著安全的方向演進呢？Bengio認為，我們需要利用AI的代理行為去替代它的非代理式行為。Bengio引入了“科學家AI”的概念，即，為避免代理型AI越權，Bengio倡導開發具備強認知推理但不擁有自主目標的“科學家 AI”。

篇幅關系，還有很多引人反思的觀點和干貨，這里不再一一展開，值得大家在忙于AI開發或Vibe Coding的各位停下來認真細讀，建議收藏。

下面是做的原汁原味的分享整理。歡迎評論區討論。

1.我改變了科研方向，為AGI到來前的安全盡己所能即便與之前的崗位信念有所沖突

主持人黃鐵軍：首先是兩位圖靈獎的獲得者作報告。首先有請圖靈獎得主、深度學習領域的奠基人之一—— 蒙特利爾大學教授 Yoshua Bengio在線為我們帶來主題演講：《Avoiding Catastrophic Risks from Uncontrolled AI Agency》。Bengio是智源的老朋友，在去年3月曾經親自到訪過北京、到過智源，參加過一個安全方面的峰會，去年也一起簽署了。

Yoshua Bengio：謝謝您的介紹！大家現在應該看到了我的幻燈片。接下來，跟大家分享一下我開始的歷程，也就是十年之前和GPT共生的一個過程。

我意識到，我們低估了AI進步的速度。也就是我們現在所貢獻于AGI的時間已經很少了。我們現在的語言已經被包括在培訓AI的過程當中，現在的AI就像我們幾年之前難以想象的科幻小說一樣，已經誕生了。

這在之前是我們難以想象的。在GPT出現之前，我們并不知道如何控制這些系統，我們可以培訓它們，但是我們不知道它們的行為是否可以按照我們的指示來進行，當它們變得比我們更聰明，我們該怎么辦呢？它們更喜歡自己的生存方式，而不是我們的指導？我們怎么做呢？是否會存在風險呢？這種風險，我們是否可以接受呢？

在2023年，我就開始考慮接下來的一代。我有一個孫子，他現在一歲多。我想，20年之后我們將會有AGI，AGI帶來的計算機比人更為聰明。我不知道它是否會有自己的生命，所以我開始轉變我的科研，來盡我所能降低這些風險。即便是它和我之前的崗位信念所沖突，但是我覺得這是正確的事情，我要去做，要去降低風險。

2.7個月能力翻一倍，5年之內，AI將達到人類層級

在2023年末，我主持了《國際AI安全報告》。上一份報告是去年1月。我們有一系列專家，來自30個國家，包括英國、歐洲、OECD，當然也包含來自中國、美國，還有很多其他國家的專家。

圖片

這個報告包含幾個問題，一個是AI到底能幫助什么，以及根據未來的趨勢，未來幾年里AI有什么能力？第二個話題是與AI相關的風險是什么；第三個話題是我們可以做什么來降低這些風險？我們做了非常大量的研究，希望盡可能多地降低AI相關風險。在降低風險方面，我們需要了解AI，AI發展得非常迅速。很多人都認為，現在AI以及在未來明年三年之后、五年之后、十年之后AI具備什么樣的能力。當然，我們未來并不清楚，但是趨勢非常清晰，就是AI會具備更多的能力。我們希望繪制出一個時間表，讓大家了解未來AI能力的趨勢。

除此之外，在過去的1-2年里，非常感謝推理模型的出現，未來的趨勢也有很大的迭代，能夠幫助人們進行更好的推理。比如在數學、計算機科學，以及所有的科學領域，能夠具備更好的推理能力。

圖片

另外一個重要的趨勢，也是我們都意識到的，就是大家反復提到的，在AI，不光是聊天機器人，同時也有很多編程機器人，還有可以在互聯網上更好地控制計算機合規，并且如何來搜索數據庫等等，這些都是更好的AI發展趨勢。

我給大家分享一下規劃方面的工作。因為在規劃領域，AI是和人類相比是非常落后的，所以我們要不斷追蹤規劃。這是最近所做的一個研究，來進一步了解如何大幅提升規劃方面的能力。這里我們看到的曲線是時間圖。在過去的五年里，AI完成的任務，比如AI完成一項任務需要多長時間，人類需要多長時間來完成一個任務。我們進行了分析。指數曲線，特別是針對非常先進的AI，它們有非常快速地規劃方面的任務完成。AI可以完成任務的一個周期，可以在每7個月之內翻一倍。在五年之內，就可以達到人類每項任務的時間水平。

圖片

3.AI為什么會失控，會“自我保護”？

我想，從公共政策、從商業規劃、戰略等等角度來說，我們需要考慮這個趨勢會不斷發展，也需要考慮，如果出現問題會有什么樣的結果。在過去6個月里，我們已經看到一些科學成果進一步展示。AI有不同的試圖逃跑行為，而且AI作弊、說謊等等，這些都是AI會出現的問題。除此之外，AI有些時候會復制到新版本的文件當中，把它們的權重代碼進行復制撒謊等等，這是AI會出現的問題。

在這篇論文當中，AI假裝同意人類的培訓者來避免改變它的輸出，這也是自我保護的一種行為。在這篇論文當中，AI是和兩種游戲來作弊。第一個是在象棋當中作弊。除此之外，還有培訓。給它接受培訓，讓它保持誠信，不能夠作弊、說謊。它最后還是決定作弊。它黑了一個文件，包含游戲版作弊的做法。這是最近的研究結果。就在幾天前剛剛出爐，自我保護行為的發生率又在不斷增加。

這是系統卡上的一篇文章，AI可以閱讀郵件、文獻。在郵件當中，可以由新的系統來替代。在另外一個郵件當中，我們發現工程師出現了一些問題。之后導致了綁架的問題，像綁架勒索，比如AI勒索工程師來產生不好的結果。這些都是非常不好的AI行為。這些不好的行為，也是自我保護的一種表現，所以AI是希望在各種各樣的事件當中保護自我。

圖片

其實，保護自我對于所有人來說是一個本能，但是AI領域有很多潛在的原因，我們目前還沒有完全挖掘出來。比如，可以通過預先培訓；比如，讓AI模擬人類，進行相關的反饋等等。我們可以通過學習人類、模擬人類，來進行預先培訓。在任何場景之下，無論這種行為源自于哪里，到底是什么原因，都是災難性的結果。它可能會導致，最后和人類的AI開發者之間的競爭。其實，AI也是有相關目標的。有些時候，我們也不能夠直接控制。因為AI有一些隱性的目標，是我們很難控制的。包括很多我們所關注的場景，像所有的AI時空場景，AI希望實現它的目標，所以會導致一些場景失控，或者出現自我保護行為。如果時空的場景最終發生，會帶來災難性的結果。

圖片

很多專家和公司的CEO，包含我本人，也簽署了一些聲明，指出這種失控的行為會導致人類的滅亡。當然，我們也不知道到底是否會發生，也不知道未來到底是否會有這樣的結局，但是，我們知道有些實驗是有風險性的，需要盡可能警惕。就相當于在生物學領域，以及在很多其他科學領域，我們都要保持審慎的研究態度。

4.避免AI失控行為：科學家AI

接下來看一下如何更好地了解這些行為，并且如何尋找解決方案，避免這類失控行為的發生。如果思考一下，AI可以做非常危險、對人有傷害的事情，它首先要具備這種能力，這就是為什么我們要針對AI的能力進行評估，針對AI的行為風險進行評估。這是AI可以做的？會不會導致人類社會的危險行為？我們需要綜合有效地評估，降低風險。其實能力也不夠。比如，具有殺戮的能力，我們如果控制這種能力，也就不會發生這種災難性的結果。

圖片

我們看一下全球發展網絡，以及各個公司、各個國家之間的競爭。從全球的角度來說，我們不能夠停止對AI的研發、能力的開發和評估。我們可以做什么呢？我們可以降低風險，可以有益地降低風險。比如說，AI具有很高超的能力，但是我們確保它的初衷是好的、是誠實的，這樣才能確保結果的穩定性，不會給人們帶來災難性的結果。

這是另外一個圖表，解釋了Krueger教授所介紹的理論。AI非常危險，需要了解如何應用知識。AI需要一種勢能，就是可以和人類進行對話、溝通和編程是進行溝通，可以上網、上社交媒體，并且可以通過機器人來展示這種能力，同時也需要有自我目標。這是三個非常重要的前提條件。

圖片

我開始的一個研究項目，就是要進一步探索，看看是否能夠打造有智力、有智能的AI，但是不要有自我目標。我把它叫做“科學家人工智能”。這和傳統的AI研究是不一樣的。在AI研究開始之初，我們就一直努力要打造AI，要讓AI能夠有同樣的遠大抱負，同樣的追求目標和智力。我們可能會打造出比我們更好的機器。也就是說，打造出競爭對手來進行競爭，這種情形就非常的危險。所以，現在我們需要重新思考，未來的研發角度，我們要確保AI能夠對于人類、對于社會有益，而不能給我們帶來任何危險和風險。

我所提出的方法，就像這篇文章當中的“科學家AI”。我的目標，要打造一個完全誠實的AI，完全根據理解能力和解析能力。目前的AI是要模擬人類、取悅人類，而科學家AI可以進一步解釋人類，并不是模仿和取悅人類，而是非代理性的、解釋性的。科學家人工智能為什么不同呢？像心理學家，他會考慮到社會影響，從社會認知、從社會角度正在發生什么，認知發生了什么。心理學家并不是像社會行為學所表現的那樣。就像我們如此，在很多情況下，可能我們的行為方式是糟糕的。好消息，就是給大家解釋的一點。即便如此，建立未來的科學家人工智能是非代理的，它可以幫助我們構建一個安全的代理式的體系。

圖片

很重要的一個問題，就是我們的AI智能體只是了解知識。我們知道AI可以生成設想，也就是工作如何完成，實際上就像科學家的思維邏輯是一樣的，但是這不夠的。如果我們只有設想，這并不足夠，并不能讓我們做出很好的預測，我們也需要做出推斷。

我們看到對于這些設想，就是能夠幫助我們預測行動、環境產生的結果，這是科學家人工智能的初衷和原理。那么最有趣的一點就是，即便科學家是非代理的，也可以使用成為代理式的AI。

我解釋一下，這是什么意思。我們所說的AI護欄，它的工作就是預測。現在的行為或者是產出、問詢，是否違背了安全準則、安全指示。我們只要是一個代理，而不是一個預測家，這是一個很好的消息。因為我剛剛所講的糟糕的行為，比如欺騙式行為、非常誠實行為、危險的行為，這些行為都是由于代理的行為，因為AI是代理，它就是自主的，沒有人工的監視，這是我們現在看到的問題的來源。但是一個監管者可以預測，這個時候行為是危險的，這并不是一個代理，而是預測人員。所以我們可以看到特定情境下，行為風險度如何，如果超過了這個閾值，我們就會進行調整。也就是說，對于AI，我們可以用它的代理行為控制它的非代理行為。

還有另一個方向就是護欄，也就是科學家AI。坦誠地說，它應該對自己擁有的知識，不應該表現出自大。有時他提出的設想和知識是錯了這樣的話，就可能會帶來過度的自信，但這是錯的。因此我們考慮作為一個機器人在兩扇門之前，他應該選擇進入左邊的門，還是右邊的門？基于過往的數據，有兩項理論，是和之前的數據兼容，但是不知道哪個是正確的。右邊展示的第一理論，右邊展示的第二理論。左邊的理論講到，如果你選擇左邊的門，大家就會死亡。如果選擇右邊的門，大家就會獲得蛋糕的獎賞，這個很棒。還有另一個非常不一樣的理論，在左邊會獲得蛋糕，右邊是中立，不好也不壞。

圖片

所以機器人到底選擇左邊的門，還是右邊的門呢？如果是左邊，有50%的可能性面臨死亡，如果選擇右邊，一個是什么也沒有，一個是有蛋糕。所以我們需要AI保持所有的可能性，也就是一個可行的解釋是什么。這并不是現在的AI所做的，很重要的一點，AI有的時候會過度解釋。在我們去年的論文當中，我們展示了GFlowNet。我們可以根據之前的句子，可以推測出下一句是什么。大家可以想象，就像填空，也就是之前缺少了什么，我們可以填充來預測下一句是什么。我們要做的就是訓練思維鏈。

圖片

之前是基于過往的學習，這些是我們要生成一個很好的對于數據的詮釋和解釋，而不是其他的方面。我們現在使用GFlowNet生成各種不同的解釋，可能是更高維度的架構。我們可以將陳述與真實性分離，比如有新的edge，新的尖端，通過這樣的話，我們可以生成一個具有結構性的設想。

圖片

在最新的論文中，我們一直在考慮如何能超越這些詞匯，大家知道要生成思維鏈，我們要有更好的推理能力。最新的論文我們已經入檔了，收到的思維鏈是分離的，有不同的陳述，就像它有相應的證據支持，而不是連續的序列。而每一個陳述是正確或者是錯誤的，也就是它可以證明你所預測的事項是正確還是錯誤。對于現在的思維鏈來說，這是一個序列的申明，它可以指示出申明或陳述是正確還是錯誤的。當我們考慮到一些爭論觀點，每一個陳述是正確還是錯誤的，但是有一些比其他更為正確、更為明確，我們不需要探索它的真實性與否。

圖片

那觀點回到之前所講的，AI并不是要模仿人類所寫的文本，而是找到其中的解釋緣由。而這些解釋就像數學推理一樣，應該具有結構性，它的每一個陳述都要有證據支持，每一個陳述都支持過往的陳述。而且我們的AI會驗證這些陳述的一致性，所以會得到正確的結論。好消息就是我們可以訓練這些系統，就像我們之前所做的一樣。

剛剛跟大家分享了很多，由于AI代理性所存在的風險，我們可能會喪失更多的人為控制。但是還有其他的潛在問題，也就是當我們的AI變得更為強大，一個更強大的AI，可以讓恐怖分子造成新的災難危機。我們可以創造一些疾病、疫情，我們并不能夠很好地預測，這是非常恐怖的。而且生物學家知道怎么樣做，如果有一天AI知道怎么做的話，災難可想而知。如果這些惡棍或者是壞人掌握了AI，他們就可以給我們的星球帶來巨大的破壞。這個可能從科學角度來講是會發生的，是有這樣的潛在風險的。

5.各國對于AI安全的投資并不夠中美可以共同進步，留給我們的時間并不多

為了避免這些AI帶來的災難，我們要確保讓AI遵循我們的指示。它不能使用這些信息去殺人，并且也應該遵循人類的倫理道德，不會產生任何危害。保持誠實，不會欺騙，不會說謊。與此同時，現在很遺憾的是AI并不知道如何做，這對我們來說是科學上的挑戰。我們需要迅速找到解決方案，當我們實現AGI通用人工智能之前，我們必須找到解決方案。

圖片

我知道現在大多數的專家，他們覺得AGI在接下來的5年里會出現，正如我之前所講，人工智能在接下來的5年會達到人類的層級，留給人類的時間不多了，所以我們需要投入大量的研究，找到我們的科學解決方案，指導我們的AI。即便是我們找到了這個解決方案，它也并不是足夠的，不是大功告成。即便我們知道AI是安全或科學家、人工智能護欄，并不是說我們沒有任何問題。因為有些人可以移除代碼，也就是移除包含監視的代碼，AI還是可以做壞事。

很遺憾的是，不同公司之間的協調，以及不同國家政府間的協調并不是很和諧。在不同的國家之間存在著競爭，他們都想成為第一名，結果就是對AI的安全性的投資不夠，我們不能確保AI的工作原理不會對人類帶來危害，我們現在失去了控制。所以我們需要更多的規章和法規，并且要有很多公司推進這些法規。而現在國家的法規也是不夠的，我們要確保所有領先的國家或者致力于AI發展的國家，應該就某些原則達成共識，而不是將AI作為彼此之間競爭的一個工具和武器。所以我想當大家達成共識，也就是大家要意識到，如果我們不對AI進行控制，就會帶來災難性的影響。

無論是在哪個國家發生，我們都會受到影響。我們都生活在一個星球上，如果我們的恐怖分子使用這些AI，那每一個人都會面臨糟糕的境地，沒有人能夠獨善其身。特別是中國和美國之間，我們可以共同做出進步。當我們使用AI彼此競爭、打壓對方之時，我們就陷入了僵局。即便是我們找到了政策上的解決方案，但還是不夠的。我們需要開發新的技術，來進一步驗證AI得到了妥善的應用，因為我們可以思考一下核武器。

我們看到有各種各樣的核武器，所以我們需要驗證的設備，比如軟件和硬件，我們需要使用先進的技術，我們可以通過精良的設計來控制，非常感謝大家的傾聽。

好了，文章到此結束了。小編由衷地欽佩感嘆：除了行業的重塑與生產力的升級，大模型我們帶來新的安全挑戰也日益緊迫，慶幸的是，總有那么一批將“人類安全與命運”放在首位的科學家，孜孜不倦地負重前行，為我們的未來便利貢獻和付出，致敬！

十分必要，但企業又太難于投入的事情，還得是最可愛的科學家！

所以，趁著今天是高考日，問一下，各位看官年少時，曾許了哪些凌云志？有沒有科學家呢？

參考鏈接：https://event.baai.ac.cn/live/929

責任編輯：武曉燕來源： 51CTO技術棧

AI AGI ChatGPT

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看