OpenAI研究員首次提出「AGI時間」進化論!o1數學已達「分鐘級AGI」
隨著AI不斷刷新各項基準測試,關于AI的發展各方也態度不一。
早在本月5日,「泛化的未知未來」研討會上,眾多知名研究員就相關話題展開了一場針鋒相對的辯論。
此次辯題是 「當今的LLM沿著既有路線持續發展是否就足以實現真正的AGI」。
辯論分為兩個陣營:「火花派」認為現有技術已經具備或即將具備解決這些難題的能力;「余燼派」則持懷疑態度,認為需要更多質的變化。
正方辯手Sébastien Bubeck
辯論正方是Sébastien Bubeck,在辯論五周前加入OpenAI,是「Sparks of Artificial General Intelligence」的第一作者。
論文地址:https://arxiv.org/pdf/2303.12712
在過去幾年里,Sébastien Bubek由于專注于研究大模型的智能涌現問題,所以更加主張隨著大模型的智能涌現,就足以產生解決現存NP難題以及黎曼假設的智能水平。
反方辯手Tom McCoy
反方是Tom McCoy,目前是耶魯大學語言學助理教授,是「Embers of Autoregression」一文的第一作者。
論文地址:https://arxiv.org/pdf/2309.13638
他在約翰霍普金斯大學獲得認知科學博士學位,并在普林斯頓大學作過計算機科學的博士后, 博士后導師是Thomas Griffiths。
今年他開始在耶魯大學擔任語言學助理教授,從事計算語言學、認知科學和人工智能的研究。他對人和機器如何學習以及表示語言結構感興趣。
現有的LLM能夠基于擴展解決重大數學問題嗎?
Sébastien表示過去幾年LLM取得的進步「簡直是奇跡」。
重大未決數學猜想是指那些大多數人類專家認為無法用當前證明技術解決的問題,比如P≠NP或黎曼猜想。
比如,在MMLU基準中,最佳模型已超過了90%,已經徹底飽和。在醫療診斷領域,GPT-4則達到了90%正確率,而人類醫生才達到了75%準確率。
并且與辯題相關的高中數學競賽基準很快也會飽和。
Google最新發布的AI數學家,通過微調的Gemini系統,可以拿到2024年國際數學奧林匹克競賽銀牌。
基于這種趨勢, Sébastien認為到明年LLM拿下IMO的金牌不是問題。
隨著各種基準日益飽和,Sébastien表示真正衡量AI進步的尺度應該是「AGI時間」。
Sébastien:擴展AGI時間足以解決
GPT-4目前處于「秒級AGI」,在許多情況下可以快速響應并給出答案,類似于人類可以極短時間內作出反應。
對于某些編程任務,GPT-4可能已經達到了「分鐘級AGI」,即它能像人類一樣花幾分鐘時間編寫代碼片段。
而o1則可能已經達到了「小時級AGI」。
在數學領域,GPT-4仍然停留在AGI秒階段,即便是o1也只是「分鐘級AGI」,因為它無法像人類那樣花費較長時間深入思考復雜的數學問題。
Sébastien表示對于重大開放性問題的解決,類似于黎曼猜想等重大數學問題的證明,那就可能需要AGI能夠持續深入研究問題并堅持數周。
他表示道:「如果你有『周級AGI』的能力,那么你就擁有了這一切。」
Tom:依然欠缺創造性飛躍
而Tom則對Sébastien的觀點抱以懷疑的態度,他認為僅靠現有方法的擴展是不足以去解決復雜的數學猜想的。
Tom McCoy的核心觀點是證明數學猜想需要某種創造性的飛躍。
「很可能我們還欠缺某種創造性的飛躍,也就是一種全新的證明思路。在有了這種新思路之后,還需要結合長時間的推理與規劃,最后才能形成符合學術標準的可信且完整的證明」。
他表示雖然LLM不僅僅是記憶,但是其泛化能力并不足以解決數學猜想,因為解決數學猜想「需要提出一個全新的想法,而不僅僅是已有想法的組合。」
而且他認為LLM缺乏長期推理和規劃的能力,它們的能力很大程度上取決于訓練數據的性質。這也是他們「Embers of Autoregression」論文的主要觀點。
而且至關重要的是,到目前為止的擴展(scaling),并沒有從根本上解決這個問題。
「我們需要的是根本性的變革,因為對于新的證明方法來講,其在訓練數據中的頻率是0。所以無論怎么去繼續擴展規模,都不會讓LLM能夠接觸到這些新的證明方法,至于繼續從這些新的方法里繼續學習也就無從談起了」。
Tom還表示由于LLM幻覺的存在,讓其形成洋洋灑灑數十頁乃至數百頁的可信數學證明是不現實的。
「問題在于,當需要撰寫的證明很長時,即使我們能大幅降低幻覺出現的概率,但只要這個概率不為零,當證明足夠長時,證明中出現錯誤的可能性就幾乎是必然的。而且只要證明中存在一處缺陷,這個證明就無效了」。
所以Tom認為,為了給出可信的嚴謹證明,LLM需要的是質變,而不僅僅是擴大規模所帶來的那種量變收益。
總的來說,Tom認為有兩個關鍵因素阻礙了當前LLM方法實現解決重大數學猜想。
第一是需要實現創造性的飛躍,產生全新性質的想法。第二是能夠在數十頁或數百頁的篇幅中進行持續的長期推理和規劃。
結合與擴展推理
Sébastien:「組合」就足以強大
為了反駁Tom的「模型的泛化能力僅僅是將兩個不同的想法組合」,Sébastien詢問在坐的聽眾:「你覺得你做的比僅僅將現有的想法結合起來更多嗎?」
Sébastien認為將事物互相結合的這個過程本身就附帶了一定的隨機性,類似于在「思維空間里隨機游走」。不斷地組合現存事物,即可產生突破性的成果。
「至少對我來說,當我回顧自己所做的事時,我覺得大部分都是在做組合的工作,然后添加一點隨機性進去。實際上,我寫過很多論文,在其中我借鑒了別人的成果,然后意識到他們所做的其實也只是在組合已有的東西。」
錯誤也可以在多智能體環境被糾正
Tom的第二個核心論點是「隨著推理變得越來越長,錯誤是不可避免」。
對此,Sébastien認為問題被夸大了。即便是知名研究員撰寫的論文,如果它們超過了50頁還能保持完全正確的,也是非常非常少。
但這不意味著論文的結果是錯誤的,況且錯誤也可以被他人所指正。
「我可以想象一個未來,有一群AI共同工作。那將是一個多智能體的環境,其中一些AI在閱讀其他AI寫的論文,然后指出錯誤并得到修正回饋,等等。這絕對是一個可能的未來」。
后訓練是否可以解決現存問題
Sébastien對于「Embers of Autoregression」一文中提到的問題,即訓練數據表示不充分時會出現更多錯誤。
「當然,這絕對是一個真實的陳述,但它只是針對基礎模型的真實陳述。」
但是Sébastien認為這并不意味著模型本身就不具備能力,只是因為訓練數據中一些任務表示不夠充分。所以可以通過后訓練來提取相應的能力。
他對Tom講道:「我認為你在Embers of Autoregression論文中提到的只是關于基礎模型的內容。如果你對其進行后訓練,一些結論可能會改變。」
Tom回應:后訓練不行
Tom表示其論點是基于基礎模型的。
他認為這些由預訓練產生的效果在后訓練中仍然持續存在:「我們分析過的模型全都經過后期訓練,但它們依然表現出這種自回歸的痕跡。」
o1表現確實比之前的模型都要好得多,但它仍然在處理字母順序上比逆向字母順序表現出更好的效果,以及其他類似的情況。
「即使這些后訓練方法也不足以改變模型的基本性質,其基于自回歸的根本特性。」
因此猜測「要完全消除這些問題,需要從預訓練階段就明確且直接地對推理進行訓練,因為目前的情況,模型中的推理實際上是在最后拼湊上去的。」
這是一個非常重要的步驟,而且在訓練浮點運算次數等方面,與其他方法相比它要少得多。
「因此,為了達到所需的穩健性,這需要某種質的變化。」
是的,另一個問題是,除了能夠組合現有的想法,找出哪些想法需要被組合起來也很重要。
據他了解,那些令人印象深刻的想法組合,大部分是人類告訴AI模型的:「這里有兩件事,我們要你把它們組合起來。」
但他認為,「知道哪些東西的組合會產生新的證明技巧, 這是一個更難的問題。」
此外,他完全同意「一些著名證明的想法,確實是通過令人印象深刻的方式將現有想法組合在一起而產生的。」
從新穎性或創意角度來看,有些方法雖然未解決問題但也很成功, 他表示「像費馬大定理這樣的問題,之所以受到盛大的慶祝,是因為它們極具創意,并且以非常新穎的方式使用了舊技術。」
Sébastien:人機交互很重要
這次Sébastien表示要稍微偏題一下,那就是「AI自行解決問題之前,它將與所有人進行合作。」
他分享了與AI一起合作做研究的經歷。
「凸函數的梯度流能有多長?」
這個問題當時還是他在Dropbox中的草稿,并且還沒有發表。所以可以肯定這沒有被包含在訓練數據中。
他向o1模型問了這個專業問題,沒想到o1將問題與所謂的自收縮曲線聯系了起來。
但這種關聯并不直觀,而且它解釋了為什么在這兩者之間建立聯系是個好主意。并提供了相關文獻。
而Sébastien自己花了三天時間才找到這個聯系。
也就是說,即便僅僅是目前的基礎模型,也足以讓他能夠加快三天的研究進度。
他表示在明年更多的科學家會經歷類似的體驗。
「這和醫療診斷領域發生的一樣。在每個領域都有同樣的故事。AI至少將與我們幾乎平分秋色。」
隨后Tom也認為AI可與人類合作,但這不必然意味著它可以不依賴于人類而獨自做出對數學的創新貢獻。
「為了解決某些未解決的數學問題,僅僅和人類一樣好是不夠的,實際上它必須在某種程度上比人類更好,或者至少比我們迄今為止所提到的任何人類(比如高斯)都要好」,Tom回應道。
Tom:推理時間擴展面臨指數級增長困境
Tom發起了一個疑問,「在假設有無限的時間和數據的前提下,擴展是否會最終達到目標?」
如果我們把這個問題降到實際層面,即是否有一個數字X,在經過X年后,通過擴展能否達成目標。
他認為首先,人們已經開始擔心現有的互聯網數據量是否足夠支持這種數據規模的繼續增長。例如,繼續現有的數據擴展水平。
測試時擴展變得如此令人興奮的原因之一就在于它提供了一種不同的擴展方式,這種擴展不再那么依賴預訓練數據的規模。
但是即使是對于測試時擴展或訓練周期數量的擴展,也存在一個問題:許多已觀察到的scaling law表明,性能改善隨著規模擴大是按對數增長的。
這意味著我們需要更多指數級的數據或推理時間才能繼續看到性能提升。
Tom擔憂「到了某個時候,這種指數型增長可能會變得不可行」。
同時,Tom認為對于 AI 系統來說,穩健地用新方式使用那些熟悉的想法也很重要。
「我們也有證據表明,AI系統在以熟悉的方式使用某些概念時,表現得比以新穎方式使用時要好得多。有趣的是,這與人類的情況有點類似。」
比如,給GPT-4一個數字,讓它乘以9/5再加上32,其準確率大約為11%。但若同時告訴GPT-4「也就是將數字從華氏度轉化到攝氏度」,其準確率提升到了62%。同樣的計算,僅僅認識到這是熟悉的場景,就足以顯著提高性能。
Tom總結:總體樂觀,但懷疑Scaling不行
Tom在總結時以一個笑話開始。
這個笑話是這樣的:
一群朋友在公園里散步時, 遇到了一個男人和他的寵物狗正在下棋。他們走上前說:「哇~,你的狗竟然會下棋!真是太神奇了!」那個男人回答:「哦,其實也沒啥,通常都是它輸了。」
故事的笑點是,這個人對他的狗會下棋習以為常,然而對一只狗而言,會下棋就已經很神奇了,哪怕它并不擅長下棋。
Tom對大語言模型的批評也是如此:「大語言模型能做這么多的事情,真是令人驚嘆,即便在很多事情上做得并不完美。所以,大語言模型確實很厲害,但重要的是,不要過度夸大它們的能力。」
他認為:「大語言模型的這些能力來源訓練數據。」
通過反復觀察,他非常清楚地看到大語言模型的能力與訓練數據的頻率緊密相關。
這樣看來,大語言模型擁有如此廣泛和令人印象深刻的能力,可能更多地反映了訓練數據的多樣性,而不是說其具備深層次的泛化能力。
這意味著如果我們希望大語言模型能夠真正地別開生面,這就需要不同于當前的范式。
只用當前的范式Scaling是不夠的,因為所需的能力并不包含在訓練分布中。
現在,確實有可能存在一個學習器(learner)能夠做到超出其數據范圍的事情, 因為人類就可以, 畢竟人類過去已經解決了數學中的多個猜想。
但到目前為止,還沒有證據表明大語言模型能夠達到這種創造力和深度。
他認為「總體上,我對AI能夠幫助我們解決這些未解問題是樂觀的,但我懷疑僅靠擴大規模不能做到這一點。」
他認為需要改進以下關鍵點:
第一點是增強長距離推理和規劃能力,以及更好的長期記憶。
因為僅僅給大語言模型更大的內存可能還不夠,還需要找出如何讓它們有效地利用增強的記憶,確保能夠在非常長的記憶背景下識別出重要信息。
第二點,需要找到解決幻覺和可靠性問題的方法。一種潛在的技術是更流暢地與符號組件(如證明驗證器)進行集成。
另一個是他之前提到過的想法,可能從一開始就優化系統,使其更適合操作思想而不是語言。
大語言模型首先是一種語言模型,它們主要的初始預訓練階段基于語言預測。
而最近的方法確實包含額外的微調和后訓練階段,但基本模型本質上仍然以語言為基礎。
因此,這就導致了這樣一個效果:大語言模型處理概念的能力必須通過語言間接地涌現。
他認為這很可能解釋了為什么如此多的LLM推理仍然相對脆弱或容易受到概率的影響。
為了繞過這個問題,重要的是讓模型直接優化推理能力,而不是從語言開始優化。
最后的一點是,采取什么措施來產生創造力,這確實非常令人困惑。
他認為沒有人知道具體需要什么才能具有創造力。
但有幾個因素可能很重要,那就是抽象能力和類比能力,因為抽象和類比將以新的方式看待熟悉的想法,從而建立前所未有的聯系。
這一切說起來容易做起來難,但他確信點燃AGI星星之火需要持續不斷的富含人類智慧的創新。
Sébastien總結:創意就是模式識別
Sébastien認為「在進入大學階段或剛入大學階段,我們會接觸到很多東西,知識也逐漸擴展。然后進入研究生階段,就開始深入研究了,會花很長時間思考問題。在讀研的第一年,你可能會選擇一篇論文,然后花費一個月的時間來鉆研它。」
而大語言模型在互聯網數據上的預訓練也是如此。
它們被訓練地特別針對性地深入地思考某個具體的問題領域。
Sébastien認為第二個非常關鍵的要點是:「一切都是涌現,沒有硬編碼。」
不用向AI下達「請檢查答案」「請回溯」「請做XXX」這類指令。
不用向模型傳授任何錦囊妙計。
通過強化學習, LLM能學到這一切。
GPT-4的智能涌現讓Sébastien感到驚訝不已:「一旦事物開始以這種方式涌現,這種能力的極限到底在哪里,你怎么能說得清楚呢?這真的很難說。但這個非常重要。」
然而問題是現在LLM卡在這里了,即便是o1也是如此。
此路不通,可以另尋他路,其中一種方法當然是合成數據。Sébastien與微軟團隊一起開發的Phi系列模型,一直在這樣做。
Sébastien的最后一個觀點是關于真正的創造力。
他表示美好的時刻就是「審視自己的工作以及那些人所做的工作的時刻」, 真正的創意時刻就是「識別出模式的時刻。」
他再次強調,「識別模式有點像組合事物,但它可以在不同的規模上進行組合」。
他感慨到:「這不僅僅是將兩個想法結合在一起。就像你突然發現很多事情以一種非常新穎的方式相互關聯。」
這就是一個好定義的含義。
一個好定義能夠涵蓋可能無限多的東西,并將其濃縮成精煉的一句話。
「所以構建那些好定義的過程,全在于識別模式,全在于抽象化。現在關鍵點是這似乎是一種可以傳授的技能。你可以給出一些例子。你可以設計許多關于如何提出一個好的定義的例子。一旦你將這種抽象能力注入模型中,想出一個好的定義,然后把它和其他我們說過的內容結合起來,我就看不到這些模型能做的事情有什么限制。 」