2030年,AGI概率至少10%!AI范式轉(zhuǎn)變快,誰能預(yù)測(cè)GenAI下一代?
AGI已經(jīng)來了?還是快來了?還是說AGI也是一種「技術(shù)烏托邦」?
對(duì)于AI的能力,到底該如何預(yù)測(cè)?AGI帶給人類的是「祝福」還是「詛咒」?
最近,Epoch AI高級(jí)研究員Ege Erdil論證了如何預(yù)測(cè)AI的能力:
1) 基于當(dāng)前AI能力的外推預(yù)測(cè):通常在估計(jì)AI在已具備基礎(chǔ)能力的任務(wù)上的進(jìn)展速度時(shí)更可靠。
2) 第一性原理推理:在預(yù)測(cè)AI尚無法完成或只能極其勉強(qiáng)完成的任務(wù)時(shí),往往更加準(zhǔn)確。
結(jié)合兩種方法,他認(rèn)為到2030年實(shí)現(xiàn)人類智力水平的AI可能性至少10%,樂觀估計(jì)為20%。
此外,由于AI未來帶來的經(jīng)濟(jì)收益主要來源于它目前尚未掌握的任務(wù),如果僅僅依賴第一種外推法,那么極有可能嚴(yán)重低估AI未來的發(fā)展速度、廣度以及影響力。
預(yù)測(cè)AI也得講道理
在嘗試預(yù)測(cè)AI系統(tǒng)未來的能力及其將帶來的經(jīng)濟(jì)和社會(huì)影響時(shí),通常有兩種不同的方法:
1)回顧過去以及事物變化的速度,然后嘗試將現(xiàn)在的情況外推到未來。這種方法傾向于分析過去的數(shù)據(jù)和趨勢(shì)來推測(cè)未來的走向。
2)基于第一性原理推理,考慮人腦的能力和資源使用情況、不同領(lǐng)域的訓(xùn)練數(shù)據(jù)的可用性、獲取不同任務(wù)的獎(jiǎng)勵(lì)信號(hào)的成本等,以估計(jì)自動(dòng)化任務(wù)的難度。這種方法更加理論化,它依賴于對(duì)基本事實(shí)的理解來進(jìn)行邏輯推理。
這兩種方法代表了預(yù)測(cè)AI能力的兩種根本不同的方式。
第一種方法更常被經(jīng)濟(jì)學(xué)家所青睞,因?yàn)樗蕾囉跉v史數(shù)據(jù)和趨勢(shì)分析,便于理解和應(yīng)用。
而第二種方法則更適合用于深入探討技術(shù)可行性及其限制,提供了關(guān)于AI發(fā)展可能遇到的技術(shù)障礙的洞察。
每種方法都有其獨(dú)特的優(yōu)勢(shì)和局限,在實(shí)踐中可能會(huì)結(jié)合使用以獲得更全面的視角。
采用第一種方法的人在預(yù)測(cè)時(shí),往往假設(shè):在未來AI在最容易完成的任務(wù),與AI當(dāng)時(shí)能夠完成的任務(wù)相似。
一篇2013年出版的經(jīng)濟(jì)學(xué)論文中,F(xiàn)rey和Osborne試圖估算不同職業(yè)對(duì)計(jì)算機(jī)化的敏感程度,其中的一段話很好地概括了這一觀點(diǎn):
……計(jì)算機(jī)能夠執(zhí)行的任務(wù)最終取決于程序員編寫一套程序或規(guī)則的能力,以便在各種可能的情況下正確引導(dǎo)技術(shù)。
因此,當(dāng)一個(gè)問題可以被明確指定——也就是說,成功的標(biāo)準(zhǔn)是可量化且可以被輕松評(píng)估時(shí),計(jì)算機(jī)相較于人類勞動(dòng)將表現(xiàn)得更加高效。
文章鏈接:https://oms-www.files.svdcdn.com/production/downloads/academic/The_Future_of_Employment.pdf
當(dāng)時(shí)這一預(yù)測(cè)或許合理,但在接下來的十年里,隨著深度學(xué)習(xí)的進(jìn)步,它被證明是個(gè)錯(cuò)誤。
AI:從監(jiān)督學(xué)習(xí)到GenAI
如今,LLM能夠執(zhí)行許多任務(wù),而人類甚至無法完全理解內(nèi)部原理。
而且,盡管清晰的問題定義仍然重要,但重要性體現(xiàn)在不同的方面。
在深度學(xué)習(xí)革命之后,AI經(jīng)濟(jì)學(xué)中出現(xiàn)了一種新的視角,即將AI系統(tǒng)視為「預(yù)測(cè)機(jī)器」(Prediction Machines)。
這一觀點(diǎn)是對(duì)當(dāng)時(shí)AI系統(tǒng)能力的反映:在2012年至2019年間,適用于預(yù)測(cè)任務(wù)的監(jiān)督學(xué)習(xí)方法主導(dǎo)了該領(lǐng)域。
因此,一些人再次犯下了類似的錯(cuò)誤,簡(jiǎn)單地假設(shè)它會(huì)像2010年代中期的監(jiān)督學(xué)習(xí)一樣,認(rèn)為AI的未來只是擁有更強(qiáng)大的預(yù)測(cè)能力。
從《預(yù)測(cè)機(jī)器》中,可以看到一些相關(guān)的引用,清楚地說明了這一點(diǎn):
…我們所見到的進(jìn)步主要發(fā)生在機(jī)器學(xué)習(xí)領(lǐng)域,而機(jī)器學(xué)習(xí)更準(zhǔn)確地說是一種統(tǒng)計(jì)學(xué)的進(jìn)步,盡管是非常重大的進(jìn)步;具體來說,是在用于生成預(yù)測(cè)的統(tǒng)計(jì)方法上的進(jìn)步。
新的AI技術(shù)將極大降低什么成本?預(yù)測(cè)。
因此,正如經(jīng)濟(jì)學(xué)所告訴我們的,不僅預(yù)測(cè)的使用將大幅增加,我們還會(huì)看到在一些新領(lǐng)域中,它令人驚訝地適用。
Frey和Osborne預(yù)測(cè)計(jì)算機(jī)化一樣,上述新推測(cè)也被后來的發(fā)展所推翻,尤其是AI領(lǐng)域向無監(jiān)督學(xué)習(xí)的轉(zhuǎn)變,以及如今所謂的「生成式AI」(Generative AI)的興起。
相比于上述例子,AI研究者和未來學(xué)家,常常使用的是從第一性原理出發(fā)的推理方法(first-principles reasoning)。
其中最著名的例子可能是Ray Kurzweil。
在1999年,他估算人腦的計(jì)算能力約為10^{16}次運(yùn)算每秒,并結(jié)合摩爾定律(Moore’s Law)預(yù)測(cè)人類水平的AI系統(tǒng)將在2029年誕生。
摩爾定律
外推預(yù)測(cè)的風(fēng)險(xiǎn)
使用簡(jiǎn)單的模型將過去的數(shù)據(jù)外推到未來,是經(jīng)過驗(yàn)證的預(yù)測(cè)方法,在許多領(lǐng)域都適用。
然而,在AI領(lǐng)域,如果僅依賴這種方法,存在嚴(yán)重的局限性。
最主要的問題在于,這類方法過度依賴AI過去和當(dāng)前的能力,導(dǎo)致低估未來AI的突破,特別是在當(dāng)前完全無法勝任的任務(wù)上。
采用這種方法時(shí),預(yù)測(cè)者即便有意識(shí)地試圖考慮AI未來可能的進(jìn)步,仍然傾向于認(rèn)為未來的AI只是現(xiàn)在AI的增強(qiáng)版,其能力范圍會(huì)逐步擴(kuò)展到與現(xiàn)有任務(wù)相鄰的領(lǐng)域。
目前,這種錯(cuò)誤的最新表現(xiàn)形式是將AI的最新發(fā)展局限在「生成式AI」(Generative AI)的框架內(nèi)。
就像過去「預(yù)測(cè)機(jī)器」的概念一樣,這種狹隘的視角讓人誤以為,AI未來的能力可以通過簡(jiǎn)單推測(cè)「今天的圖像生成器和聊天機(jī)器人會(huì)變得更便宜、更高效」來預(yù)測(cè)。
這種方法的局限性不可忽視。
為了說明并提醒大家AI發(fā)展的不可預(yù)測(cè)性,在下方列出了一張表格,其中展示2016年人們認(rèn)為AI重要能力的清單,對(duì)比今天的發(fā)展,你會(huì)發(fā)現(xiàn)當(dāng)時(shí)的許多預(yù)測(cè)都已過時(shí)。
請(qǐng)注意,對(duì)2025年的用戶來說顯得重要的能力——問答、閱讀理解、圖像生成、編程、數(shù)學(xué)——在表中都沒有出現(xiàn)。
這些都是由于scaling law和算法進(jìn)步而出現(xiàn)的新能力。
如果只使用樸素外推法來預(yù)測(cè)2025年AI系統(tǒng)性能,那么沒有人都預(yù)料到這些能力。
我們應(yīng)該期待,AI當(dāng)前能力與十年后能力之間的差異將同樣巨大。這應(yīng)該成為一種共識(shí)。
不宜外推AI對(duì)經(jīng)濟(jì)影響
在最近的論文中,Acemoglu犯了錯(cuò)誤:過度依賴這種簡(jiǎn)單外推法。
Acemoglu借鑒了其他幾位作者的研究,這些作者對(duì)不同經(jīng)濟(jì)任務(wù)受LLM自動(dòng)化影響的程度以及在這些受影響任務(wù)上可能合理預(yù)期的成本節(jié)約進(jìn)行了估算。
Acemoglu估計(jì),由于AI的影響,未來十年經(jīng)濟(jì)產(chǎn)出將增長(zhǎng)0.7%。結(jié)合三個(gè)不同的估算,得出了這個(gè)數(shù)字:
(1)Eloundou等人(2023年)的估計(jì)表明,在美國(guó)按工資賬單計(jì)算的大約20%的任務(wù)暴露于由大語言模型實(shí)現(xiàn)的自動(dòng)化之下。
(2)Svanberg等人(2024年)估計(jì),在當(dāng)前暴露于計(jì)算機(jī)視覺系統(tǒng)自動(dòng)化的任務(wù)中,只有23%的任務(wù)實(shí)際進(jìn)行自動(dòng)化是具有成本效益的。
(3)Acemoglu假設(shè),在這些自動(dòng)化任務(wù)上,相較于由人類執(zhí)行這些任務(wù),平均可以節(jié)省大約30%的勞動(dòng)力成本。
(4)Acemoglu進(jìn)一步估計(jì),這些任務(wù)成本的大約50%實(shí)際上是勞動(dòng)力成本,因此總成本節(jié)約約為15%(即30%的勞動(dòng)力成本節(jié)約乘以勞動(dòng)力成本占總成本的50%)。
最后,關(guān)于這種自動(dòng)化對(duì)GDP影響的粗略計(jì)算方法是:
首先計(jì)算成本減少的任務(wù)比例,大約為0.2*0.23=4.6%。
然后,考慮到生產(chǎn)力提升的隱含值約為1/0.85=17.6%,這是因?yàn)槌杀竟?jié)約了15%,意味著原本的成本效率提高到了100/(100-15)≈117.6%,即提升了17.6%。
最后,將這兩個(gè)數(shù)值相乘(4.6%*17.6%),得出總?cè)厣a(chǎn)率影響大約為0.8%。
這個(gè)分析提供了對(duì)自動(dòng)化技術(shù)可能帶來的經(jīng)濟(jì)效益的量化視角,盡管實(shí)際情況可能會(huì)因多種因素而有所不同。
論文地址:https://shapingwork.mit.edu/wp-content/uploads/2024/05/Acemoglu_Macroeconomics-of-AI_May-2024.pdf
這是一個(gè)對(duì)可能總結(jié)為「LLMs,但更好」的假設(shè)性技術(shù)的經(jīng)濟(jì)產(chǎn)出影響的合理估計(jì)。
然而,這并不是我們應(yīng)該對(duì)未來10年內(nèi)的AI系統(tǒng)的期望:我們應(yīng)該期望它們能夠執(zhí)行許多當(dāng)前AI根本無法執(zhí)行的任務(wù)。
例如,下圖展示了測(cè)試時(shí)計(jì)算范式轉(zhuǎn)變對(duì)LLM數(shù)學(xué)性能影響。
基本觀點(diǎn)是,目前AI能夠做到的事情并不能講好未來的故事。
如果想要預(yù)測(cè)未來幾年之外的AI發(fā)展,那么將目光局限于當(dāng)前AI系統(tǒng)的能力,甚至局限于這些能力的當(dāng)前變化速度,并不是一個(gè)好的選擇。
推理模型超越數(shù)學(xué)性能的歷史趨勢(shì)
從先驗(yàn)角度來看,在未來十年中,我們應(yīng)該期待會(huì)出現(xiàn)許多這樣的不連續(xù)性和突然涌現(xiàn)的能力。
因此,盡管基于當(dāng)前AI的能力進(jìn)行預(yù)測(cè)似乎是一種更為穩(wěn)妥和合理的方法,但實(shí)際上這種方法很可能嚴(yán)重不準(zhǔn)確。
相反,允許技術(shù)進(jìn)步突然加速和新能力出現(xiàn)的更具推測(cè)性的方法,可能會(huì)做出更好的預(yù)測(cè)。
有什么替代方法嗎?
無法回避的問題是,預(yù)測(cè)未來本身就非常困難,尤其是在缺乏明確趨勢(shì)可供外推的情況下。
例如,目前缺乏針對(duì)遠(yuǎn)程辦公任務(wù)和機(jī)器人技術(shù)的高質(zhì)量基準(zhǔn)測(cè)試,即使有這樣的基準(zhǔn)測(cè)試,也會(huì)發(fā)現(xiàn)當(dāng)前系統(tǒng)在這些任務(wù)上表現(xiàn)非常差,而線性外推可能會(huì)將它們的成熟期推遲到幾十年甚至幾百年之后。
這顯然不是一種合理的方式來預(yù)測(cè)AI何時(shí)能在這些任務(wù)上表現(xiàn)出色,因?yàn)槲覀円辉倏吹剑鶞?zhǔn)測(cè)試的分?jǐn)?shù)并不是時(shí)間的線性函數(shù)。
參考人類大腦預(yù)測(cè)AI能力
對(duì)于這些「尚未涌現(xiàn)」的任務(wù)——即人類可以完成但當(dāng)前AI完全無法完成的任務(wù),預(yù)測(cè)應(yīng)該參考人類大腦及其資源需求所提供的存在性證明。
對(duì)于人類大腦能夠執(zhí)行的認(rèn)知任務(wù),可以說以下條件至少足以構(gòu)建能夠執(zhí)行該任務(wù)的神經(jīng)網(wǎng)絡(luò):
1、運(yùn)行時(shí)計(jì)算能力:1e15 FLOP/s,這是估計(jì)大腦執(zhí)行計(jì)算的大致能力。
2、訓(xùn)練計(jì)算量:1e24 FLOP,人類在30歲之前大約存活了10億秒。
3、訓(xùn)練算法:大小遠(yuǎn)小于100MB,并且進(jìn)化搜索算法變體所需的計(jì)算量遠(yuǎn)小于1e45 FLOP。大小限制來自基因組的大小,而搜索計(jì)算限制則來自進(jìn)化過程中可能發(fā)生的有效計(jì)算的熱力學(xué)極限。
4、訓(xùn)練數(shù)據(jù)量:與人類在終身學(xué)習(xí)過程中接觸到的數(shù)據(jù)量相當(dāng)。
想要構(gòu)建能夠執(zhí)行類似人類任務(wù)的AI系統(tǒng),這些條件提供了一個(gè)理論上的下限。
在這些目標(biāo)中,在大多數(shù)任務(wù)上,目前的新進(jìn)展是能滿足條件1、2和4。
要知道,直到大約2年前,AI系統(tǒng)的訓(xùn)練計(jì)算能力才突破1e24 FLOP,達(dá)到了條件2。
而尚未擁有展現(xiàn)出超越人類能力的AI系統(tǒng),這表明在許多領(lǐng)域,算法仍遜色于人類大腦:還沒有達(dá)到條件3。
2030年AGI可能性:10%-20%
搜索滿足條件3算法的實(shí)際算力需求,難以確定,也難以消除。
因此保守的估計(jì)是:在發(fā)現(xiàn)能超越人腦的算法上,需要投入的計(jì)算量,在目前累計(jì)的計(jì)算量(可能在1e26到1e30 FLOP之間)和1e45 FLOP之間均勻分布。
預(yù)計(jì)到本年代末,累計(jì)計(jì)算量將增加大約1000倍。
從目前的情況來看,這意味著人類大約有20%的機(jī)會(huì)找到正確的算法。
即使考慮到模型的不確定性,把這個(gè)概率減半,到2030年實(shí)現(xiàn)人類水平的AI的可能性仍有10%。
這甚至還沒有考慮到以下可能性:
與進(jìn)化不同,人類能夠在算法搜索、模型訓(xùn)練和模型推理之間進(jìn)行權(quán)衡,并將訓(xùn)練計(jì)算量分?jǐn)偟侥P偷乃胁渴饘?shí)例中。
這較差的算法,可能通過更多的訓(xùn)練和推理計(jì)算來彌補(bǔ)。
事實(shí)上,Ege Erdil預(yù)計(jì)首批達(dá)到人類水平的AI系統(tǒng)會(huì)這樣做。
考慮到這一點(diǎn),概率應(yīng)該會(huì)顯著高于10%。(盡管具體有高多少,還不知道。)
結(jié)合Moravec悖論,對(duì)AI在哪些任務(wù)上會(huì)首先達(dá)到人類水平有了一個(gè)預(yù)期:這些任務(wù)正是AI相對(duì)于人類具有更大數(shù)據(jù)優(yōu)勢(shì)和較小算法劣勢(shì)的任務(wù)。
例如,盡管Eloundou等人2023年的論文得出結(jié)論認(rèn)為,需要科學(xué)技能的任務(wù),預(yù)計(jì)會(huì)抵抗LLM自動(dòng)化。
論文鏈接:https://arxiv.org/abs/2303.10130
但Ege Erdil認(rèn)為:「這種更廣泛的視角實(shí)際上表明,這反而是它更容易受到AI自動(dòng)化影響的原因。」
原因是,相對(duì)于感覺運(yùn)動(dòng)和感知任務(wù),科學(xué)推理并不是那種人類具有高效算法的任務(wù)。
結(jié)論
基本的結(jié)論是,AI目前能做什么并不是重點(diǎn)。
如果想預(yù)測(cè)AI未來幾年之后的發(fā)展,僅僅以當(dāng)前AI系統(tǒng)的能力,甚至當(dāng)前這些能力的變化速度作為錨點(diǎn),并不是一個(gè)好主意。
相反,應(yīng)該從各種任務(wù)的內(nèi)在難度出發(fā)來思考,盡管當(dāng)前AI系統(tǒng)在許多任務(wù)上完全無法勝任,但這恰恰反映了使用AI自動(dòng)化這些任務(wù)所需的資源需求。
當(dāng)這樣做時(shí),就會(huì)得到對(duì)AI進(jìn)展更為樂觀的圖景,這更符合近期的歷史。
許多人現(xiàn)在提出的關(guān)于「生成式AI」系統(tǒng)能力本質(zhì)上受限的論點(diǎn),如果放在2016年用來預(yù)測(cè)當(dāng)時(shí)AI系統(tǒng)的局限性,可能會(huì)表現(xiàn)得很糟糕。
如果我們希望我們的預(yù)測(cè)更準(zhǔn)確,就不應(yīng)該依賴那些過去表現(xiàn)不佳的預(yù)測(cè)方法。