OpenAI把微軟電網(wǎng)搞崩!GPT-6被曝25年發(fā)布,訓(xùn)練刷爆10萬(wàn)張H100
GPT-6也被電力卡脖子了——部署十萬(wàn)個(gè)H100時(shí),整個(gè)電網(wǎng)發(fā)生了崩潰!
就在剛剛,微軟工程師爆料,10萬(wàn)個(gè)H100基建正在緊鑼密鼓地建設(shè)中,目的就是訓(xùn)練GPT-6。
微軟工程師吐槽說(shuō),團(tuán)隊(duì)在部署跨區(qū)域GPU間的infiniband級(jí)別鏈接時(shí)遇到了困難。
Corbitt:為何不考慮直接將所有設(shè)備部署在同一個(gè)地區(qū)呢?
微軟工程師:這確實(shí)是我們最初的方案。但問(wèn)題是,一旦我們?cè)谕粋€(gè)州部署超過(guò)100,000個(gè)H100 GPU,電網(wǎng)就會(huì)因無(wú)法負(fù)荷而崩潰。
這是創(chuàng)業(yè)者Kyle Corbitt在社交媒體上,分享自己與一位微軟工程師關(guān)于GPT-6訓(xùn)練集群項(xiàng)目的對(duì)話
沒(méi)想到,GPT-5還沒(méi)發(fā),微軟就已悄悄為OpenAI開(kāi)始訓(xùn)練GPT-6了。
同在今天,一張「OpenAI內(nèi)部時(shí)間線」圖片在網(wǎng)上瘋轉(zhuǎn)。
圖中清晰標(biāo)注出:OpenAI早在2022年8月-10月之間開(kāi)始了GPT-5(代號(hào)Arrakis)的訓(xùn)練,2023年4月GPT-4.5(代號(hào)Gobi)在訓(xùn)練中。
并且圖中顯示,GPT-6的測(cè)試,預(yù)計(jì)早在去年9月就開(kāi)始了!
同時(shí),關(guān)于GPT-5(Arrakis)的一個(gè)爆料帖,也隨之浮出水面。
太長(zhǎng)不看版
貼中爆出許多內(nèi)幕消息。
比如,GPT-4.5因?yàn)槟芰Σ粔颍纱啾惶^(guò),所以今年OpenAI會(huì)直接發(fā)GPT-5。
另外還有若干未經(jīng)證實(shí)的消息(從上圖中也可以看出),關(guān)于OpenAI手中握著的一大把模型——
比如,Arrakis/GPT-5在GPT-4不久后訓(xùn)練了3個(gè)月,于22年10月結(jié)束;在GPT-5之后,GPT-4.5于23年4月完成訓(xùn)練。
最勁爆的消息當(dāng)然就是,現(xiàn)在GPT-6或許已經(jīng)在訓(xùn)練中了。
但是,GPT-5并不是AGI,因?yàn)闊o(wú)法解決「量子引力」問(wèn)題。同理,GPT-6也不是AGI。
接下來(lái),讓我們一一盤(pán)點(diǎn)下,帖子中都有哪些信息點(diǎn)。
最接近AGI的模型,與人類(lèi)專(zhuān)家不相上下
去年8月,F(xiàn)eltSteam最先曝出OpenAI內(nèi)部正在進(jìn)行一個(gè)Arrakis多模態(tài)模型的項(xiàng)目,遠(yuǎn)超GPT-4,非常接近AGI。
Arrakis項(xiàng)目被首次提及,是名叫FeltSteam的網(wǎng)友最先在Reddit一個(gè)評(píng)論區(qū)中爆料稱(chēng),「Arrakis和Gobi都很酷」。
并且,他在r/singularity板塊中另一個(gè)問(wèn)題下, 介紹了Arrakis的一些能力。
他提到,「這是一個(gè)無(wú)所不能的模型,可以輸入文本、圖像、音頻和視頻的任何組合」。
具體來(lái)說(shuō),Arrakis更多的細(xì)節(jié)包括:
- 多模態(tài)模型
- 性能遠(yuǎn)超GPT-4
- 接近AGI
- 幻覺(jué)發(fā)生率明顯低于GPT-4
- Altman正試圖將Arrakis作為一種工具來(lái)推銷(xiāo),盡管它是有感情的
- 推理成本略低于GPT-4
- 非常優(yōu)秀的自主智能體
- 訓(xùn)練一般數(shù)據(jù)是合成的
與此同時(shí),Jimmy Apples在社交媒體上曝出了OpenAI內(nèi)部代號(hào)Gobi的項(xiàng)目——大規(guī)模多模態(tài)模型。
除了以上兩個(gè)項(xiàng)目,一個(gè)代號(hào)名為「Sunshine」的項(xiàng)目逐漸浮出水面。
OpenAI這些秘密進(jìn)行的項(xiàng)目,一時(shí)間引來(lái)許多網(wǎng)友的猜測(cè)和討論。
隨后,F(xiàn)eltSteam又爆出了更多的細(xì)節(jié),Arrakis據(jù)稱(chēng)有125萬(wàn)億參數(shù),大約是GPT-4的100倍,并在2022年10月完成訓(xùn)練。
值得一提的是,Arrakis不是通過(guò)計(jì)算資源實(shí)現(xiàn)的,而是通過(guò)提高計(jì)算效率實(shí)現(xiàn)的。
目前,OpenAI內(nèi)部也在使用Arrakis進(jìn)行研究,不過(guò)整體員工水平肯定優(yōu)于Arrakis。另外,與GPT-5相比,Gobi更接近GPT-4.5。
到了10月,F(xiàn)eltSteam再一次表示,一個(gè)比GPT-4大100倍的模型即將問(wèn)世。
GPT-5將在2024年年中,或在2024年第三季度發(fā)布。
最近BussinessInsider的報(bào)道稱(chēng),知情人士透露,GPT-5或?qū)⒃诮衲晗奶彀l(fā)布。與FeltSteam預(yù)測(cè)的時(shí)間幾乎吻合。
而Arrakis是GPT-5一個(gè)更強(qiáng)大的候選者,在多個(gè)領(lǐng)域具備人類(lèi)水平的專(zhuān)業(yè)知識(shí)能力。
GPT-5不是AGI
不過(guò),Arrakis并不符合Altman對(duì)AGI的定義,即解決「量子引力」的問(wèn)題。
量子引力,又稱(chēng)量子重力,是描述對(duì)重力場(chǎng)進(jìn)行量子化的理論,屬于萬(wàn)有理論之一隅;主要嘗試結(jié)合廣義相對(duì)論與量子力學(xué),為當(dāng)前物理學(xué)尚未解決的問(wèn)題。
但正如之前所說(shuō),Arrakis模型還是能夠達(dá)到人類(lèi)專(zhuān)家水平。
GPT-5和GPT-6都不是AGI
FeltSteam表示,傳說(shuō)中的AGI,是Arrakis以外的東西。
但是,為什么我們能在這么短的時(shí)間里,訓(xùn)練出一個(gè)125萬(wàn)億參數(shù)的模型呢?
理論上來(lái)說(shuō),如果訓(xùn)一個(gè)1.75萬(wàn)億參數(shù)模型需要4-5個(gè)月,那么如果訓(xùn)練一個(gè)大百倍的模型,應(yīng)該需要幾十年。
(目前已知,GPT-4在A100集群上訓(xùn)了100天,但是在訓(xùn)練之后,OpenAI又花了幾個(gè)月時(shí)間對(duì)它微調(diào)和對(duì)齊。)
顯然,要訓(xùn)125萬(wàn)億參數(shù)的模型,不僅要投入原始計(jì)算資源,還要顯著提高計(jì)算效率。
用90%合成數(shù)據(jù)訓(xùn)練
另一個(gè)比較值得關(guān)注的信息是,據(jù)稱(chēng)Arrakis去年訓(xùn)練的數(shù)據(jù)集中約90%是合成數(shù)據(jù)。
此前,外媒報(bào)道稱(chēng):
Ilya Sutskever的突破讓OpenAI克服了在獲取高質(zhì)量數(shù)據(jù)以訓(xùn)練新模型方面的限制,而這正是開(kāi)發(fā)下一代模型的主要障礙。這項(xiàng)研究涉及使用計(jì)算機(jī)生成的數(shù)據(jù),而不是真實(shí)世界的數(shù)據(jù),如從互聯(lián)網(wǎng)上提取的文本或圖像來(lái)訓(xùn)練新模型。
FeltSteam認(rèn)為,OpenAI正遇到了擴(kuò)展(scaling)的難題,因?yàn)閮H僅擴(kuò)展注意力和模型參數(shù)是遠(yuǎn)遠(yuǎn)不夠的。
目前,GPT-4的訓(xùn)練已經(jīng)窮盡了整個(gè)互聯(lián)網(wǎng)的數(shù)據(jù),還需要進(jìn)行強(qiáng)化學(xué)習(xí),甚至更多的數(shù)據(jù)。
另外,Arrakis還是一個(gè)非常出色的自主智能體。
所有關(guān)于OpenAI項(xiàng)目信息匯總目錄一覽表。
十萬(wàn)個(gè)H100訓(xùn)GPT-6,被電力卡脖子
就在以上的爆料帖中,有一種說(shuō)法是,GPT-6將于2025年發(fā)布。
而就在爆料微軟工程師對(duì)話的帖子中,也再次證實(shí):微軟正用10萬(wàn)個(gè)H100來(lái)幫OpenAI訓(xùn)練GPT-6!
有網(wǎng)友算了一下,如果十萬(wàn)個(gè)H100同時(shí)開(kāi)啟,功耗將達(dá)到70兆瓦,電網(wǎng)肯定撐不住。
而熟悉電力行業(yè)的網(wǎng)友說(shuō),一般大型電廠的輸出功率將達(dá)到2000兆瓦,100兆瓦的負(fù)載其實(shí)并不大。但是突然在電網(wǎng)中增加100兆瓦的負(fù)載肯定會(huì)讓電網(wǎng)系統(tǒng)出問(wèn)題。
核能也許是唯一的辦法了,電力短缺將直接限制未來(lái)GPU的發(fā)展。
此前,ChatGPT每天耗電已超50萬(wàn)千瓦時(shí),登上了熱搜,足見(jiàn)AI「吃電」非常兇猛。
根據(jù)波士頓咨詢集團(tuán)的分析,到2030年,數(shù)據(jù)中心的用電量預(yù)計(jì)將增加兩倍,相當(dāng)于為大約4000萬(wàn)美國(guó)家庭供電所需的電力量
沒(méi)想到,馬斯克預(yù)言的由AI導(dǎo)致的電力短缺,這么快就卡住AGI的脖子了。
馬斯克:「現(xiàn)在AI對(duì)算力的需求差不多每半年就會(huì)增加10倍,馬上會(huì)超過(guò)宇宙的質(zhì)量。芯片短缺緩解后,馬上就會(huì)出現(xiàn)電力短缺。如果電網(wǎng)輸出100-300千伏的電壓,然后必須一路降壓至6伏,未來(lái)會(huì)出現(xiàn)變壓器短缺」。
包括Sam Altman在內(nèi)的越來(lái)越多的AI行業(yè)大佬表示,AI的第一性原理,最重要的部分就是能源和智能的轉(zhuǎn)化率的問(wèn)題。
而人工智能是能源的無(wú)底洞,AI未來(lái)將會(huì)被能源卡脖子。
因?yàn)門(mén)ransformer本質(zhì)上不是一個(gè)能效很高的算法,所以在未來(lái),能源將會(huì)是困擾AI發(fā)展的一個(gè)大問(wèn)題。
對(duì)此,網(wǎng)友們表示,長(zhǎng)期看好中國(guó)基建。
而在Altman看來(lái),滿足AI飆升能源需求的最有效方法,就是核聚變。
為此,他本人就在核聚變上投資了真金白銀的數(shù)億美元。
沒(méi)有突破,就沒(méi)有辦法到達(dá)那里,我們需要核聚變。
然而,真要達(dá)成核聚變,卻沒(méi)那么快。
英國(guó)曼徹斯特大學(xué)核聚變研究員Aneeqa Khan表示,“在地球上重建太陽(yáng)中心的條件是一個(gè)巨大的挑戰(zhàn)”,可能要到本世紀(jì)下半葉才能準(zhǔn)備就緒。
「核聚變已經(jīng)為時(shí)已晚,無(wú)法應(yīng)對(duì)氣候危機(jī)。在短期內(nèi),我們可利用的是現(xiàn)有的低碳技術(shù),比如裂變和可再生能源」。
國(guó)際能源署(IEA)最近的一項(xiàng)分析計(jì)算出,數(shù)據(jù)中心、某貨和人工智能的電力消耗在未來(lái)兩年內(nèi)可能會(huì)翻一番。2022年,它們約占全球電力需求的2%。同時(shí)AI的需求將呈指數(shù)級(jí)增長(zhǎng),在2023年至2026年間至少增長(zhǎng)10倍
此外,除了電力的限制之外,網(wǎng)友還繼續(xù)腦洞大開(kāi),認(rèn)為散熱也將成為一個(gè)問(wèn)題。??
10萬(wàn)塊H100還會(huì)帶來(lái)散熱和空間堆疊的問(wèn)題,其實(shí)最近3年這些問(wèn)題一直都存在,未來(lái)還會(huì)越來(lái)越嚴(yán)重。
網(wǎng)友進(jìn)一步調(diào)侃到,未來(lái)加拿大會(huì)成為AI大國(guó),因?yàn)樗麄冇腥≈槐M的寒冷且干燥的空氣!這些在AI時(shí)代將會(huì)是寶貴的自然資源。