1000億美元宇宙級豪賭!微軟OpenAI打造星際之門AI超算,電力能耗驚人
就在剛剛,又有大消息曝出。
據外媒The Information報道,微軟和OpenAI正計劃建設一個名為「星際之門」(Stargate)的特殊數據中心,為后者提供強大的計算支持。
具體來說:
- 微軟高層計劃最快在2028年啟動該項目
- 這臺超算對電力的需求將前所未有地高
- OpenAI將在明年初發布下一次重大升級
這個「星際之門」超算,會配備數百萬專用的服務器芯片!項目的成本,預計高達1150億美元。
而如此龐大的資金支出,將由微軟買單。
據悉,「星際之門」推出的時間預計在2028年,并且2030年之前會進一步擴建。
最終,它所需要的電力,很可能高達5千兆瓦。
就在本周三,我們剛剛報道過OpenAI把微軟電網搞崩的消息。當時微軟工程師曝出,為GPT-6部署10萬個H100訓練集群時,整個電網發生了崩潰。
如今看來,這個十萬卡集群,很可能就是「星際之門」的早期雛形。
GPT-5不斷延期,微軟能回本嗎?
與當今一些最大規模的數據中心相比,「星際之門」的成本直接高出100倍!
在微軟和OpenAI未來六年計劃建設的一系列超算設施中,它是最大的一個。
而敢砸這么多錢,也反應出微軟和OpenAI對AI前景的巨大信心。
在十年內,這將是雙方最關鍵、最重大的合作。
不過話說回來,畢竟是1000億美元的巨額投資,微軟確定能「回本」嗎?
此前,微軟已經向OpenAI投資超過130億美元,讓OpenAI能用微軟的數據中心跑ChatGPT。
而作為回報,微軟得到的是對OpenAI技術核心的訪問權限,并且可以將該技術獨家提供給摩根士丹利之類的云計算客戶。另外,Office、Teams、Bing的AI Copilot中,也可以整合OpenAI的技術。
接下來,「星際大門」能否如期推進,就看GPT-5的性能究竟能有多大的提升了。
傳說中的GPT-4.5、GPT-5,多次被傳要來,最終卻還是一場空。
這也讓OpenAI對微軟「如期交付新模型」的承諾,打了水漂。
部分人士表示灰心:看來AI的發展前景難以預測。
然而Sam Altman堅決否認:絕非如此!在他看來,制約GPT-5發展的主要障礙,就是缺乏足夠的服務器。
電力+芯片,耗資驚人
如果「星際之門」成真,那它提供的算力,將遠超現在的微軟鳳凰城數據中心。
微軟鳳凰城數據中心
而電力和芯片上的投入,也都將是一筆巨資。
經初步計算,「星際之門」要想運轉,需要的是至少數千兆瓦的電力,相當于目前幾個大型數據中心所需的電力。
另外,芯片的采購也是一個大成本。
開弓沒有回頭箭,如此耗費巨大的投入,能得到什么樣的結果?
當然是AGI。
Digital Realty的首席技術官Chris Sharp指出,如果是為了實現AGI,這種投資規模的項目絕對是必要的。
雖然項目的規模令人咋舌,聞所未聞,但一旦這種超算建成,人們就會接受它的巨額成本。
AI超算第五階段:「星際之門」
Altman與微軟的員工們把AI超算的發展劃分為五個階段,而最終階段就是星際之門。
這個名字靈感來自于一部科幻電影,其中科學家發明了一臺能夠實現星系間旅行的裝置。
當然了,這個代號雖然是由OpenAI提出的,但它并不會被微軟正式采用。
在「星際之門」之前,需要的資金相對較少,但依然遠超當前數據中心的建設成本。
目前來說,微軟和OpenAI還處于第三階段。
但第四階段的超算已經破土動工,并且預計將在2026年左右推出。
據報道,微軟光擴建數據中心就要耗資10億美元,而最終造價可能將高達100億美元。
其中,計劃采用的英偉達AI芯片,將會是開銷的大頭。
對此業內人士分析稱,當前正在建設的以AI為重點的數據中心,其芯片成本通常要占到總投資的一半。
總體而言,想要最終完成「星際之門」計劃,可能會需要消耗超過1150億美元——這一數字是微軟去年在服務器等設備上支出的3倍還多。
而基于2023年下半年公布的資本支出速度,微軟2024年的支出預計將達到約500億美元。
Altman:芯片不夠用,谷歌算力都比我們多
之所以如此下本,是因為Altman對于自己手里的算力,非常不滿。
他不僅公開表示現有的AI服務器芯片數量嚴重不足,而且還在私下里表示,作為主要競爭對手之一的谷歌,將會在短期內擁有比OpenAI更多的算力。
隨著對英偉達GPU的需求急劇上升,像微軟和OpenAI這樣的客戶,都不得不面臨成本上漲的問題。
而這也是Altman為什么想要創辦公司,并開發出能媲美英偉達GPU的芯片的的原因之一。
除了控制成本外,微軟支持Altman開發替代芯片還有其他潛在的考慮。
GPU市場的繁榮讓英偉達成為了一個關鍵的決策者,它不僅可以決定哪些客戶能夠獲得更多的芯片,并且還會支持一些與微軟競爭的小型云服務供應商。甚至,連英偉達自己也開始向客戶賣云服務了。
而「星際之門」的提出,便是讓微軟和OpenAI有了除英偉達之外的選擇,比如AMD的GPU,或者微軟最近推出的自研AI芯片。
技術難題:芯片過熱、網絡電纜,還有能源
「星際之門」的設想雖然宏大,但要真的實現,還得攻克多項技術難題。
比如,其中一個設計方案,是在單個機架中安裝比微軟以往更多的GPU,來提升芯片的工作效率和性能。
然而,這無疑會增加GPU的密集度,因此微軟就需要設計出有效的冷卻方案,來避免芯片過熱。
另外,如何連接數以百萬計的GPU也是個難題。
這就涉及到選擇合適的網絡電纜,它對迅速傳輸大量數據至關重要。
目前,微軟在超算中使用的是英偉達專有的InfiniBand。但我們都知道,OpenAI一直在努力擺脫對英偉達依賴。
因此,OpenAI希望「星際之門」能采用更通用的以太網電纜。
另外,在能源這塊,據項目內部人士透露,公司們考慮過采用替代能源,比如核能,來滿足其能源需求。
值得一提的是,亞馬遜近期購入了一個位于賓夕法尼亞州、能夠接入核能源的數據中心地塊。據了解,微軟也對這一地塊表現出了興趣,并曾參與過相關競標。
Altman個人認為,要實現超級智能的開發,很可能需要在能源領域取得重大突破。
顯然,在追求高級人工智能的道路上,能源創新將扮演關鍵角色,而核能,很可能會成為實現這一目標的重要一環。
總之,跟傳統計算相比,AI計算的成本和復雜度都不是一個量級的。
這就是為什么,各大公司對AI數據中心的細節摳得無比嚴格。GPU如何連接和冷卻,一個細節的差異就可能導致巨大的成本損耗。
老黃也早就預測說,為了應對未來對AI計算的需求,在未來四到五年內,全球需要投資1萬億美元來建設新的數據中心!
而芯片過熱、網絡電纜和能源的問題,在短時間內都沒有解決的可能性。
此外,「星際之門」會建在一個數據中心內,還是由多個數據中心緊密相連呢?
它會具體建在什么位置?
目前這些問題也都沒有答案。
不過有從業者表示,當GPU集群位于同一個數據中心時,效率會更高。
其實,OpenAI早已逼著微軟突破了自己的極限。
自2019年向OpenAI投資以來,微軟的數據中心在一直不停地驚人進化。
為了滿足OpenAI日益增長的算力需求,微軟咬牙造了第一臺GPU超算,其中包含數千個英偉達GPU。
才幾年時間,這臺超算就讓微軟燒掉了12億美元。
而在今年和明年,微軟即將為OpenAI提供的新服務器,將包含數十萬個GPU!
下一個里程碑:GPT-5
微軟和OpenAI的雄心壯志,幾乎完全取決于OpenAI是否能在「超級智能」上取得重大進展。
如果OpenAI能解決癌癥、核聚變、全球變暖或火星殖民這種級別的問題,金主當然愿意源源不斷地投錢。
然而,這樣的成就,目前還遙不可及。
盡管ChatGPT和Sora在全球擁有了無數用戶,但如何用它們帶來顯著收入,OpenAI目前還都沒有解決。變現所需的時間,可能比預期的更長。
也正因如此,亞馬遜和谷歌已經降低了對AI產品的銷售預期。
部分原因就是,成本實在太高了!而且,在大型企業中部署百萬級用戶的應用,需要耗費大量的工作。
Altman在上個月曾表示,當研究人員投入更多的算力時,AI模型會變得「可預見地更好」。對此,OpenAI稱之為對話式AI的「縮放定律」(scaling law)。
據知情人士透露,OpenAI計劃在明年初之前發布其下一代LLM。
而在那之前,可能會推出一些小幅改進版本。
而擁有更多的服務器,無疑會增加OpenAI的底氣,堅信AI模型會取得下一層級的突破。
例如傳聞中的Q*,據說能解決之前未經訓練的數學問題。而且,它是用合成數據訓練的。在人類數據即將耗盡之際,這一點至關重要。
此外,傳聞這些模型還能識別出現有模型,如GPT-4的缺陷,并提出技術改進,換句話說,就是自我完善的AI。
聽起來,OpenAI離AGI是越來越近了。