地表超強AI超算震撼發布!4 ExaFLOPs算力破天,6000億參數模型10天訓完
Cerebras又放大招了!
這個曾經打造出世界最大AI芯片的Cerebras,這次又為我們帶來了世界最大的AI超級計算機:Condor Galaxy1(CG-1)!
圖片
CG-1以禿鷹星系命名,比我們的銀河系要大上五倍。這個名字所代表的野心可謂是昭然若揭了!
那么就讓我們來看看,這個叫Condar Galaxy的超級計算機究竟有哪些過人之處?
Condor Galaxy:世界最大的人工智能訓練超級計算機
CG-1是現今世界上最大的超級計算機之一。
擁有64個CS-2節點、5400萬核心、4 ExaFLOPs算力、并支持6000億參數模型,第一次訓練運行時間只需要10天。
CG-1旨在使大型突破性模型的訓練更加輕松快速,從而加速創新。
Cerebras真的做到了......
做出更快、更強、更好的AI超級計算機!
不僅如此,Cerebas還與阿聯酋技術控股集團G42達成了戰略合作,準備聯手打造一個由9臺CG-1互聯、基于云的AI超級計算全球網絡:Condor Galaxy。
目前CG-1已在加利福尼亞州圣克拉拉部署成功,其余的CG2、3......將在18月內部署完成。
連Cerebras自家的CEO Andrew Feldman都表示:
「這太瘋狂了!Condor Galaxy完成后,我們將擁有一個能夠提供36 exaFLOPs訓練能力的超級AI 計算網絡。這意味著我們屆時會擁有576個CS-2、近5億個核心,內部帶寬達到3,490 TB。我們將需要超過5億個AMD Epyc來為我們提供數據?!?/span>
Condor Galaxy將顯著減少AI大模型訓練所需的時間,同時,Condor Galaxy 基于云的服務將允許其他人也能輕松訪問業界最優秀的人工智能計算能力,從而推動全球數百個人工智能項目的發展。
這個前所未有的AI超級計算網絡,可能會徹底改變全球人工智能的發展。
這格局、這能力,怪不得Cerebras被視為是威脅英偉達的強勁對手。
從Andromeda到Condor
Cerebras在官網上也是發布了Condor Galaxy1(CG-1)詳細的參數信息。
- 4 exaFLOPS的AI計算能力
- 5400萬個針對AI優化的計算核心
- 82 TB內存
- 64個Cerebras CS-2系統
- 基本配置支持6000億個參數,可擴展至100萬億個
- 386 Tbps內部帶寬
- 72704個AMD EPYC第3代處理器
- 本機硬件支持50000個token的訓練,無需第三方庫
- 具有線性性能擴展的數據并行編程模型
圖片
而且像這么能打的超算總共有9個,2024年完工。總計36 ExaFLOPS的AI算力,說一句世界最強不為過吧。
Cerebras將在7月24日的ICML 2023大會上分享在CG-1上訓練新模型的結果。
2022年,Cerebras已經是世界上最大、最強大的AI處理器芯片了。
要想做得更大,唯一的辦法就是讓晶圓級引擎在集群規模上運行。
為了實現這一目標,Cerebras發明了兩項技術:
- Cerebras Wafer-Scale集群
這是一種全新的系統架構,可連接多達192個Cerebras的CS-2系統,并作為單個邏輯加速器運行。這種設計將內存與計算解耦,能夠為AI模型部署TB級內存,而僅使用GPU只能部署GB級的內存。
- 權重流(Weight streaming)
在晶圓級集群上僅使用數據并行性訓練大型模型的新方法。Cerebras表示,他們發現客戶在訓練大型GPU模型時遇到了些困難。Cerebras的解決方案利用了硬件的大規模計算和內存的特性,以純數據并行的方式,通過逐層流式傳輸模型來分配工作。
2022年11月,Cerebras將這兩項技術推向市場,推出了Andromeda——這是一臺1 exaFLOP、16 CS-2 AI的超算。
Andromeda有這么三個意義:
首先,它為Cerebras的晶圓級集群提供了設計參考,使他們能夠更快速、輕松地為客戶構建新的AI超算。
第二,它提供了一個訓練大型生成模型的世界級平臺,使Cerebras能夠在短短幾周內訓練出7個Cerebras-GPT模型,并與全世界共享這些開源模型。
第三,它成為了Cerebras云的旗艦產品,為客戶使用Cerebras的系統打開了大門,而無需采購和管理硬件。
而今天宣布的CG-1則是所有這些努力的結晶——它是Cerebras部署過的最大的AI超算,得益于Andromeda,Condor可以在短短兩周內就完成部署。
目前,它已經訓練了多個大型語言模型,涵蓋阿拉伯語等全新數據集。它通過Cerebras云和G42云給全球的客戶提供服務。
Condor Galaxy四步走
官網中,Cerebras也是披露了Condor Galaxy未來發展的四步計劃。
- 第一階段:
CG-1目前由32個CS-2系統組成,已在圣克拉拉的Colovore數據中心啟動并運行。
- 第二階段:
Cerebras將把CG-1的規模擴大一倍,將其擴展到64個CS-2系統,速度為4 exaFLOPS。一個64節點系統代表一個完整的超算實例。
- 第三階段:
Cerebras們將在全美再建立兩個完整的超算,使部署的計算中心總數達到3個,計算能力達到12 exaFLOPS。
- 第四階段:
再建設6個超算中心,全部安裝達到9個,人工智能計算能力達到36 exaFLOPS。
走完這四步,Cerebras就會是全球公共AI計算基礎設施排名前三的公司了。
圖片
2024年全面部署Condor Galaxy后,其將成為世界上最大的云AI超算之一。運算能力達到36 exaflops,是英偉達以色列一號超算的9倍,是谷歌已發布的最大TPU v4 pod的4倍。
圖片
Cerebras云
Cerebras為G42管理和運營CG-1,并通過Cerebras云提供,用于人工智能訓練的專用超級計算實例對模型開發至關重要。
要知道,OpenAI的ChatGPT得益于微軟Azure建立的專用集群,DeepMind和Google Brain的突破則得益于GCP的預配置TPU pod。
自Andromeda發布以來,Cerebras一直在提供基于云的訪問Cerebras系統的服務,最多可連接16個CS-2系統。
隨著CG-1的推出,Cerebras現在正在擴大Cerebras的云服務,包括最多64個系統的全配置人工智能超級計算機,為客戶提供一鍵訪問4 exaFLOPs人工智能性能的服務。
圖片
不光如此,Cerebras還解決了GPU擴展的難題。
雖然GPU是強大的通用加速器,但人們普遍認為,對大型GPU集群進行編程是ML開發人員面臨的巨大技術障礙。
幾乎所有公司都被迫要發明一種編程框架來管理這種復雜性,例如微軟的DeepSpeed、英偉達的Megatron、Meta的Fairscale和Mosaic的Foundry。
Cerebras對這些庫進行了深入分析,發現在GPU集群上訓練一個模型平均需要約38000行代碼。
對于大多數軟件團隊來說,復雜性實在太高,根本無法管理。
圖片
Cerebras晶圓級的集群,無論是1個節點還是64個節點,從根本上說都是作為一個單一的邏輯加速器來設計的。
由于CG-1具有82 TB的統一內存,Cerebras的團隊甚至可以將最大的模型直接放入內存中,而無需任何分區或額外的代碼。
在Cerebras上,100B參數模型使用的代碼與1B模型相同,不需要任何流水線或模型并行性。
Cerebras本機支持多達50000個token的長序列訓練。
效果就是,在Cerebras上實現標準的GPT僅需1200行代碼,比行業領先框架的平均代碼簡潔30倍。