全棧才是未來,“攢機型”人工智能計算中心還能走多遠?
隨著人工智能逐漸成為推動社會經濟發展的新引擎,各行各業都隨之步入產業智能升級的隊列。在越來越旺盛的算力需求下,我國的人工智能計算中心正呈現全面開花、多點落地的態勢。然而,與其他領域的發展初期類似,伴隨人工智能中心的建設熱潮,相關的爭議及討論也越來越多:有認為人工智能計算中心建起來不一定能用上的,有認為人工智能計算中心建設需要根據算力定價格的,還有認為越多臺AI服務器就代表人工智能計算中心能力更強的等等。
不被雜音誤導則需回歸本源,人工智能計算中心是以基于AI芯片構建的AI計算機集群為基礎,涵蓋了包括基建設施、硬件設備和軟件應用在內的完整系統。而系統的構成,硬件部分往往最先被考量,那么我們先從AI訓練芯片說起。
硬件基礎設施:重點關注訓練芯片
AI芯片對于人工智能有多重要?一言以蔽之,各行業、各企業數字化轉型需要構建匹配自身的AI模型,而高質量AI模型則需要通過訓練持續迭代優化而來。這就要求提供算力的當地人工智能計算中心具備高性能的AI芯片,以此確保充沛、穩定的算力供應。
具體到AI芯片,又分訓練芯片和推理芯片,其中訓練芯片是基礎中的基礎,因為AI首先要解決認知訓練的問題,然后才是推理,這就要求訓練芯片必須具備浮點運算能力,因為在復雜模型的訓練過程中,需對上千億個浮點參數進行微調數十萬步,需要精細的浮點表達能力。相比之下,無浮點運算能力的芯片如用于訓練將增加約40%的額外操作,以及至少4倍的內存讀寫次數。
軟件基礎設施:框架自主可控和AI使能更關鍵
框架是所有算法模型的開發基礎,90%的AI應用開發都是基于AI框架,其重要性毋庸置疑。現階段很多廠商采用的都是國外的AI開源框架,實際上相當于將中國人工智能發展的可控性交到了他國手中。未來國與國之間的科技競爭將愈演愈烈,一旦出現問題,我國想要重新實現安全、自主、可控的技術布局,勢必要從底層將一切推倒重建,可能造成大量的人力、物力和財力損失。
與其亡羊補牢,不如防患于未然。讓人工智能計算中心在建設之初就實現國產化,擁有自主可控的AI框架,目前已成為業內的基本共識。據悉,目前大多數人工智能計算中心都使用了國產自研的全場景AI計算框架MindSpore,該框架原生支持大模型訓練,并支持端、邊、云全場景協同,具備安全可信、高效執行、一次開發多次部署的能力。
框架之外, AI使能平臺也需要關注。以武漢人工智能計算中心采用的ModelArts為例,該平臺是全功能AI平臺,功能豐富,具備多租戶、細粒度資源管理的能力,包含一體化的集成開發環境,支持大規模訓練數據管理、大模型的大規模分布式訓練,并集成了自主可控的AI計算框架及第三方框架。在云管平臺方面,安全、易用是關鍵考量:可提供公有云技術滿足公共服務平臺技術要求,支持多租戶管理與資源隔離;源自云的服務能力,統一運維,統一計量。
輔助運營: “建起來”更要“用的好”
人工智能計算中心想要穩定運行,建設和使用之間就不能出現斷層。當下的人工智能計算中心通常由地方政府牽頭,技術支持廠商參與建設。但有些廠商只管建,卻不管養,或者提供不了全面的輔助運營。
輔助運營是發展人工智能產業的保障,這一點是業內專家和項目實踐的共識。例如武漢、西安、深圳等地的人工智能計算中心在建成之后,技術支持廠商設立生態創新中心,組建輔助運營團隊,以“扶上馬、送一程”的方式輔助運營公司開展計算中心算力運營和生態運營,向當地企業提供產品、客戶、渠道等支持服務,并給當地企業提供科研創新、人才培養、應用孵化、產業發展等服務。這一做法確保了人工智能計算中心建起來之后,既可以高效發揮算力價值,也可以確保AI產業生態建設。
除了軟硬件,全棧一體化還涵蓋基建設施,同樣以武漢、西安人工智能計算中心為例,技術支持廠商采用預制模塊化方式建設,不到半年即完成了建設交付,其建設周期是傳統樓宇方式機房建設的一半,效率對比高下立現。
當下,國內人工智能計算中心的規劃與建設如火如荼,隨著武漢、西安、深圳等地人工智能計算中心正式投入運營后對當地人工智能產業的口碑反饋,全棧一體化的優勢將更加凸顯。相信在可以預見的將來,選擇全棧解決方案的人工智能計算中心會越來越多,為我國數字經濟的快速發展提供更多動力。