中國如何贏得新一輪超算競賽?關(guān)鍵在向數(shù)據(jù)密集型超算轉(zhuǎn)變
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
在超級計算機(jī)排名這場國際競爭上,今年明年到了關(guān)鍵節(jié)點。
各國摩拳擦掌準(zhǔn)備多年的“E級超算”(每秒超過一百億億次浮點運(yùn)算),都將集中在2021-2022年計劃完成部署。
你可能還記得“神威·太湖之光”這個名字,我國這臺超算在2016年登上國際排名第一。
僅僅兩年后,美國的頂點(Summit)超算就迎頭趕上,用每秒20億億次浮點運(yùn)算的峰值速度超過神威的每秒12.5億億次。
再過兩年,日本的富岳(Fugaku)以每秒50億億次(0.5E)的峰值速度再創(chuàng)紀(jì)錄。
△圖源:YouTube@What Da Stat
雖然富岳現(xiàn)在依然盤踞榜首,但被某臺E級機(jī)超越也不會很遠(yuǎn)。
(E級機(jī)中的E指Exa,是比P(Peta)大一級的單位。)

美國正在準(zhǔn)備中的E級超算至少有3臺,美國能源部為此投入超過18億美元。
計劃今年就要部署的Frontier,峰值速度預(yù)計1.5E;2022年Aurora隨后跟上,目標(biāo)速度1E;2023年還有一臺El Capitan,最初計劃1.5E但建設(shè)過程中增加到了2E。
這還只是美國政府部門主導(dǎo)的項目,如果算上企業(yè),特斯拉在建的Dojo超算目標(biāo)速度也是1E。
我國正在進(jìn)行的E級超算項目也有3個。
天河三號、神威E級和曙光E級的原型機(jī)都在2018-2019年研制成功,現(xiàn)在正緊鑼密鼓地建設(shè)完全體。
此外,日本、俄羅斯也都啟動了各自的E級機(jī)計劃,歐盟在新建和改造超算上也投入了80億歐元。
誰能率先擁有E級機(jī)成為大國超算競賽的下一個關(guān)鍵點,國際超算排行榜“TOP500”每年6月和11月公布兩次,誰會贏下這一盤也許很快就會揭曉。
究竟是什么讓各國在算力比拼上不斷加碼?
當(dāng)超算遇上數(shù)據(jù)
要回答這個問題,需要從兩方面來看。
一方面是尖端科技發(fā)展的需要。
超級計算機(jī)之所以叫“超級”,是因為強(qiáng)大的算力能把不可能變?yōu)榭赡埽巡粚嵱米優(yōu)閷嵱谩?/p>
如果你感覺現(xiàn)在天氣預(yù)報比小時候要準(zhǔn)多了,就得益于算力的提升。
過去由于算力不夠只能對天氣現(xiàn)象做出模糊的定位,那時候經(jīng)常聽到電視里的說法是“局部地區(qū)有雨”,到現(xiàn)在手機(jī)上都能隨時查看精準(zhǔn)的未來兩小時降雨云圖。
算力的發(fā)展把天氣預(yù)報準(zhǔn)確率從過去的21.8%提高到了現(xiàn)在的90%,日常情況下天氣預(yù)報不準(zhǔn)似乎無關(guān)緊要,但近年來極端天氣現(xiàn)象頻發(fā),準(zhǔn)確預(yù)測臺風(fēng)暴雨可是能拯救許多生命。

同樣與拯救生命相關(guān)的還有生物醫(yī)藥領(lǐng)域,算力這些年的發(fā)展把基因測序的時長從13年縮短到1天,新藥研發(fā)鑒定的周期從5000天縮短到了100天。
眼下為了讓疫苗研發(fā)速度贏過病毒的變異速度,各國也紛紛動用了超算的力量。
此外,在天體物理、地震預(yù)測、石油勘探、國防軍事、新材料發(fā)現(xiàn)等領(lǐng)域也都需要強(qiáng)大的算力支持。
另一方面,新聞中總能聽到的“產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型”,其實就是說算力已經(jīng)深入到經(jīng)濟(jì)運(yùn)行和人們生活的方方面面。
今年寶馬與英偉達(dá)合作,把整個生產(chǎn)流程在數(shù)字世界中重建,通過仿真模擬進(jìn)行優(yōu)化,把生產(chǎn)效率提高了30%。
這項技術(shù)叫“數(shù)字孿生”,也就是把現(xiàn)實世界產(chǎn)生的歷史運(yùn)行數(shù)據(jù)、傳感器收集數(shù)據(jù)、統(tǒng)計數(shù)據(jù)等統(tǒng)統(tǒng)搬到數(shù)字世界里去,盡可能還原一個現(xiàn)實世界的副本。

據(jù)權(quán)威市場研究公司IDC預(yù)測,到2022年75%的企業(yè)將把智能自動化嵌入到技術(shù)和流程開發(fā)中。2024年,AI將成為所有企業(yè)不可或缺的組成部分。
從現(xiàn)實世界鏡像到數(shù)字世界的數(shù)據(jù)將會爆發(fā)式增長,甚至可以說未來智能產(chǎn)業(yè)的運(yùn)轉(zhuǎn)速率取決于數(shù)據(jù)分析的速率。
隨產(chǎn)業(yè)數(shù)字化帶來的,是數(shù)據(jù)構(gòu)成上的變化。根據(jù)IDC預(yù)測,到2025年80%的數(shù)據(jù)將是非結(jié)構(gòu)化數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù)很好理解,像分散在互聯(lián)網(wǎng)上的文章、文檔、圖片、音頻視頻等,只要不是用行和列組成的二維表結(jié)構(gòu)表達(dá)的都算非結(jié)構(gòu)化數(shù)據(jù)。
中科院院士陳國良認(rèn)為,如果說數(shù)據(jù)是數(shù)字世界的新石油,那么非結(jié)構(gòu)化數(shù)據(jù)更難處理,就像石油中最難開采的頁巖油。
處理龐雜的非結(jié)構(gòu)化數(shù)據(jù)就需要新技術(shù),這種新技術(shù)叫做面向海量數(shù)據(jù)的高性能數(shù)據(jù)分析(HPDA,High Perfermance Data Analytics)。
簡單來說,實現(xiàn)HPDA需要把超算、AI算法、大數(shù)據(jù)三者結(jié)合起來。
這樣的超算也可以稱為數(shù)據(jù)密集型超算,也就是用超算的并行處理能力運(yùn)行強(qiáng)大的AI算法,從海量數(shù)據(jù)中提取出價值。
根據(jù)全球高性能計算市場研究機(jī)構(gòu)Hyperion Research預(yù)測,未來數(shù)據(jù)密集型超算市場份額會數(shù)倍于傳統(tǒng)超算的增長速率。
到2024年,高性能計算市場更是將有超過40%來自數(shù)據(jù)密集型超算。
這也讓人不免期待,未來我們會在哪些場景中看到數(shù)據(jù)密集型超算的身影呢?
數(shù)據(jù)密集型超算用在哪?
這個問題其實應(yīng)該反過來看,正是應(yīng)用場景對算力需求的變化驅(qū)動著超算朝數(shù)據(jù)密集化方向發(fā)展。
一臺超算從規(guī)劃到建設(shè)再到投入使用需要好幾年,所以最初就要面向未來可能的應(yīng)用來設(shè)計。
比如生物醫(yī)藥領(lǐng)域,今年發(fā)生的一件大事是DeepMind開源了全新的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型AlphaFold2,并把人類98.5%的蛋白質(zhì)結(jié)構(gòu)全都被預(yù)測了一遍。
而在這之前科學(xué)家們數(shù)十年的努力,只覆蓋了人類蛋白質(zhì)序列中17%的氨基酸殘基。
在基因測序上,最早的人類基因組計劃耗資30億美元?dú)v時13年終于在2003年完成。
到如今面向個人消費(fèi)者的全基因組測序服務(wù)只需要幾小時,價格也降至100美元。
這讓2007年僅為800萬美元的全球基因測序市場規(guī)模,有望在2021年達(dá)到350億美元。
這兩個方向上的進(jìn)展為加速新藥研發(fā)提供了基礎(chǔ),再往后發(fā)展就需要將蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)、基因圖譜數(shù)據(jù)結(jié)合上AI分析的文獻(xiàn)、臨床檔案等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行化合物篩選、發(fā)掘藥物靶點。
正需要高精度科學(xué)計算算力和精度需求不高但數(shù)據(jù)量龐大的AI推理、訓(xùn)練的算力相結(jié)合,才能真正做到縮短新藥研發(fā)周期,降低藥物研發(fā)成本。
再比如腦科學(xué)領(lǐng)域,對神經(jīng)系統(tǒng)的研究除了醫(yī)學(xué)上的作用,也是對大腦認(rèn)知原理的探索,對類腦人工智能技術(shù)和相關(guān)器件的研發(fā)也有啟示意義。
腦科學(xué)研究對傳統(tǒng)超算系統(tǒng)提出的最直接挑戰(zhàn)就是數(shù)據(jù)規(guī)模龐大。
人腦大約有1000億個神經(jīng)元,把神經(jīng)元之間的映射全存成數(shù)據(jù),需要的容量要達(dá)到EB級(一EB等于一百萬TB)。
在這么大規(guī)模數(shù)據(jù)上做檢索響應(yīng)時間高達(dá)100小時,如果腦科學(xué)想取得突破性進(jìn)展,也需要未來超算在數(shù)據(jù)存儲架構(gòu)上完成突破。
同樣需要處理EB級數(shù)據(jù)的是時下火熱的自動駕駛行業(yè)。
根據(jù)美國蘭德公司的研究,自動駕駛算法想要達(dá)到人類司機(jī)水平至少需要累計177億公里的駕駛數(shù)據(jù)來完善算法。
如果配置一支100輛自動駕駛測試車的車隊,每天24小時不停歇路測,平均時速40公里來計算,需要500多年的時間才能完成目標(biāo)里程。
先不提達(dá)到人類水平這么遠(yuǎn)的事,按照現(xiàn)在最受認(rèn)可的SAE自動駕駛分級標(biāo)準(zhǔn),達(dá)到L3級別也要2000萬公里路測歷程,對應(yīng)的數(shù)據(jù)體量達(dá)到1-2EB。
自動駕駛行業(yè)還有一個難點是不同環(huán)節(jié)要求的數(shù)據(jù)協(xié)議不同。
數(shù)據(jù)導(dǎo)入時需要的是S3/NFS格式,數(shù)據(jù)預(yù)處理需要HDFS格式,AI訓(xùn)練又需要NFS格式,后面還有仿真、模型驗證….
結(jié)果是,數(shù)據(jù)轉(zhuǎn)換格式和來回拷貝的時間比處理分析時間還多一倍,這要求未來的數(shù)據(jù)密集型超算還要解決數(shù)據(jù)協(xié)議互通的問題。‘

從微觀的分子化合物、神經(jīng)細(xì)胞到中觀的車輛、道路,再把視角拉大,研究宏觀的地球、宇宙同樣需要數(shù)據(jù)密集型超算。
能源勘探、氣象預(yù)測、衛(wèi)星遙感、天文觀測的數(shù)據(jù)儲存規(guī)模也在幾十到幾百PB,根據(jù)各自的特點還分別對超算的傳輸速度、是否需要AI接口、數(shù)據(jù)管理等問題提出不同的要求。
數(shù)據(jù)密集型超算該怎么建才能適應(yīng)盡可能多的應(yīng)用場景要求,就成了關(guān)鍵問題。
數(shù)據(jù)密集型超算該怎么建?
誠然,超算在基因測序、自動駕駛、腦科學(xué)等場景上已展現(xiàn)出巨大潛力。
各個大國都想搶先于人去挖掘這塊新土壤,由此也就產(chǎn)生了當(dāng)下超算競爭日趨白熱化的局面。
面對這樣的形勢,我們?nèi)绾巫霾拍軗屨枷葯C(jī)呢?
由中國計算機(jī)學(xué)會高性能計算專業(yè)委員會、國內(nèi)各高校和超算中心、華為聯(lián)合編寫的《數(shù)據(jù)密集型超算技術(shù)白皮書》已經(jīng)給出了一些切實可行的建議。
《白皮書》認(rèn)為,想要打贏這場算力上的“軍備賽”,眼下我們應(yīng)當(dāng)從超算架構(gòu)、網(wǎng)絡(luò)傳輸、能耗等方面入手。
采用異構(gòu)融合的新型 HPDA 架構(gòu)
首先,超算要考慮的核心問題還是算力的來源,這就要從處理器芯片說起。
如今的超算中心是把CPU、GPU、FPGA等硬件結(jié)合,讓不同的計算單元來負(fù)責(zé)不同的計算任務(wù),從而提高計算速度和處理能力。
但隨之而來也會產(chǎn)生一個問題,就是資源、數(shù)據(jù)、應(yīng)用上的孤島現(xiàn)象,導(dǎo)致資源重復(fù)建設(shè)、閑置,造成能耗居高不下的問題。
所以,未來的超算中心,要把原來“散兵作戰(zhàn)”的計算單元,再“大一統(tǒng)”起來。
讓它們在發(fā)揮各自強(qiáng)項、快速完成任務(wù)的同時,還能聽從調(diào)遣,最大化利用計算資源,并盡可能完成更多不同的任務(wù)。
這也就是《白皮書》中提到的——異構(gòu)融合架構(gòu)。
具體來看,就是要做到三個層面的統(tǒng)一:硬件上統(tǒng)一資源管理、統(tǒng)一數(shù)據(jù)存儲;軟件上統(tǒng)一資源調(diào)度。

打造存算分離的統(tǒng)一數(shù)據(jù)存儲底座
數(shù)據(jù)密集型超算以數(shù)據(jù)為中心,所以在計算單元之外,存儲系統(tǒng)對超算運(yùn)轉(zhuǎn)速度也有巨大影響。
HPDA把HPC、大數(shù)據(jù)、AI融合,使得它的計算方式會和傳統(tǒng)超算有所不同。
以發(fā)現(xiàn)新材料來舉例,傳統(tǒng)超算通過HPC仿真計算來發(fā)現(xiàn)新材料,HPDA則會用機(jī)器學(xué)習(xí)來實現(xiàn),涉及AI模型的訓(xùn)練和推理。
這二者之間最大的差別就是,AI運(yùn)算非常依賴數(shù)據(jù)。
具體工作過程中,大量計算時間都會消耗在等待數(shù)據(jù)從存儲系統(tǒng)中讀出或?qū)懭肷稀?/p>
如果沿用傳統(tǒng)超算的存儲系統(tǒng),許多昂貴的計算節(jié)點都會處于空閑狀態(tài),造成資源利用不足的問題。
所以就要重新規(guī)劃存儲系統(tǒng)和計算系統(tǒng)。

《白皮書》對此提出了存算分離的概念。
也就是讓所有計算節(jié)點都共享一個存儲,并且讓不同數(shù)據(jù)(文檔、表格、圖片等)之間可以互通、互訪。
這樣一來,超算執(zhí)行不同任務(wù)時,計算節(jié)點從這個大的存儲底座中找到需要的數(shù)據(jù)即可。

在此基礎(chǔ)上,還要讓數(shù)據(jù)可以按照需求自由流動,讓熱數(shù)據(jù)、溫數(shù)據(jù)、冷數(shù)據(jù)能夠智能分級。
也就是將高價值的文件放置在高可用性、高性能的存儲設(shè)備上,低價值的文件放置在成本較低的、性能和可用性規(guī)格較低的設(shè)備上。

當(dāng)然,還要達(dá)到合理的存算比。
一直以來我國超算中心建設(shè)都存在重算力、輕存儲的問題。
在我國,存力(存儲容量PB)與算力(計算算力PFLOSPS)的比例為1:2,相應(yīng)的投資比例為1:3。這兩個數(shù)據(jù),美國已經(jīng)達(dá)到1:1。
如果按照現(xiàn)在的超算中心建設(shè)模式推行,幾年后我們勢必會出現(xiàn)存儲量短缺的危機(jī)。所以接下來,我們還有重視存力上的規(guī)劃。
推進(jìn)全光化多網(wǎng)融合高速互聯(lián)網(wǎng)絡(luò)構(gòu)建
隨著處理數(shù)據(jù)越來越多、種類更為豐富,傳輸上的高帶寬、高IOPS和低時延需要得到很好保障。
同時也要注意全周期的數(shù)據(jù)安全。

事實上,超算中心能夠快速計算、推理,也離不開設(shè)備之間的高速互連。
想要達(dá)到更好的效果,需要從元件材料和傳輸技術(shù)兩個方面入手。
材料上,光子集成產(chǎn)品在尺寸、功耗、成本、可靠性方面優(yōu)勢明顯,是未來光器件主流發(fā)展方向。
所以我們要大力推進(jìn)“光進(jìn)銅退”,用光子技術(shù)來構(gòu)建高速互連的網(wǎng)絡(luò)。
技術(shù)上,要讓超算中心中的多網(wǎng)絡(luò)進(jìn)行融合。
超算中心中,往往有計算網(wǎng)絡(luò)、數(shù)據(jù)網(wǎng)絡(luò)、存儲網(wǎng)絡(luò)、監(jiān)控網(wǎng)絡(luò)等多套網(wǎng)絡(luò),在構(gòu)建、運(yùn)維、功耗上都會有很高的成本。
因此,如何讓它們之間融合、降低成本,是未來數(shù)據(jù)密集型超算中心需要思考的問題。
使用低碳高效綠色節(jié)能的工程工藝
最后,我們還要考慮超算中心運(yùn)行過程中的具體問題。
比如能耗。
隨著芯片、系統(tǒng)、光器件等組成在性能上的不斷提升,超算對能耗的需求在日益增大。
比如在系統(tǒng)層面,當(dāng)前100P系統(tǒng)的能耗大約在20MW左右,單機(jī)柜能耗達(dá)到100KW,系統(tǒng)能效比大約為數(shù)十GFlops/W。
如果在節(jié)能上始終沒有革命性的新技術(shù)出現(xiàn),未來E級以上系統(tǒng)的這些指標(biāo)都將變得難以承受。
對此,《白皮書》提出要降低電源使用效率、提升設(shè)備能源利用效率。
一方面是降低中心PUE。
PUE值(Power Usage Effectiveness,電源使用效率)是國際上比較通行的數(shù)據(jù)中心電力使用效率的衡量指標(biāo)。
PUE值越接近于1,表示一個數(shù)據(jù)中心的綠色化程度越高。
我國國家超級計算無錫中心在建設(shè)之初的PUE值為1.3左右,如今年平均PUE值降至1.22。
兩年時間減少約700萬度耗電量,節(jié)約了400多萬元電費(fèi)。

另一方面是要提升IT設(shè)備的能源利用效率。
比如使用SSD閃存盤。
最常用的高性能SAS機(jī)械硬盤組成的存儲系統(tǒng)典型功耗約10.6W/TB。
而SSD閃存盤組成的存儲系統(tǒng)典型功耗僅約5.3W/TB,可降低約50%能耗。
因此,數(shù)據(jù)密集型超算中心要求全閃存存儲占比50%,來極大促進(jìn)超算中心的綠色發(fā)展。
構(gòu)筑易用的國產(chǎn)應(yīng)用平臺支撐環(huán)境生態(tài)
如此高端的設(shè)備、先進(jìn)的系統(tǒng)、強(qiáng)大的算力,你或許會覺得超算離我們遙不可及。
但事實上,超算的本質(zhì)還是要解決更多難題,不僅是科研方面,還有普通生活領(lǐng)域的。
在過去5-6年中,高性能計算和AI在各種企業(yè)中的應(yīng)用已經(jīng)不再稀奇了。
這要?dú)w功于軟件容器化技術(shù)。
只要容器化技術(shù)提前將超算運(yùn)行環(huán)境封裝好,實現(xiàn)應(yīng)用和底層硬件的解耦,即便是不懂專業(yè)計算機(jī)的普通企業(yè)用戶也能使用HPC。
而放眼未來,在構(gòu)建良好超算生態(tài)上,我們還要讓更多人能夠參與到開發(fā)中來。
要針對行業(yè)內(nèi)普遍存在的問題大力開發(fā),為用戶提供簡單、易懂的可視化操作界面。
同時要解決新架構(gòu)帶來的開發(fā)難的問題。異構(gòu)編程架構(gòu)應(yīng)該基于現(xiàn)有的經(jīng)典并發(fā)模型,針對程序并行和數(shù)據(jù)并行,為用戶提供方便快捷的工具。
此外,還要搭建智能化管理運(yùn)維平臺,用AI等技術(shù)讓IT設(shè)施變得越來越智能。

以上就是《白皮書》中對數(shù)據(jù)密集型超算技術(shù)的建設(shè)標(biāo)準(zhǔn)提出的幾點建議。
《白皮書》的最后一部分還對我國數(shù)據(jù)密集型超算的未來發(fā)展做了展望。
我國應(yīng)盡快制定明確的發(fā)展目標(biāo)和規(guī)劃、出臺相關(guān)指導(dǎo)意見,盡快制定數(shù)據(jù)密集型超算測評標(biāo)準(zhǔn),并大力推進(jìn)產(chǎn)學(xué)研合作。
如今我國超算發(fā)展正式邁入爆發(fā)期,在今年世界500強(qiáng)超級計算機(jī)名單中,中國超算中心部署量居世界第一。
在數(shù)據(jù)密集型成為重點趨勢、超算產(chǎn)業(yè)迎來新一輪爆發(fā)的今天,中國超算已經(jīng)走出一條屬于自己的道路了嗎?
獲取白皮書:
https://e.huawei.com/cn/material/storage/1f2563c5282d44b3a8d26a97d14be65e