「奇點(diǎn)」AI計(jì)算平臺(tái)細(xì)節(jié)曝光!竟是微軟四年前老項(xiàng)目重生
AI服務(wù)平臺(tái)的成本和效率問(wèn)題,是各大服務(wù)提供商一直著力解決和改進(jìn)的難題。
具體而言,就是如何在滿足客戶需求的同時(shí),盡量降低整個(gè)系統(tǒng)資源的消耗,以及如何通過(guò)提高深度學(xué)習(xí)工作負(fù)載的利用率來(lái)降低成本。
近日,微軟 Azure 研究團(tuán)隊(duì)合作構(gòu)建了一個(gè)新的 AI 基礎(chǔ)設(shè)施服務(wù),代號(hào)為「Singularity」。用研究人員的話說(shuō),這是「一個(gè)全新的人工智能平臺(tái)服務(wù),將成為微軟內(nèi)部和外部人工智能的主要驅(qū)動(dòng)力。」
Singularity 服務(wù)旨在為數(shù)據(jù)科學(xué)家和 AI 從業(yè)者提供一種在微軟專為 AI 構(gòu)建的分布式基礎(chǔ)架構(gòu)服務(wù)上構(gòu)建、擴(kuò)展、試驗(yàn)和迭代其模型的方法。
論文地址:
??https://arxiv.org/pdf/2202.07848.pdf
在一篇系統(tǒng)介紹Singularity 服務(wù)的論文中,研究人員表示:
「Singularity 的核心是一種新穎的、可以感知工作負(fù)載的調(diào)度程序,可以透明地?fù)屨己蛷椥詳U(kuò)展深度學(xué)習(xí)工作負(fù)載,在不影響正確性和性能的情況下,提高全球范圍內(nèi)的 AI 加速器(例如 GPU、FPGA)的利用率。」
據(jù)介紹,使用Singularity服務(wù),活動(dòng)作業(yè)負(fù)載可以動(dòng)態(tài)且透明地占用并遷移到一組不同的節(jié)點(diǎn)、集群、數(shù)據(jù)中心或區(qū)域,并準(zhǔn)確執(zhí)行,還能夠在給定類型的一組不同的加速器上調(diào)整大小(即彈性縮放)。
Singularity平臺(tái)架構(gòu)示意圖
用戶無(wú)須對(duì)代碼進(jìn)行任何更改,也不需要使用任何可能限制靈活性的自定義庫(kù)。微軟表示,這種方法顯著提高了深度學(xué)習(xí)工作負(fù)載的可靠性。
這篇論文的作者包括 Azure 首席技術(shù)官 Mark Russinovich;合作伙伴架構(gòu)師 Rimma Nehme,他曾在 Azure Cosmos DB 工作,直到 2019 年轉(zhuǎn)到 Azure 從事人工智能和深度學(xué)習(xí)工作;以及技術(shù)研究員 Dharma Shukla等。
和今天使用的彈性負(fù)載調(diào)度機(jī)制相比,Singularity調(diào)度程序可以將每個(gè) worker 一對(duì)一映射到物理 GPU,或者使用多對(duì)一映射,將物理 GPU 虛擬化并跨多個(gè) worker 進(jìn)行時(shí)間切片,world-size不變。
相比之下,目前的彈性機(jī)制調(diào)度程序會(huì)將工作從上一個(gè)檢查點(diǎn)重新啟動(dòng),world-size減小至四分之一,導(dǎo)致資源浪費(fèi)(比如自上一個(gè)檢查點(diǎn)以來(lái)的初始化和迭代需要重做)。
測(cè)試結(jié)果顯示,在不同模型上,使用Singularity服務(wù)(DP)相對(duì)基線水平(B)獲得的性能提升。
在透明彈性負(fù)載調(diào)度性能上,Singularity則取得了7%的平均優(yōu)勢(shì)。
研究人員表示,Singularity在調(diào)度深度學(xué)習(xí)工作負(fù)載方面實(shí)現(xiàn)了重大突破,將諸如彈性等小眾特征轉(zhuǎn)化為主流特征,并在此基礎(chǔ)上實(shí)現(xiàn)了對(duì)深度學(xué)習(xí)工作負(fù)載的調(diào)度。
Singularity實(shí)現(xiàn)了前所未有的工作負(fù)載可替換性水平。工作負(fù)載能夠利用全球分布的機(jī)群中的任何地方的空閑資源。
Singularity提供簡(jiǎn)單的用戶體驗(yàn):用戶只需要關(guān)注機(jī)器學(xué)習(xí)任務(wù)本身,而不需要考慮檢查點(diǎn)或彈性負(fù)載問(wèn)題。這些基礎(chǔ)設(shè)施的優(yōu)化對(duì)用戶是完全透明的。
四年前的老項(xiàng)目「重生」?
ZD Net報(bào)道稱,Singularity 可能是將微軟此前推出的 Brainwave 項(xiàng)目推向商業(yè)化的下一個(gè)階段。
微軟此前曾討論過(guò)將 FPGA 或現(xiàn)場(chǎng)可編程門(mén)陣列作為服務(wù)提供給客戶的計(jì)劃。
2018 年,微軟公開(kāi)了其旨在 Azure 中提供快速 AI 處理和計(jì)算能力的「Brainwave」項(xiàng)目。
當(dāng)時(shí),微軟在云端提供了由 Brainwave 提供支持的 Azure 機(jī)器學(xué)習(xí)硬件加速模型的預(yù)覽——一個(gè)向客戶提供面向 AI 工作負(fù)載的 FPGA 處理平臺(tái)。
Brainwave 由高性能分布式系統(tǒng)架構(gòu)組成;運(yùn)行在可定制芯片(FPGA)上的硬件深度神經(jīng)網(wǎng)絡(luò)引擎,用于部署訓(xùn)練模型的編譯器。
實(shí)際上,這不是微軟在自家平臺(tái)上第一次使用Singularity這個(gè)詞了。微軟之前就曾將 Singularity 用來(lái)命名微內(nèi)核操作系統(tǒng),以及一組完全以托管代碼開(kāi)發(fā)的相關(guān)工具和資源庫(kù)。
Singularity 最終催生和/或影響了微軟的其他幾個(gè)云平臺(tái)和操作系統(tǒng)項(xiàng)目,對(duì) Barrelfish、 Helios、 Midori和 Drawbridge等項(xiàng)目均產(chǎn)生了不小的影響。
AI計(jì)算平臺(tái),大廠爭(zhēng)相布局
值得注意的是,在人工智能高性能計(jì)算和加速計(jì)算平臺(tái)的構(gòu)建上,微軟早就開(kāi)始布局了。
2019年,微軟在OpenAI上投資了10億美元,并在一年后宣布,他們已經(jīng)與OpenAI合作并專門(mén)為OpenAI建造了第五強(qiáng)大的公開(kāi)記錄超級(jí)計(jì)算機(jī)。
雖然微軟與OpenAI合作建造的AI超級(jí)計(jì)算機(jī)專門(mén)用于OpenAI,但微軟一直表示,他們計(jì)劃通過(guò)Azure AI服務(wù)和GitHub,想更多的用戶提供大型AI模型和訓(xùn)練優(yōu)化工具。
微軟還在其「Azure AI」旗下向不需要專用超級(jí)計(jì)算機(jī)的客戶提供各種加速計(jì)算服務(wù)。
2021年11月,微軟宣布將在Azure中使用 80GB NVIDIA A100 GPU,以擴(kuò)大其AI超級(jí)計(jì)算機(jī)陣容。
而且,微軟并不是唯一一家試圖在內(nèi)部和客戶中提供人工智能超級(jí)計(jì)算功能的科技公司。Meta也在做同樣的事情,如無(wú)意外,Meta已經(jīng)將這項(xiàng)工作定位為解鎖元宇宙的關(guān)鍵。