你的企業(yè)需要哪些AI處理單元?
如果你希望在數(shù)據(jù)中心部署AI,請(qǐng)仔細(xì)考慮首先要投資的硬件和基礎(chǔ)設(shè)施。
AI涵蓋一系列技術(shù),例如機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。并且AI包括廣泛的業(yè)務(wù)應(yīng)用,從可預(yù)測(cè)未來(lái)表現(xiàn)的分析,到推薦系統(tǒng)和圖像識(shí)別。
隨著越來(lái)越多的大型企業(yè)采用人工智能作為數(shù)字化轉(zhuǎn)型工作的一部分,AI正在不斷擴(kuò)展和發(fā)展。請(qǐng)了解你的企業(yè)為何需要AI,這可以幫助你決定采用哪種基礎(chǔ)架構(gòu)來(lái)支持它。
配備GPU的服務(wù)器
為服務(wù)器配備GPU已成為AI最常見(jiàn)的基礎(chǔ)架構(gòu)方法之一。你可以使用GPU芯片的大規(guī)模并行架構(gòu)來(lái)加速處理AI模型所涉及的批量浮點(diǎn)運(yùn)算。
GPU也往往擁有廣泛而成熟的軟件生態(tài)系統(tǒng)。例如,Nvidia開(kāi)發(fā)了CUDA工具包,讓開(kāi)發(fā)人員可以將GPU用于各種目的,包括深度學(xué)習(xí)和分析。然而,盡管GPU支持某些深度學(xué)習(xí)任務(wù),但它們并不一定支持所有AI工作負(fù)載。
IDC公司分析師Jack Vernon說(shuō):“在AI和機(jī)器學(xué)習(xí)的背景下,有些模型不屬于深度學(xué)習(xí)的類(lèi)別,并且未被充分探索,因?yàn)镚PU非常擅長(zhǎng)神經(jīng)網(wǎng)絡(luò)類(lèi)型的東西,但它不一定擅長(zhǎng)某些有趣算法,以幫助人們做有趣的事情。”
在數(shù)據(jù)中心部署 AI 之前,你應(yīng)該首先考慮為什么你要采用該技術(shù),以確定GPU是否符合你的要求。然后,尋求專(zhuān)家建議以確定最適合你企業(yè)要求的模型類(lèi)型,以了解你需要哪些其他基礎(chǔ)架構(gòu)。
其他硬件加速器
現(xiàn)場(chǎng)可編程門(mén)陣列 (FPGA) 本質(zhì)上是塞滿邏輯塊的芯片,你可以根據(jù)需要對(duì)其進(jìn)行配置和重新配置,以執(zhí)行不同的功能。而ASIC在制造過(guò)程中將邏輯功能內(nèi)置到芯片中。兩者都可以加速硬件性能。對(duì)于擁有大量明確定義的工作負(fù)載的企業(yè),ASIC更有意義,而FPGA需要更復(fù)雜的編程。
谷歌通過(guò)其Google Cloud Platform向客戶(hù)提供其TPU,這是一種專(zhuān)為深度學(xué)習(xí)設(shè)計(jì)的ASIC。另外,Graphcore專(zhuān)門(mén)為AI工作負(fù)載設(shè)計(jì)了IPU,而Cambricon則提供圍繞針對(duì)深度學(xué)習(xí)優(yōu)化的指令集而設(shè)計(jì)的處理器芯片。英特爾收購(gòu)的Habana Labs將可編程加速器作為單獨(dú)的芯片,用于深度學(xué)習(xí)的訓(xùn)練和推理部分,分別稱(chēng)為Gaudi和Goya。
盡管GPU和類(lèi)似類(lèi)型的硬件加速器在AI方面?zhèn)涫荜P(guān)注,但CPU仍然與AI和機(jī)器學(xué)習(xí)的很多領(lǐng)域相關(guān)。例如,英特爾為其服務(wù)器CPU添加了功能,以幫助加速AI工作負(fù)載。最新的Xeon Scalable系列采用Intel Deep Learning Boost,它具有新的指令來(lái)加速推理中涉及的計(jì)算類(lèi)型。這意味著這些CPU可以在不需要額外硬件的情況下加速某些AI工作負(fù)載。
針對(duì)AI的存儲(chǔ)
在支持AI的基礎(chǔ)設(shè)施方面,企業(yè)不應(yīng)忽視存儲(chǔ)。訓(xùn)練機(jī)器學(xué)習(xí)模型需要大量的樣本數(shù)據(jù),并且系統(tǒng)必須盡可能快地接收數(shù)據(jù)以保持性能。
Vernon稱(chēng):“存儲(chǔ)是非常大的事情,訓(xùn)練過(guò)程本身通常涉及反饋循環(huán)。因此,你需要在一個(gè)階段中保存模型,在此之上運(yùn)行一些處理,更新它,然后不斷地調(diào)用它。大多數(shù)正在構(gòu)建培訓(xùn)和推理基礎(chǔ)設(shè)施的企業(yè)通常很快就會(huì)需要大量額外的存儲(chǔ)。”
對(duì)于具有HPC基礎(chǔ)設(shè)施的企業(yè),通常已經(jīng)擁有快速閃存存儲(chǔ)層–以更大容量層為后端。對(duì)于大多數(shù)企業(yè)而言,這意味著以盡可能低的延遲部署NVMe SSD,并以成本較低的存儲(chǔ)為后盾來(lái)提供容量。
專(zhuān)用AI系統(tǒng)
有些專(zhuān)門(mén)系統(tǒng)為AI工作負(fù)載提供更高的性能。Nvidia的DGX服務(wù)器是基于其GPU,其架構(gòu)經(jīng)過(guò)優(yōu)化以保持這些GPU獲取數(shù)據(jù)。存儲(chǔ)供應(yīng)商還與Nvidia合作,提供經(jīng)過(guò)驗(yàn)證的參考架構(gòu),將高性能存儲(chǔ)陣列與Nvidia DGX系統(tǒng)配對(duì)。例如,DDN優(yōu)化其Accelerated, Any-Scale AI產(chǎn)品組合,針對(duì)用于訓(xùn)練AI模型的所有類(lèi)型的訪問(wèn)模式和數(shù)據(jù)布局,并且,NetAp和Pure Storage等供應(yīng)商提供類(lèi)似的存儲(chǔ)架構(gòu)。
英特爾提供其OpenVINO工具包作為推理引擎,旨在優(yōu)化和運(yùn)行預(yù)訓(xùn)練模型。它具有插件架構(gòu),使其能夠在一系列硬件(例如 CPU、GPU、FPGA 或三者的混合)上執(zhí)行模型,從而為企業(yè)提供更大的部署靈活性。
你還可以選擇在云端構(gòu)建和訓(xùn)練你的AI模型,使用按需資源,當(dāng)訓(xùn)練完成,就可以停止使用。