戴爾科技AI平臺|最新AI服務器——PowerEdge XE8545
這些年來
圍繞私有云與公有云的辯論
“成本”二字是繞也繞不開的話題
直到越來越多的研究表明
公有云并不比本地便宜
有時甚至可能更貴
這個爭論才逐漸平息
但對于特殊的
深度學習應用呢
跑在公有云是否會比本地便宜?
云是托管AI開發和生產的最經濟方式嗎?Moor Insights&Strategy高級分析師Karl Freund認為,最好的方案取決于你在AI旅程中的位置、你將如何密集地建立你的AI能力,以及期望實現的成果。
為何云對AI有如此吸引力?
云服務提供商(CSP)擁有廣泛的開發工具組合和預訓練的深度神經網絡,用于語音、文本、圖像和翻譯處理。例如,微軟Azure提供了大量個預訓練的網絡和工具,可以被你的云托管應用程序作為API訪問。
許多模型甚至可以用用戶自己的數據進行定制,如特定的詞匯或圖像。谷歌也有一連串相當驚人的工具。比如它的AutoML可以自動構建深度學習神經網絡,在某些情況下可以節省大量時間。
所有這些工具都有幾個共同點。首先,它們使構建AI應用看起來非常容易。由于大多數公司都在努力為AI項目配備員工,因此這一點非常有吸引力。
其次,它們提供易用性,承諾在一個充滿相對晦澀難懂的技術的領域中點擊即可使用。但是,所有這些服務都有一個陷阱——他們要求你在他們的云中開發應用程序,并在他們的云中運行。
因此,這些服務具有極大的“綁定”特性。如果你使用微軟的預訓練的DNN進行圖像處理,你不能輕易在自己的服務器上運行所產生的應用程序。你可能永遠不會在非谷歌的數據中心看到谷歌的TPU,也無法使用谷歌的AutoML工具。
“綁定”本身并不一定是件壞事。但這里有一個問題:很多AI開發,特別是訓練深度學習神經網絡,最終需要大量的計算。此外,你不會停止訓練一個(有用的)網絡,你需要用新的數據和功能來不斷保持它的“新鮮度”。
我所看到的公開研究表明,這種水平的計算在云中可能變得相當昂貴,成本是建立自己的私有云來訓練和運行神經網絡的2-3倍。
因此,對于小型,未知或可變的計算要求,云計算是有意義的,但是對于連續的、大規模深度學習而言,使用本地基礎設施可節省大量成本。而且除了成本因素以外,還有更多原因需要使用自我托管。
01部署
啟動一個AI項目可能需要大量的時間、精力和費用。云AI服務可以大大減少開始時的痛苦,不過一些硬件供應商也在提供硬件和軟件的捆綁,力求AI的部署變得簡單。
*例如,戴爾科技針對深度和機器學習推出了 "AI就緒型解決方案",其配備的完整GPU和集成軟件棧,專為降低部署AI門檻而設計。
02數據安全
一些行業受到嚴格的監管,需要內部的基礎設施。如金融行業,則認為將敏感信息放入云中風險太大。
03數據引力
這是對一些企業最重要的因素。簡單說,如果你的重要數據在云中,你應該建立你的AI,并把你的應用程序也放在那里。但如果你的重要數據放在企業內部,數據傳輸的麻煩和成本可能是繁重的,特別是考慮到神經網絡訓練數據集的巨大規模。因此,在內部建立你的人工智能也是有意義的。
結 論
在哪里訓練和運行AI是一個深思熟慮的決定。這里的問題是,通常在你的開發道路上走得很遠,才能確定所需基礎設施的大小(服務器的數量、GPU的數量、存儲的類型等)。
一個常見的選擇是在公有云中開始你的模型實驗和早期開發,并制定一個帶有預定義的退出計劃,告訴你是否以及何時應該把工作搬回家。這包括了解CSP的機器學習服務的好處,以及如果你決定把所有東西都搬到自己的硬件上,你將如何取代它們。
省時省力還省心
從選好一個硬件供應商開始
AI正在革新我們的未來,而現在才剛剛起步。如同Karl Freund所認為的:本地AI基礎設施可以比公有云更具經濟效益。如果您計劃在AI領域進行大量投資,一個好的硬件供應商(比如戴爾科技集團)不僅可以切合您的需要,其中一些服務更可以相當實惠。
憑借豐富的IT硬件組合,以及廣泛的合作伙伴生態系統,戴爾科技正協助客戶簡化并積極推動數據科學及AI項目,無論是機器學習項目還是深度學習項目,涵蓋的部署范圍包括IoT網關、工作站、服務器、存儲、AI就緒解決方案和HPC等。
用于機器學習的硬件
針對機器學習項目,戴爾易安信PowerEdge R750或R740xd是理想的平臺。這些通用的2U服務器支持加速器和大容量存儲,為后續的深度學習項目提供了未來的保障,其中xd版本還支持額外的存儲容量。AI就緒型解決方案
戴爾科技提供預配置的AI就緒解決方案,可簡化配置過程,降低成本,并加快部署分布式多節點機器學習和深度學習集群。這些集成系統對硬件、軟件和服務進行了優化,有助于AI工作人員快速投入到生產并產生結果。用于AI的存儲
存儲性能對于機器學習項目的性能平衡至關重要,戴爾科技提供廣泛的全閃存和混合存儲產品組合,可以滿足AI的苛刻要求,這包括戴爾易安信PowerScale和ECS的存儲以及采用NFS和Lustre的分布式存儲解決方案。
此外,還有當下熱門的戴爾科技最新AI服務器——PowerEdge XE8545。其搭載的最新AMD米蘭CPU、第三代NVlink - SMX4以及NVIDIA A100 40/80GB GPU,無不顯示出這是成為尖端機器學習模型,復雜的高性能計算(HPC)和GPU虛擬化的理想選擇。
下面來看這款服務器的強大之處
1. AMD米蘭CPU
XE8545配備了2顆地表最強的7nm Zen3架構的AMD第三代EPYC處理器。霄龍處理器一路走來,用自己的實力在服務器處理器市場牢牢的站穩了腳,高性價吸引了不少用戶的目光。
2. 第三代NVLink-SXM4
XE8545 GPU內部采用NVIDIA第三代NVLink互聯。其技術可提供更高帶寬和更多鏈路,并可提升多GPU系統配置的可擴展性,故而可以解決互聯問題。
單個NVIDIA A100 Tensor核心GPU支持多達12個第三代NVLink 連接,總帶寬為每秒600 千兆字節(GB/秒),幾乎是PCIe Gen 4帶寬的10倍。
NVIDIA DGX™ A100等服務器可利用這項技術來提高可擴展性,進而實現非??焖俚纳疃葘W習訓練。NVLink也可用于 PCIe版A100的雙GPU配置。
▲點擊查看清晰圖片
我們可以看出第三代NVLink的帶寬幾乎是PCIe Gen4的10倍,用第三代NVLink互聯的A100在能夠達到的最大功耗和顯存上也遠遠高于PCIe Gen4互聯的A100,是真正的靈活型性能怪獸。
3. NVIDIA A100 40/80GB GPU
XE8545內部支持多達四個A100 GPU,性能極其強大。
A100引入了突破性的功能來優化推理工作負載。它能在從FP32到INT4的整個精度范圍內進行加速。多實例GPU (MIG)技術允許多個網絡同時基于單個A100運行,從而優化計算資源的利用率。在A100其他推理性能增益的基礎之上,僅結構化稀疏支持一項就能帶來高達兩倍的性能提升。
在BERT等先進的對話式AI模型上,A100可將推理吞吐量提升到高達CPU的249倍。
在受到批量大小限制的極復雜模型(例如用于先進自動語音識別用途的RNN-T)上,顯存容量有所增加的A100 80GB能使每個MIG的大小增加一倍(達到10GB),并提供比A100 40GB高1.2倍的吞吐量。
NVIDIA產品的出色性能在MLPerf推理測試中得到驗證。A100再將性能提升了20倍,進一步擴大了這種性能優勢。
A100結合MIG技術可以更大限度地提高GPU加速的基礎設施的利用率。借助MIG,A100 GPU可劃分為多達7個獨立實例,讓多個用戶都能使用GPU加速功能。使用A100 40GB GPU,每個MIG實例最多可以分配5GB,而隨著A100 80GB增加的GPU內存容量,每個實例將增加一倍達到10GB。
除了強大的XE8545服務器外,戴爾科技還有全系列的AMD服務器供您選擇。更詳細的產品,歡迎聯系戴爾官方企采網采購專線400-884-6610,或者聯系您的客戶經理。
尊敬的讀者
勞動節福利火熱派送中
4月24日-5月14日
超炫新品0元試用
到手無需歸還
快來掃描下方二維碼
或點擊文末閱讀原文
速速參與活動
👇👇👇
相關內容推薦:AI成為人,需要這一塊"肋骨"|戴爾科技為全球用戶提供幫助
文章來自公眾號戴爾易安信解決方案