解析UCloud人工智能與英特爾背后的技術故事「下」
在上一篇中,我們介紹了UAI-Service借力英特爾技術如何讓使用AI服務像使用云主機一樣便捷等技術問題。在這一篇中,我們將繼續(xù)就UAI-Service如何以低TCO獲取高效AI服務等問題展開討論。
UAI-Service另一個重要優(yōu)勢是平臺內數(shù)據(jù)的安全性:
1.首先,由于UAI-Service在每個虛擬機上只部署一個AI節(jié)點,因此做到了各個AI任務之間的隔離;
2.其次,由于平臺本身并不涉及AI訓練數(shù)據(jù)以及訓練方法,在運行時僅需模型文件及接口代碼,杜絕了數(shù)據(jù)外泄的可能;
3.最后,UCloud基于SDN技術實現(xiàn)了網絡鏈路層的隔離,使每個客戶的UAI- Service項目子網之間相互隔離,提升了網絡安全性。
在UAI-Service中,用戶之間的AI模型和接口代碼是安全隔離的,全自動化的部署過程使運維人員無權訪問敏感數(shù)據(jù),進一步提升了數(shù)據(jù)的安全性。
UAI-Service的通用性優(yōu)勢,解決了企業(yè)面對不同AI框架時的“選擇障礙癥”。UAI-Service對主流的AI框架,包括TensorFlow*、Keras*、Caffe* 和MXNet* 等都提供良好的支持,企業(yè)可以根據(jù)自己的業(yè)務需求來選擇不同的AI框架進行接入。
UAI-Service 框架示意圖
在傳統(tǒng)的AI框架以外,UAI-Service還與英特爾一起,引入了性能更佳的AI框架:面向英特爾?架構優(yōu)化的Caffe框架。這一版本的Caffe框架與傳統(tǒng)AI框架相比,能更好地支持英特爾?至強?處理器產品家族和英特爾?至強融核?處理器產品家族,并集成了最新版本的英特爾?數(shù)學核心函數(shù)庫2017,能更高效地利用英特爾?AVX的處理能力。
源自UCloud的一系列測試結果表明,借助面向英特爾?架構優(yōu)化的Caffe框架,測試系統(tǒng)同時運行的線程數(shù)量可以得到顯著增加。基于該框架,測試系統(tǒng)的執(zhí)行時間也能從最初未修改前的37秒縮短至優(yōu)化后的3.6秒,整體執(zhí)行性能提高了10倍以上。事實證明,通過采用這一框架,UAI-Service的AI在線服務效率得到了極大的躍升。
以低TCO獲取高效AI服務
現(xiàn)階段,致力于AI開發(fā)和創(chuàng)新的企業(yè),多為初創(chuàng)型企業(yè),或者是正在謀求業(yè)務轉型和升級的傳統(tǒng)企業(yè),因此對TCO的控制尤為敏感。如何獲取高性價比的在線AI能力是企業(yè)用戶們普遍關心的熱點話題。
由于在圖像識別、自然語言處理等AI正在發(fā)揮重要作用的領域中,往往需要用到大量的浮點運算,因此在人們的傳統(tǒng)觀念里,只針對浮點計算提供加速的GPU平臺,似乎更適于AI系統(tǒng)的構建。但在AI模型的部署實踐中,GPU動輒高達數(shù)萬元人民幣的售價極其昂貴,而且由于其擴展性不足,一旦部署,通常就只能固定執(zhí)行單一的計算工作,難以隨時根據(jù)工作任務的調整和變化實現(xiàn)及時的適配。
這樣一來,UCloud就盯上了數(shù)據(jù)中心內大量部署的、每臺服務器都會配備的通用處理器。“通過技術分析,我們發(fā)現(xiàn)虛擬云主機中的處理器,處于工作狀態(tài)的主要都是簡單指令集,而英特爾?至強?處理器集成的英特爾?AVX則并沒有被充分利用。”UCloud葉理燈表示:“這意味著以浮點計算性能著稱的英特爾?AVX的能力,或許可以為我們提供更適用的解決方案。”
英特爾?AVX是一套完整的單指令多數(shù)據(jù)(Single Instruction Multiple Data,SIMD)指令集規(guī)范,其最大的優(yōu)勢在于支持256位矢量計算,大大提升了處理器的浮點計算性能。其具備的增強數(shù)據(jù)重排能力,也能更有效地存儲、讀取數(shù)據(jù)。在充分認識到了英特爾?AVX及其處理單元的特性和優(yōu)勢之后,UCloud的工程師們開始了一項大膽的創(chuàng)新:利用各個虛擬機中此前未能“物盡其用”的英特爾?AVX能力,來滿足AI在線服務的計算需求。
為了實現(xiàn)這一創(chuàng)舉,UCloud與英特爾的工程師們攜手優(yōu)化了英特爾?AVX在AI在線服務中的應用表現(xiàn),經過反復的優(yōu)化與驗證,AI在線服務的重要技術指標——時延被成功降低到了數(shù)百毫秒,完全能夠滿足UCloud用戶的實際應用需求。
在時延這一性能指標達標的同時,英特爾?至強?E5處理器產品家族出色的可擴展性也開始釋放其強大的應用潛力。在數(shù)據(jù)中心內、服務器中配備的無數(shù)英特爾處理器都可以被擴展到系統(tǒng)中,來進一步強化AI在線服務所需的浮點計算能力,這是一種遠比GPU方案經濟高效得多的解決方案,畢竟,這些處理器節(jié)點已經是UCloud的既有投資,無需再為此多支出一分錢。
“這就是英特爾處理器強大的可擴展性帶來的力量。在云計算平臺上,處理器資源能夠迅速地進行海量擴容,按我們目前的解決方案,即在每一個虛擬機上都部署一個AI在線服務計算節(jié)點,這意味著我們的AI在線服務未來可以根據(jù)用戶需求得到迅速且海量的擴容能力,同時還不需要額外支付太多成本。”UCloud葉理燈滿意地說。
為了對這一創(chuàng)新成果進行驗證,UAI-Service已在200多個基于英特爾?至強?E5處理器產品家族的虛擬機節(jié)點上部署了AI在線服務計算節(jié)點,驗證測試的結果表明:基于英特爾至強處理器的AI在線服務計算節(jié)點完全能滿足用戶對性能的要求,在幫助用戶有效降低TCO的同時,也順應了數(shù)據(jù)中心環(huán)保節(jié)能的發(fā)展方向。
最新進展:讓機器更快識別”喜怒哀樂”
在前期成功開發(fā)和測試的基礎上,UAI-Service最近又在人臉識別技術的應用上實現(xiàn)最新進展。人臉識別一直是人工智能的一個重要研究方向,而基于英特爾至強服務器平臺,利用英特爾?AVX來支持的UAI-Service,已在人臉表情識別的一系列測試中達成了優(yōu)異的表現(xiàn),驗證了其能幫助零基礎用戶獲得強大AI能力的潛能。
在測試中,UCloud選用了Tensorflow提供的TF-Slim實驗庫以及人臉表情識別公開數(shù)據(jù)庫fer2013,其中共包含35887張人臉圖片,各測試樣本在年齡、面部等方面有較大差異性,這使該項技術測試具備了巨大的挑戰(zhàn)性。
而測試結果表明:在有并發(fā)的前提下,UAI-Service AI在線服務的性能普遍高于8核8G云主機的性能,剛剛得到的測評數(shù)據(jù)表明,目前并發(fā)數(shù)為8-16個節(jié)點時,AI在線服務在性能上基本與基于GPU的方案相仿,這不僅說明在UAI-Service AI在線服務上部署人臉表情識別應用可以帶來出色的成效,還證明基于英特爾?AVX支持的UAI-Service在人工智能應用中完全具備了與傳統(tǒng)方案相媲美的能力。
結論
以此前在UAI-Service上的成功協(xié)作為基礎,UCloud未來還計劃進一步深化與英特爾的創(chuàng)新協(xié)作,包括將最新的、面向英特爾處理器優(yōu)化的AI框架引入UAI-Service在線服務平臺,并將充分發(fā)掘新一代英特爾?至強?可擴展處理器的能力,特別是其集成的全新英特爾?AVX-512帶來的更為強悍的浮點運算能力,來進一步優(yōu)化AI在線服務,讓專注于AI創(chuàng)新和應用的企業(yè)用戶,能繼續(xù)在合理的成本條件下,獲取更強的AI計算能力支持。
經驗
AI在線服務的普及,不僅需要在技術上予以突破,其部署的便捷性、與現(xiàn)有云計算能力的結合程度以及在分布式集群上部署的可行性,也在深刻影響著企業(yè)用戶的AI研發(fā)和應用進程。正是因為準確捕捉到了用戶的痛點和具體需求,UCloud的UAI-Service才贏得了用戶的青睞。
受數(shù)據(jù)中心內普遍存在的處理器計算資源閑置現(xiàn)象的啟發(fā),創(chuàng)造性地將其空閑的浮點計算能力投入到AI在線服務中,這不僅是技術上的創(chuàng)新,也是AI處理工作模式上的全新探索和嘗試,它既能有效幫助企業(yè)用戶降低TCO,也順應了數(shù)據(jù)中心環(huán)保節(jié)能的發(fā)展趨勢。