解析UCloud人工智能與英特爾背后的技術(shù)故事「上」
“企業(yè)要構(gòu)建自己的AI在線服務(wù)系統(tǒng)并非易事,無論是IT基礎(chǔ)設(shè)施的建設(shè)還是AI 框架的部署,都需要耗費(fèi)大量人力、物力。如果在IT系統(tǒng)、AI框架上選擇失誤,則會(huì)前功盡棄,這給AI項(xiàng)目的發(fā)展和普及制造了很高的門檻。我們的目標(biāo)是幫助用戶像使用云主機(jī)、云存儲(chǔ)這些成熟的云產(chǎn)品一樣使用AI在線服務(wù)。通過充分利用英特爾?至強(qiáng)?處理器E5產(chǎn)品家族的高可擴(kuò)展性及英特爾?AVX,我們的UAI-Service正逐漸走近這一目標(biāo)。”
在人工智能(Artificial Intelligence,AI)如火如荼的今天,很多初創(chuàng)企業(yè)和傳統(tǒng)企業(yè)都選擇以AI為契機(jī)開拓市場(chǎng),但同時(shí)也面臨著缺乏高效部署AI能力的難題。為此,UCloud基于英特爾?至強(qiáng)?服務(wù)器平臺(tái),充分發(fā)掘和利用英特爾?高級(jí)矢量擴(kuò)展(英特爾?AVX)指令集相關(guān)處理單元的潛能,推出了UCloud AI 在線服務(wù)(UCloud AI online Service,UAI-Service*),其具備的大規(guī)模分布式計(jì)算平臺(tái)可以滿足企業(yè)在圖像識(shí)別、自然語言處理等多個(gè)AI領(lǐng)域的在線服務(wù)應(yīng)用需求。
面臨挑戰(zhàn)
企業(yè)的AI之路并非坦途大道:無論是初創(chuàng)企業(yè)踏上AI創(chuàng)新之旅,還是傳統(tǒng)企業(yè)希冀借助AI之力調(diào)轉(zhuǎn)航向,實(shí)現(xiàn)轉(zhuǎn)型或升級(jí),AI系統(tǒng)的設(shè)計(jì)、部署和運(yùn)維都需要巨大、多維度的投入且困難重重,在決策選型過程中稍有不慎,都會(huì)帶來巨大的沉沒成本,令許多企業(yè)望而生畏。
AI的高成本正侵蝕企業(yè)的總擁有成本(Total Cost of Ownership, TCO ):AI能力提升的背后,可能會(huì)給企業(yè)帶來巨大的成本開支,如何在性能和成本之間達(dá)到平衡?這一問題讓許多企業(yè)決策者感到苦惱。
解決方案
UCloud UAI-Service:面向初創(chuàng)企業(yè)、傳統(tǒng)企業(yè)AI轉(zhuǎn)型而生的UCloud UAI-Service,旨在提供易部署、易運(yùn)維、更安全以及多AI框架支持的AI在線服務(wù)節(jié)點(diǎn),可助力企業(yè)完成AI模型部署這一關(guān)鍵環(huán)節(jié),并在圖像識(shí)別、機(jī)器學(xué)習(xí)等多個(gè)AI領(lǐng)域滿足企業(yè)用戶的需求。
英特爾®至強(qiáng)®處理器E5產(chǎn)品家族及英特爾®AVX:通過與英特爾的緊密技術(shù)合作,UAI-Service一方面巧妙地利用云主機(jī)中英特爾®至強(qiáng)®處理器E5產(chǎn)品家族的空閑處理能力,將其英特爾®AVX能力用于支持和加速AI在線服務(wù);另一方面,利用該處理器產(chǎn)品家族強(qiáng)大的可擴(kuò)展性進(jìn)行彈性部署,用低成本獲得高性能,降低用戶的TCO。
成果
真正推動(dòng)AI技術(shù)的普及,助其持續(xù)發(fā)展:UCloud推出的UAI-Service將身處技術(shù)“深閨”中的AI技術(shù)和應(yīng)用進(jìn)一步平民化、實(shí)體化。通過PaaS的方式,讓更多有志于在AI領(lǐng)域開拓進(jìn)取的企業(yè)能夠獲取出色的AI部署能力,進(jìn)而讓整個(gè)AI產(chǎn)業(yè)實(shí)現(xiàn)“小步快跑”的前進(jìn)節(jié)奏。
更有效利用空閑計(jì)算資源、節(jié)約用戶成本支出:UAI-Service創(chuàng)新地利用英特爾?至強(qiáng)?處理器E5產(chǎn)品家族的空閑處理能力,是對(duì)空閑計(jì)算資源再利用的有效嘗試,其成功實(shí)踐令成千上萬的數(shù)據(jù)中心處理器的空閑能力得以充分利用。這既降低了企業(yè)用戶的TCO,也達(dá)到了環(huán)保節(jié)能的效果。
橫空出世的AlphaGo,讓AI成為近兩年來人們持續(xù)關(guān)注的熱點(diǎn)。而AI也正在走出象牙塔,走近普通企業(yè)和大眾,并開始在經(jīng)濟(jì)和民生層面扮演起越來越重要的角色。從機(jī)器學(xué)習(xí)、模式識(shí)別到自動(dòng)駕駛、機(jī)器視覺,不但眾多初創(chuàng)企業(yè)將AI研發(fā)作為揚(yáng)帆起航的契機(jī),許多傳統(tǒng)企業(yè)也將其作為自身轉(zhuǎn)型升級(jí)所必備的利器。
但AI系統(tǒng)的建設(shè)并非易事,企業(yè)AI系統(tǒng)的建設(shè)可分為“數(shù)據(jù)收集”、“模型訓(xùn)練”及“模型部署”三個(gè)步驟,每個(gè)步驟都會(huì)帶來復(fù)雜的IT系統(tǒng)建設(shè)及運(yùn)維工作。隨著各類大數(shù)據(jù)、云計(jì)算技術(shù)方案的日趨成熟,“數(shù)據(jù)收集”和“模型訓(xùn)練”的工作正逐漸轉(zhuǎn)移到云上,形成了成熟的云化方案,而AI模型部署的云化還存在許多問題:一方面,多種多樣的AI框架需要企業(yè)制訂和執(zhí)行不同的部署策略,難免因此產(chǎn)生高昂的運(yùn)營(yíng)成本;另一方面,主要用于模型訓(xùn)練的GPU平臺(tái)在模型部署中不僅部署成本較高,而且在擴(kuò)展性上的表現(xiàn)也不夠理想。
UCloud推動(dòng)的UAI-Service,就是針對(duì)上述AI模型部署難題而生的創(chuàng)新方案。UCloud的工程師們創(chuàng)造性地利用了虛擬云主機(jī)上英特爾?至強(qiáng)?處理器E5產(chǎn)品家族的空閑計(jì)算資源,借助英特爾?AVX的能力,來提供專注于AI模型部署的AI在線服務(wù)。英特爾?至強(qiáng)?處理器強(qiáng)大的可擴(kuò)展性也幫助UAI-Service獲得了快速便捷部署的能力,并顯著降低了企業(yè)運(yùn)行AI在線服務(wù)的成本支出。
讓使用AI服務(wù)像使用云主機(jī)一樣便捷
“簡(jiǎn)單來講,AI的三部曲可以分為大數(shù)據(jù)收集,AI模型訓(xùn)練和AI在線服務(wù)。”UCloud創(chuàng)新產(chǎn)品線總監(jiān)葉理燈這樣描述企業(yè)AI系統(tǒng)建設(shè),“此前,針對(duì)前兩步,UCloud都已經(jīng)為用戶提供了成熟的云主機(jī)、云存儲(chǔ)、云網(wǎng)絡(luò)等解決方案。”
但三部曲的最后樂章,卻還面臨諸多問題。一方面,企業(yè)用戶在基于AI進(jìn)行業(yè)務(wù)創(chuàng)新時(shí),常常面臨眾多的業(yè)務(wù)流程,如何將不同的業(yè)務(wù)流程與AI在線服務(wù)一一映射,這對(duì)AI在線服務(wù)的部署、可管理性及可擴(kuò)展性提出了巨大的挑戰(zhàn);另一方面,面對(duì)眾多的AI框架,企業(yè)運(yùn)維人員總有無從著手的煩惱,因?yàn)樗麄冃枰獮楦鱾€(gè)框架開發(fā)和配置不同的接口,工作量巨大。為解決AI系統(tǒng)建設(shè)這“最后一公里”的問題,UCloud提供了UAI-Service,它能基于大規(guī)模分布式計(jì)算平臺(tái)為用戶提供AI在線服務(wù)。
在實(shí)際任務(wù)部署中,UAI-Service為用戶提供了“兩步走”的部署模式。首先,向用戶提供SDK工具包,內(nèi)含接口代碼框架、代碼和數(shù)據(jù)打包模板以及第三方依賴庫描述模板。用戶只需根據(jù)SDK工具包內(nèi)的代碼框架編寫接口代碼,準(zhǔn)備好相關(guān)代碼和AI模型以及第三方庫列表,就可以通過打包工具一鍵完成任務(wù)的在線部署。
任務(wù)打包完畢后,用戶可以通過UAI-Service分布式的AI在線服務(wù)PaaS平臺(tái)進(jìn)行后續(xù)管理和維護(hù)。該平臺(tái)可以同時(shí)管理上千個(gè)計(jì)算節(jié)點(diǎn),每個(gè)計(jì)算節(jié)點(diǎn)都是同構(gòu)節(jié)點(diǎn),具有相等的計(jì)算能力,并擁有自動(dòng)請(qǐng)求負(fù)載均衡、自動(dòng)資源管理的功能。用戶只需要將業(yè)務(wù)部署在平臺(tái)上,就無須操心其后續(xù)的運(yùn)維。
“UAI-Service給用戶帶來的最大優(yōu)勢(shì),就是省去了部署AI在線服務(wù)時(shí)的大量繁瑣工作,讓用戶可以將寶貴的資源聚焦在自身的業(yè)務(wù)上。”在UCloud葉理燈看來,如果每一個(gè)企業(yè)用戶在部署自己的AI服務(wù)時(shí),都需要通盤考慮容災(zāi)、安全性、資源調(diào)度或者負(fù)載均衡,那么企業(yè)在人力資源和成本上的支出將是沉重不堪的。
UAI-Service將這些工作都內(nèi)化為SDK包和PaaS平臺(tái)服務(wù),用戶只需要像使用云主機(jī)或者云存儲(chǔ)服務(wù)那樣,輕松將所需的功能或服務(wù)配置在一起就可以使用,而且UAI-Service還可以自動(dòng)將分布式部署的四大要素——負(fù)載均衡、自動(dòng)擴(kuò)容、分布式容災(zāi)以及海量計(jì)算資源進(jìn)行有效配置。
在下一篇中,我們將繼續(xù)介紹UAI-Service平臺(tái)的另一優(yōu)勢(shì),以及UAI-Service如何借力英特爾技術(shù)以發(fā)揮其更強(qiáng)的AI能力等方面的技術(shù)解讀。