UCloud AI Train公測上線,打造智能一體化訓練平臺
近日,UCloud推出了UAI-Train 智能一體化訓練平臺,結合此前已推出的UAI-Service、GPU及安全屋等AI系列產(chǎn)品,UCloud現(xiàn)已初步形成一站式AI全服務。
UAI-Train靈活便捷的訓練任務托管服務,能夠幫助用戶擺脫資源采購運維煩惱,降低AI使用門檻;同時,平臺采用按需付費模式,降低AI成本投入,避免閑置資源浪費。
AI模型訓練的痛點
隨著人工智能產(chǎn)業(yè)的興起,人工智能技術已經(jīng)被廣泛運用于各行各業(yè)。近年來,人工智能技術在圖像(物體識別、人臉識別等)、自然語言(語音識別、翻譯、對話機器人)、智能醫(yī)療、智能推薦(廣告、新聞、視頻)等領域取得了飛速發(fā)展。與此同時,人工智能技術對計算資源的需求也快速增加,因而“云計算如何服務于人工智能產(chǎn)業(yè)的發(fā)展”已成為公有云服務的一個新方向。
通常來說,構建人工智能服務包括三個步驟:大數(shù)據(jù)收集與處理、AI模型訓練、AI模型在線服務,其中的每一個環(huán)節(jié)都需要投入大量計算資源。
對于大數(shù)據(jù)處理,可通過采購一定數(shù)量的云主機或物理機來搭建一個數(shù)據(jù)處理集群 ,也可通過采用UHadoop產(chǎn)品來搭建Hadoop或Spark集群來處理數(shù)據(jù);對于AI在線服務,可通過使用云主機搭建服務集群或直接使用UCloud UAI Service服務,來快速部署AI在線推理服務。
然而對于AI模型訓練,用戶通常需要高性能的GPU資源來滿足AI模型訓練過程中所產(chǎn)生的龐大的浮點計算需求,以及處理隨之而來的諸多挑戰(zhàn)。
◆ 成本投入高
GPU硬件或GPU云主機的采購成本非常高。一塊P40 GPU的采購價格超過5萬,即使是租用P40云主機,其成本也在4500元/月以上,因此使用GPU硬件一次性投入的成本非常高。
◆ 資源閑置
自行采購GPU還會面臨空閑資源閑置等問題。在AI算法研發(fā)、迭代過程中,算法設計、數(shù)據(jù)處理都需要花費大量的時間,但此時GPU設備卻通常因為無法被充分利用而造成閑置,進一步增加GPU的使用成本。
◆ 采購周期長
GPU采購和備貨周期比普通CPU服務器更長。即使使用公有云服務也無法像使用CPU云主機一樣,隨時隨地購買使用GPU云主機。
◆ 運維成本高
訓練環(huán)境配置、GPU資源調度、數(shù)據(jù)存儲、訓練任務容災等問題會隨著業(yè)務量的增加而增加,從而不斷提高GPU訓練集群維護的運維成本。
諸多問題表明,對于從事AI業(yè)務的公司來說,所面臨的挑戰(zhàn)非常嚴峻。研發(fā)人員可能手握很好的AI算法模型和解決方案,卻往往因為AI技術的高門檻要求而導致研發(fā)成本增加、研發(fā)周期變長。
為了幫助客戶解決AI模型訓練過程面臨的四個關鍵問題,UCloud AI Train平臺基于UCloud性能強大的GPU云主機集群構建,為AI訓練任務提供充足的計算能力。同時,提供一站式訓練任務托管服務,包括自動實現(xiàn)計算節(jié)點調度、訓練環(huán)境準備、數(shù)據(jù)上傳下載以及任務容災等功能,能夠幫助用戶從繁雜的GPU資源采購、管理、運維工作中解放出來。另外,UAI-Train平臺按照實際計算消耗付費,不但可以降低GPU的成本投入,而且可以避免閑置資源浪費。
智能一體化訓練平臺的三大核心優(yōu)勢
◆ 一站式任務托管,實時訓練狀態(tài)追蹤
UAI-Train平臺提供一站式訓練任務托管服務,用戶只需要提供打包好的訓練鏡像、數(shù)據(jù)源路徑、數(shù)據(jù)輸出路徑以及訓練所需的參數(shù)就可以提交訓練任務并等待任務結束。UAI-Train平臺將自動進行GPU資源調度、數(shù)據(jù)下載上傳和計算節(jié)點容災。
同時UAI-Train平臺提供了圖形化的實時日志輸出,以及TensorBoard的實時展示(Tensorflow和Keras可用),用戶可以通過瀏覽器實時追蹤訓練的狀態(tài)。
◆ 基于Docker容器技術,強大的AI兼容性
UAI Train基于Docker容器技術提供兼容性極強的訓練環(huán)境。用戶只需將AI模型訓練算法打包至Docker鏡像中,即可以將訓練任務提交至訓練平臺,訓練平臺將會負責:
>>>> 訓練數(shù)據(jù)下載;
>>>> 訓練任務執(zhí)行;
>>>> 訓練結果輸出并保存。
完全無需用戶介入,整個過程如下圖所示:
為簡化UAI-Train平臺的使用過程,UCloud提供了Python SDK和基礎Docker鏡像,以此來協(xié)助用戶封裝Docker鏡像。目前,UAI-Train平臺支持4種主流AI框架,包括鏡像一鍵打包和測試工具以及基礎鏡像(后續(xù)還將計劃增加對PyTorch、CNTK等開源框架的支持)。
同時,UAI Train平臺也支持自定義Docker訓練鏡像,并提供了預裝cuda和cudnn的基礎鏡像。
◆ 靈活配置選擇,超高性價比
UAI-Train平臺目前支持3種GPU節(jié)點,按需使用收費,計費精確到分鐘,具有極高的性價比。
UAI-Train平臺還計劃逐步推出種類更豐富的硬件加速計算設備,包括更新的GPU設備、Xeon Phi設備等,另外還將推出分布式訓練集群支持。
四大核心應用場景,助力企業(yè)AI業(yè)務發(fā)展
◆ 應用場景一:快速AI轉型
AI模型訓練任務執(zhí)行環(huán)境配置復雜(GPU驅動、AI框架環(huán)境安裝等)、GPU資源采購周期長、成本高、運維工作繁雜等,這都成為企業(yè)快速轉型AI業(yè)務的絆腳石。使用UAI-Train訓練服務可以無需擔心資源采購、環(huán)境配置、集群維護等問題,快速開展AI模型訓練工作。
◆ 應用場景二:降低AI成本
AI訓練任務執(zhí)行需要花費大量計算資源。GPU硬件采購成本高,閑置資源浪費開銷大。使用UAI Train訓練服務不僅可以獲得充足的GPU硬件資源,同時又可以按照實際計算消耗付費,使用較小的投入獲取充足的計算資源,具有極高的性價比,可以有效減低AI成本。
◆ 應用場景三:簡化AI運維
大規(guī)模執(zhí)行AI模型訓練任務需要處理計算資源調度、 任務管理、任務容災等問題。 UAI-Train訓練平臺自動幫助使用者解決計算節(jié)點調度、任務管理、容災等問題,更為使用者提供了圖形化界面展示訓練任務狀態(tài)。
◆ 應用場景四:共享GPU資源
使用GPU云主機、物理機很難在團隊之間、部門之間以及各類使用者之間共享GPU資源。UAI-Train訓練平臺則可以同時滿足成千上百個使用者共享整個GPU資源池, 同時又提供了資源隔離、配額管理功能,可以滿足GPU資源共享場景的需求。
在9月份由創(chuàng)新工場聯(lián)合搜狗、今日頭條發(fā)起的“AI Challenger全球AI挑戰(zhàn)賽”中,UCloud 便作為***的AI GPU合作方,為大賽獨家提供了AI模型訓練服務(UCloud AI Train)。此次合作也驗證UCloud在AI領域強大的研發(fā)實力、快速響應服務以及自身平臺穩(wěn)定性,為大賽的成功舉辦保駕護航。
作為國內領先的云計算服務商,UCloud將繼續(xù)深入研究AI訓練平臺的功能與性能,致力為用戶提供更豐富的AI框架和分布式訓練支持。同時,UCloud還將結合UAI-Service 在線服務平臺,打造從AI訓練到AI在線服務的一體化解決方案,全方位提升面向AI產(chǎn)業(yè)的服務能力。