訓練速度提升12倍 UAI-Train幫你解除計算資源運維困擾
人工智能(AI)已經成為新一輪產業變革的關鍵領域。麥肯錫今年6月發布的報告指出,以機器學習為主要實現方式的人工智能,有望在15-20年內成為世界所有主要經濟體中主要產業的基礎支撐方式,為人類帶來14萬億的直接經濟效益。
計算資源的運維困擾
UCloud的這位用戶是人工智能領域的一家數據分析公司,研發總部位于北京,主要服務對象為東歐等亞歐板塊國家,通過算法模型,可快速將不同場景或大量數據整合、分析,并輸出可視化的分析圖,從而幫助客戶找到所需答案。
該公司所有的數據源都來自最終客戶,但為了驗證模型的準確性和通用性,依舊需要使用自己收集的公共數據來訓練一個通用的模型。而對于一家幾乎都是由數據科學家組成的公司來說,管理和維護所需要的計算資源是一個巨大的問題。
UAI-Train的充足計算能力
最近,UCloud發布了UAI-Train在線訓練產品,解決包括代碼管理、運行環境維護、GPU管理維護、數據管理等模型訓練過程中的每個環節,提供一站式PaaS解決方案。
(圖:UAI-Train 產品架構圖)
UAI-Train是面向AI訓練任務的大規模分布式計算平臺,基于UCloud性能強大的GPU云主機集群構建,為AI訓練任務提供充足的計算能力。該平臺提供一站式訓練任務托管服務,自動實現計算節點調度、訓練環境準備、數據上傳下載以及任務容災。
AI訓練服務按照實際計算消耗付費,普遍適用于常見的AI模型訓練場景,如圖像識別、自然語言處理、語音識別等。
使用后的意外收獲
該公司近期在UCloud平臺上運行的是地點分類的訓練任務,共計12個城市,總訓練圖片量在十萬張左右,測試圖片在2000張,總計30G的圖片數據集,用inceptionv3網絡進行訓練。
(UAI-Train模型訓練場景:通過照片識別所在城市)
本次訓練***epoch是50,在15個epochs左右發生了early stop。UAI-Train使用了4張Nvidia P40 GPU資源,總計訓練耗時在5小時10分鐘;對比原來使用6臺CPU資源,訓練速度大概是之前的12倍。
UCloud打造全新計算資源租賃模式
UCloud的AI訓練服務是一種全新的計算資源租賃模式,用戶無須購買或租賃昂貴的虛擬GPU服務器,只需要提供Docker鏡像和訓練數據,UAI-Train能夠自動為其訓練任務創建運行環境(Docker容器),并調用GPU計算資源為用戶提供高性能計算服務。
用戶能夠以低廉的價格,按需使用GPU計算資源,甚至無需擔心因訓練超時或忘記關停而浪費租金。在訓練的同時,UAI-Train可以通過TensorBoard或控制臺日志的方式監控訓練過程。事實上,以Docker容器方式部署的UAI-Train服務可以使用任何用戶熟悉的編程語言和框架進行建模。