AWS云上輸出機器學習的黃金工具:Amazon SageMaker正式落地中國
本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。
我們正在開啟機器學習的黃金時代。”
AWS首席云計算企業戰略顧問張俠博士表示,以前阻礙機器學習在現實世界應用的許多限制開始消失。全球各地的公司,從初創公司到大型企業,部署機器學習應用程序幾乎是普遍的重中之重。
幾乎每一個行業和細分市場,都開始將機器學習應用于其工作負載,從數據中獲得更多價值,獲得洞察,提升業務。機器學習的黃金時代也是AWS的黃金時代。
機器學習黃金時代的AWS
“目前有數萬家全球各種各樣的企業選擇AWS來運行機器學習的負載,據我們所知,采用AWS機器學習的客戶數量高于任何其他廠商至少兩倍。”AWS首席云計算企業戰略顧問張俠表示。
人工智能大概率成為確定性事件,越來越多的企業內部開始運行深度學習、機器學習等負載,亞馬遜是最早的一批企業,自電商時代起始,亞馬遜的商品推薦、搜索、物流配送等業務都融入了機器學習,誕生出送貨機器人、Amazon Echo、Amazon GO等產品和業務。
相對來說,機器學習對企業仍然是一項非常復雜的工作,大多數企業并不具備獨立開發機器學習模型的能力,AWS等廠商則扮演“云梯”的角色。
比如開發者和數據科學家首先必須對數據進行可視化、轉換和預處理,這些數據才能變成算法可以使用的格式,用以訓練模型;從選擇和優化算法,到調節影響模型準確性的數百萬個參數,訓練模型的所有階段都需要大量的人力和猜測;在應用程序中部署訓練好的模型時,客戶又需要另一套應用設計和分布式系統方面的專業技能。
此外,隨著數據集和變量數的增加,模型會過時,客戶又必須一次又一次地重新訓練模型,讓模型從新的信息中學習和進化。所有這些工作都需要大量的專業知識,并耗費龐大的算力、數據存儲和時間成本。而且,由于沒有集成化的工具用于整個機器學習的工作流,機器學習模型的傳統開發方式是復雜、繁復和昂貴的。
AWS提供的機器學習解決方案是一個包括三層的服務堆棧。
底層是機器學習框架和基礎架構,AWS支持TensorFlow、PyTorch、Apache MXNet、Chainer、Gluon、Horovod 和 Keras等機器學習框架。在基礎架構方面,AWS虛機提供各種各樣的實例,同時提供現成的亞馬遜機器鏡像AMI(Amazon Machine Image)。
張俠表示,“我們的策略是全方位的支持各種各樣的開源框架,因為不同的框架有不同的特點、不同的使用場景,所以我們并不局限于某一個框架,而是全方位支持。”
AWS機器學習解決方案上層是訓練好的人工智能服務,這些服務主要解決與人類認知相關的典型問題。例如,計算機視覺方面的服務,可以識別圖像或視頻中的對象、人員、文本、場景、活動和不安全或不適宜的內容。個性化推薦服務可以從庫存中向消費者推薦多種產品和服務。客戶可以直接在其應用中調用AWS提供的這些人工智能服務,而無需關注服務背后的機器學習模型。
中間層是機器學習服務,主要目標是消除機器學習過程中的繁重工作,讓開發高質量模型變得更加輕松。依靠的是Amazon SageMaker托管服務,也是本次AWS強調的重點。
Amazon SageMaker落地中國
張俠介紹,制約人工智能廣泛應用的因素有三個方面,導致缺乏低成本、易使用、可擴展的人工智能產品和服務,分別是:
-
掌握人工智能專業知識的人才不足;
-
構建和擴展人工智能的技術產品有難度;
-
在生產經營中部署人工智能應用費時且成本高。
Amazon SageMaker就是為了消除機器學習各步驟的繁重工作而來。5月12日,AWS宣布Amazon SageMaker在由西云數據運營的AWS中國 (寧夏) 區域和光環新網運營的AWS中國(北京)區域正式上線。
通過預置的Notebook、針對PB級數據集優化的常用算法,以及自動模型調優,Amazon SageMaker降低了模型構建和訓練的難度。并且,Amazon SageMaker簡化和加快了模型訓練過程,可以通過自動提供和管理基礎設施來訓練模型和運行推理。
同時,AWS 最近宣布了多項重要功能和高級特性,讓客戶能夠更輕松地構建、訓練、調優和部署機器學習模型。這些功能包括:
-
面向機器學習的集成開發環境(IDE):Amazon SageMaker Studio將所有用于機器學習的組件集中,開發者可以在Amazon SageMaker Studio中查看和組織源代碼、依賴項、文檔和其它應用程序資產,Amazon SageMaker Studio使構建、訓練、解釋、檢查、監視、調試和運行機器學習模型變得更簡單、更快。
-
彈性筆記本:Amazon SageMaker Notebooks提供了一鍵啟用的Jupyter Notebook,具有秒級的彈性計算提升能力,讓開發者可以輕松地調高或降低Notebook需要的算力(包括GPU加速),這些調整在后臺自動發生,不會打斷開發者的工作。Amazon SageMaker Notebook還可以自動復制特定環境和庫依賴項,實現Notebook一鍵共享。
-
實驗管理:Amazon SageMaker Experiments可以幫助開發者組織和跟蹤機器學習模型的迭代。Amazon SageMaker Experiments自動捕獲輸入參數、配置和結果,并將它們存儲為“實驗”,幫助開發者管理這些迭代。Amazon SageMaker Experiments使開發者更容易快速迭代和開發高質量的模型。
-
調試與分析:Amazon SageMaker Debugger用于調試和分析模型訓練,提高準確性,減少訓練時間,讓開發者更好地理解模型。使用Amazon SageMaker Debugger,在Amazon SageMaker中訓練的模型將自動發出收集到的關鍵指標,Amazon SageMaker Debugger也可幫助開發者解讀模型是如何工作的,向神經網絡的可解釋性邁出了第一步。
-
自動構建模型:Amazon SageMaker Autopilot是業內首個可以讓開發者對其模型保持控制和可見性的自動化機器學習功能。Amazon SageMaker Autopilot會自動檢查原始數據,應用特征處理器,挑選最佳算法集,訓練多個模型,對它們進行調優,跟蹤其性能,然后根據性能對模型進行排名,開發者能夠針對應用場景選擇最佳模型,并且可以結合不同的優化因子考慮多個候選模型。
-
概念漂移檢測:Amazon SageMaker Model Monitor允許開發者檢測和糾正概念漂移(concept drift)。開發者可以使用Amazon SageMaker Model Monitor的開箱即用功能檢測漂移,也可以為Amazon SageMaker Model Monitor編寫自己的規則用于監測。Amazon SageMaker Model Monitor讓開發者更容易調整訓練數據或算法以解決概念漂移問題。
IDC報告指出,中國人工智能市場已成為全球第二大人工智能單一市場,并且市場規模還在保持高速增長。當前40%的企業數字化轉型項目都會運用人工智能,人工智能將成為各業務部門不可或缺的一部分,推動大規模創新并實現巨大的商業價值。