AWS宣布其ML平臺SageMaker的九項主要更新
譯文【51CTO.com快譯】
亞馬遜網絡服務(AWS)宣布了其基于云的機器學習平臺SageMaker的九個主要新更新。
SageMaker旨在提供一種機器學習服務,該服務可用于構建,訓練和部署幾乎所有用例的ML模型。
在今年的re:Invent會議上,AWS發布了幾條公告,以進一步提高SageMaker的功能。
AWS亞馬遜機器學習副總裁Swami Sivasubramanian說:
“成千上萬的日常開發人員和數據科學家已經使用我們行業領先的機器學習服務Amazon SageMaker消除了構建,訓練和部署自定義機器學習模型的障礙。擁有像SageMaker這樣的被廣泛采用的服務
的最好的部分之一就是,我們得到了大量的客戶建議,這些建議推動了我們下一批可交付成果的發展。
今天,我們宣布了一套適用于Amazon SageMaker的工具,使開發人員可以更輕松地構建端到端機器學習管道,以準備,構建,訓練,解釋,檢查,監視,調試和運行自定義機器學習模型具有更大
的可見性,可解釋性和大規模的自動化。”
第一個公告是Data Wrangler,該功能旨在自動為機器學習準備數據。
Data Wrangler使客戶可以從各種數據存儲中選擇所需的數據,然后單擊即可導入。包括300多個內置數據轉換器,可幫助客戶在無需編寫任何代碼的情況下對功能進行標準化,轉換和組合。
德勤AI生態系統和平臺負責人負責人Frank Farrall評論:
“ SageMaker Data Wrangler使我們能夠利用豐富的轉換工具來開創性地滿足我們的數據準備需求,這些轉換工具可加速將新產品推向市場所需的機器學習數據準備過程。
反過來,我們的客戶可以從我們擴展部署的速度中受益,這使我們能夠在幾天而不是幾個月的時間內提供可衡量的,可持續的結果,以滿足客戶的需求。”
第二個公告是Feature Store。Amazon SageMaker Feature Store提供了一個新的存儲庫,可輕松存儲,更新,檢索和共享機器學習功能以進行培訓和推理。
Feature Store旨在克服存儲映射到多個模型的要素的問題。專用功能庫可幫助開發人員訪問和共享功能,從而使開發人員和數據科學家團隊之間更容易命名,組織,查找和共享功能集。由于它位于
SageMaker Studio中-靠近運行ML模型的地方-AWS聲稱它提供了一位數毫秒的推理延遲。
Intuit數據平臺工程副總裁Mammad Zadeh說:
“在發布Amazon SageMaker Feature Store之前,我們與AWS緊密合作,我們對完全托管的功能存儲的前景感到興奮,因此我們不再需要在組織內維護多個功能存儲庫。
我們的數據科學家將能夠使用中央存儲中的現有功能,并推動團隊和模型之間功能的標準化和重復使用。”
接下來,我們有SageMaker Pipelines,它聲稱是針對機器學習的第一個專門構建的,易于使用的持續集成和持續交付(CI / CD)服務。
開發人員可以定義端到端機器學習工作流程的每個步驟,包括數據加載步驟,Amazon SageMaker Data Wrangler的轉換,Amazon SageMaker Feature Store中存儲的功能,培訓配置和算法設置,
調試步驟以及優化步驟。 。
考慮到正在進行的事件, SageMaker Clarify可能是AWS本周最重要的功能之一。
Clarify旨在在整個機器學習工作流程中提供偏差檢測,使開發人員能夠在其ML模型中建立更大的公平性和透明度。開發人員可以使用集成的解決方案快速嘗試并應對模型中的任何偏差,而不必使用
通常耗時的開源工具。
DFL集團數字創新執行副總裁Andreas Heyden說:
“ Amazon SageMaker Clarify無縫地與德甲Match Facts數字平臺的其余部分無縫集成,并且是我們在Amazon SageMaker上標準化機器學習工作流程的長期戰略的關鍵部分。
通過使用AWS的創新技術(例如機器學習)來提供更深入的見解,并為球迷提供對在球場上瞬間做出的決策的更好理解,德甲比賽實況使觀眾能夠深入了解關鍵決策。每場比賽。”
適用于Amazon SageMaker的Deep Profiling自動監視系統資源利用率,并在任何檢測到的培訓瓶頸需要的地方提供警報。該功能可跨框架(PyTorch,Apache MXNet和TensorFlow)使用,并自動收
集系統和培訓指標,而無需在培訓腳本中進行任何代碼更改。
下一步,我們對SageMaker進行了分布式培訓,AWS聲稱它使培訓大型,復雜的深度學習模型成為可能,其速度比當前方法快兩倍。
Turbine的首席技術官KristófSzalay評論:
“我們使用機器學習來訓練基于專有網絡架構的計算機模擬人體細胞模型,稱為模擬細胞。通過在分子水平上準確預測各種干預措施,Simulated Cell可以幫助我們發現新的癌癥藥物并找到現有療法的
組合伙伴。
模擬培訓是我們不斷重復的工作,但是在一臺機器上,每次培訓都需要幾天的時間,因此阻礙了我們快速迭代新思想的能力。
我們對Amazon SageMaker上的分布式培訓感到非常興奮,我們希望將其培訓時間減少90%,并幫助我們專注于我們的主要任務:編寫用于單元模型培訓的同類最佳代碼庫。
最終,Amazon SageMaker可以使我們在主要任務中變得更加有效:為患者識別和開發新的抗癌藥物。”
SageMaker的數據并行引擎通過自動在多個GPU之間分割數據,將培訓工作從單個GPU擴展到成百上千個,從而將培訓時間縮短了40%。
隨著邊緣計算的進步迅速增加,AWS與SageMaker Edge Manager保持同步。
Edge Manager幫助開發人員優化,保護,監視和維護部署在邊緣設備群上的ML模型。除了幫助優化ML模型和管理邊緣設備外,Edge Manager還提供了對模型進行加密簽名,將預測數據從設備上
載到SageMaker進行監視和分析的功能,以及查看可跟蹤并提供有關運行情況的可視化報告的儀表板的功能。 SageMaker控制臺中已部署的模型。
聯想個人電腦和智能設備云與軟件副總裁Igor Bergman評論:
“ SageMaker Edge Manager將幫助消除部署后優化,監控和持續改進模型所需的手動工作。有了它,我們預計我們的模型將比其他類似的機器學習平臺運行得更快,消耗的內存更少。
隨著我們將AI擴展到整個Lenovo服務產品組合的新應用程序中,我們將繼續需要高性能的管道,該管道在云和數百萬個邊緣設備上都具有靈活性和可擴展性。這就是為什么我們選擇Amazon
SageMaker平臺。憑借其豐富的邊緣到云和CI / CD工作流功能,我們可以有效地將機器學習模型帶入任何設備工作流,以提高生產率。”
最后,SageMaker JumpStart旨在使對機器學習部署經驗不足的開發人員更容易上手。
JumpStart為開發人員提供了易于使用的可搜索界面,以查找同類最佳的解決方案,算法和示例筆記本。開發人員可以從幾個端到端的機器學習模板(例如欺詐檢測,客戶流失預測或預測)中進行選
擇,并將其直接部署到他們的SageMaker Studio環境中。
AWS一直在進行SageMaker改進,在過去的一年中提供了50多種新功能。保險杠功能下降之后,我們可能不應該再期待2020年了。
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】