當前,人工智能在企業規?;瘧弥?,存在諸多難點,比如:研發上線周期長,效果不及預期,數據和模型難匹配等。在此背景下,MLOps應運而生。MLOps作為幫助在企業中擴展機器學習的一項關鍵技術正在崛起。
日前,由51CTO組織的?AISummit 全球人工智能技術大會?成功舉辦。在會議開設的“MLOps最佳實踐”專場,開放原子基金會 TOC副主席譚中意、第四范式系統架構師盧冕、網易云音樂人工智能研究員吳官林、中國工商銀行軟件開發中心大數據和人工智能實驗室副主任黃炳帶來了各自的主題演講,圍繞研發運維周期、持續訓練和持續監控、模型版本和血緣、數據線上線下一致性、高效數據供給等熱點方向,探討了MLOps的實戰效果和前沿趨勢。
MLOps的定義和評估
Andrew NG曾在多個場合表達過AI已經從model centric 轉到 data centric,數據是AI落地最大的挑戰。如何保證數據的高質量供給是關鍵問題,而要解決好這個問題,需要利用MLOps的實踐來幫助AI多快好省的落地。
那么,MLOps解決哪些問題?如何評估MLOps項目的成熟度?開放原子基金會 TOC副主席、LF AI & Data TAC成員譚中意帶來了主題演講《從model centric 到 data centric — MLOps幫助AI多快好省的落地》,對此進行了詳細的介紹。
譚中意首先分享了一批業內科學家和分析師的觀點。Andrew NG認為,提高數據質量比提高模型算法,更能提升AI落地效果,在他看來,MLOps最重要的任務就是在機器學習生命周期的各個階段,始終保持高質量的數據供給。
要實現AI的規?;涞兀仨毎l展MLOps。至于到底什么是MLOps,業內莫衷一是,他給出了自己的解釋:它是“代碼+模型+數據的持續集成、持續部署、持續訓練和持續監控”。
接著,譚中意重點介紹了機器學習領域特有的平臺Feature Store(特征平臺)的特性,以及目前市面上主流的特征平臺產品。
最后譚中意就MLOps的成熟度模型進行了簡要闡述。他提到,微軟Azure按照機器學習全流程的自動化程度的高低,把MLOps的成熟模型分成了(0、1、2、3、4)這幾個等級,其中0是沒有自動化的,123是部分自動化,4是高度自動化。
線上線下一致的生產級特征平臺
在很多機器學習場景中,面臨著實時特征計算的需求。從數據科學家離線開發的特征腳本,到線上實時特征計算,AI 落地的成本非常高。
針對這一痛點,第四范式系統架構師、數據庫團隊和高性能計算團隊負責人盧冕在主題演講《開源機器學習數據庫 OpenMLDB:線上線下一致的生產級特征平臺》中重點展示了 OpenMLDB如何實現機器學習特征開發即上線的目標,以及如何保證特征計算的正確性、高效性。
盧冕指出,隨著人工智能工程化落地的推進,在特征工程環節,線上線上的一致性校驗帶來了高昂的落地成本。而OpenMLDB恰恰提供了低成本的開源解決方案,它不僅解決了核心問題-機器學習線上線下的一致性,解決了正確性的問題,而且實現了毫秒級的實時的特征計算。這是其核心價值所在。
據盧冕介紹,印尼線上支付公司Akulaku是OpenMLDB開源以后的第一個社區企業用戶,他們把OpenMLDB整合在其智能計算架構中。在實際業務中,Akulaku平均一天要處理將近10億條訂單數據,使用OpenMLDB后,其處理數據的延遲僅僅在4毫秒,充分滿足了他們的業務需求。
構建端到端機器學習平臺
依托網易云音樂海量數據、精準算法、實時系統的基礎,服務于內容分發和商業化多場景,同時滿足既要建模效率高,也要使用門檻低,還要模型效果顯著等一系列算法工程追求,為此網易云音樂算法工程團隊結合音樂業務開始了端到端機器學習平臺的實踐落地。
網易云音樂人工智能研究員、技術總監吳官林帶來了主題演講《網易云音樂特征平臺技術實踐》,從云音樂業務背景出發,闡釋模型實時化落地方案,結合Feature Store進一步和與會者分享了其思考。
吳官林提到,在云音樂模型算法工程的建設中,主要面臨實時化程度低、建模效率低、線上線下不一致導致模型能力受限三大痛點。針對這些痛點,他們從模型實時化開始,在模型實時化覆蓋業務的過程中去構建相應的Feature Store平臺。
吳官林介紹,他們首先進行了模型實時化在直播場景上的探索并取得了一定成效。在工程上,也探索出一個完整的鏈路,并落地了一些基礎工程建設。但模型實時化聚焦在精排實時場景,但80%以上場景是離線模型。在全鏈路建模過程中,每個場景開發者都從原點做數據開始,導致了建模周期長,效果還不可預期,新手開發門檻高等問題??紤]到一個模型上線周期,80%時間在做數據相關,其中特征占比高達50%。他們開始著手沉淀特征平臺Feature Store。
Feature Store主要解決了三方面的問題:一是定義元數據,統一特征血緣、計算、推送過程,實現基于批流一體的高效特征生產鏈路;二是針對特征的特性進行改造,解決特征存儲問題,根據實際使用場景對延遲和吞吐量的不同,提供各種類型的存儲引擎;三是解決特征一致性的問題,從統一的API讀取指定格式的數據,作為機器學習模型的輸入,用于推理、訓練等。
金融智能化發展的新基建
中國工商銀行軟件開發中心大數據和人工智能實驗室副主任黃炳在其主題演講《筑牢金融智能化創新發展的人工智能新基建》重點介紹了工商銀行的MLOps實踐,涵蓋模型研發、模型交付、模型管理、模型迭代運營的全生命周期管理體系的建設流程及技術實踐。
之所以需要MLOps,是因為人工智能如火如荼的發展背后,很多已經發生或潛在的“AI技術債”不容忽視。黃炳認為,MLOps的理念是可以解決這些技術債的,“如果說DevOps是解決軟件系統技術債問題的利器,DataOps是打開數據資產技術債問題的鑰匙,那么脫胎于DevOps理念的MLOps就是治療機器學習技術債問題的良藥”。
在建設過程中,工商銀行的MLOps實踐經驗可以總結為四點:夯實公共能力之“基”,建設企業級數據中臺,實現數據沉淀共享;降低應用門檻之“器”,建設相關的建模和服務組裝流水線,形成流程化、積木組裝化的研發模式;建立AI資產沉淀共享之“法”,最大限度降低AI建設的成本,形成共享共建生態的關鍵所在;形成模型運營迭代之“術”,根據數據驅動、按照業務價值驅動,建立模型運營體系,是模型質量持續迭代和量化評價的基礎。
演講尾聲,黃炳做了兩點展望:第一,MLOps需要更安全、更合規。未來企業發展需要非常多的模型來實現數據驅動的智能決策,因此會衍生出更多與模型相關的開發、運維、權限管控、數據隱私、安全性和審計等企業級需求;第二,MLOps需要與其他Ops結合。解決技術債問題是一個復雜的過程,DevOps方案、DataOps方案和MLOps方案必須協調聯動,互相賦能,才能充分發揮三者的全部優勢,實現“1+1+1>3”的效果。
寫在最后
據IDC預測,到2024年將有60%的企業使用MLOps來實施機器學習工作流。IDC分析師Sriram Subramanian曾如此評價:“MLOps將模型速度縮短到幾周——有時甚至是幾天,就像使用DevOps加快應用構建的平均時間一樣,這就是為什么你需要MLOps?!?/span>
當前,我們正處在人工智能快速擴展的拐點上。企業通過采用MLOps可以構建更多模型、更快地實現業務創新,更加多快好省地推進AI的落地。千行百業正在見證和驗證著這樣一個事實:MLOps正在成為企業AI規模化的催化劑。更多精彩內容請?點擊查看?。