企業(yè)正在充分利用機(jī)器學(xué)習(xí)運(yùn)營來獲取商業(yè)利益
?當(dāng)企業(yè)最初開始部署 AI 和啟動(dòng)機(jī)器學(xué)習(xí)項(xiàng)目時(shí),其重點(diǎn)往往是理論層面。是否存在某一可以提供必要結(jié)果的模型?如何構(gòu)建該模型?如何訓(xùn)練這一模型?
但數(shù)據(jù)科學(xué)家用來開發(fā)這些概念驗(yàn)證的工具通常不能很好地轉(zhuǎn)化為生產(chǎn)系統(tǒng)。因此,根據(jù)IDC公司的數(shù)據(jù),部署一個(gè) AI 或機(jī)器學(xué)習(xí)解決方案平均需要 9 個(gè)多月的時(shí)間。
IDC司分析師史利南·蘇布蘭馬尼安 (Sriram Subramanian) 說:“我們稱之為‘模型速度’,即一個(gè)模型從開始到結(jié)束所需的時(shí)間?!?/p>
這就是 MLOps 可發(fā)揮作用之處。MLOps(機(jī)器學(xué)習(xí)運(yùn)營)是一系列最佳實(shí)踐、框架和工具,可幫助企業(yè)管理數(shù)據(jù)、模型、部署、監(jiān)控工作以及采用某一理論概念驗(yàn)證 AI 系統(tǒng)并投入使用的其他方面工作。
“MLOps 可將模型速度縮短到幾周時(shí)間——有時(shí)是幾天,”蘇布蘭馬尼安說。 “就像使用開發(fā)運(yùn)營 (DevOps) 可縮短開發(fā)應(yīng)用程序的平均時(shí)間一樣,因此你需要使用 MLOps?!?/p>
他表示,通過使用 MLOps,企業(yè)可以構(gòu)建更多的模型、更快地進(jìn)行創(chuàng)新,并處理更多的用例?!捌鋬r(jià)值主張非常明確?!彼f。
IDC公司預(yù)測,到 2024 年,60% 的企業(yè)將使用 MLOps 來實(shí)現(xiàn)其機(jī)器學(xué)習(xí)工作流。蘇布蘭馬尼安表示,就企業(yè)在使用 AI 和機(jī)器學(xué)習(xí)技術(shù)時(shí)所面臨的難題,而對(duì)其進(jìn)行調(diào)查時(shí),缺乏 MLOps 已成為企業(yè)接納 AI 和機(jī)器學(xué)習(xí)技術(shù)的主要障礙,僅次于成本。
在此,我們將研究什么是 MLOPs,它是如何演變的,以及哪些組織機(jī)構(gòu)需要使用和牢記,以為實(shí)施 AI 技術(shù)而充分利用這一新興方法。
MLOps 的演變
幾年前,當(dāng)歐亨尼奧·祖卡雷利 (Eugenio Zuccarelli) 首次開始設(shè)計(jì)機(jī)器學(xué)習(xí)項(xiàng)目時(shí),MLOps 只是一系列最佳實(shí)踐。從那時(shí)起,祖卡雷利已在多家公司從事 AI 項(xiàng)目,包括醫(yī)療和金融服務(wù)領(lǐng)域的一些公司,隨著時(shí)間的推移,他經(jīng)歷了 MLOps 逐步發(fā)展,并包含了多種工具和平臺(tái)。
如今,MLOps 可為實(shí)現(xiàn)AI 技術(shù)提供一個(gè)相當(dāng)強(qiáng)大的框架,祖卡雷利表示,他現(xiàn)在擔(dān)任西維斯健康公司 (CVS Health) 的創(chuàng)新數(shù)據(jù)科學(xué)家。舉例來說,祖卡雷利提到了他之前從事的一個(gè)項(xiàng)目,該項(xiàng)目是為開發(fā)一款可預(yù)測不良后果(例如再次住院或疾病惡化)的應(yīng)用程序。
“我們當(dāng)時(shí)在研究數(shù)據(jù)集和模型,并與醫(yī)生交談以找出最佳模型的特征,”他說?!暗惯@些模型真正有用,我們需要將這些模型放到實(shí)際用戶面前?!?/p>
這意味著要開發(fā)一款可靠、快速和穩(wěn)定的移動(dòng)應(yīng)用程序,并在后端有一個(gè)通過 API 連接的機(jī)器學(xué)習(xí)系統(tǒng)。“如果沒有 MLOps,我們將無法保證做到這一點(diǎn)?!彼f。
他的團(tuán)隊(duì)使用 H2O MLOps 平臺(tái)和其他工具為該模型創(chuàng)建了一個(gè)健康儀表板?!澳悴幌M撃P桶l(fā)生重大變化,”他說?!岸夷悴幌胍肫?。該健康儀表板可讓我們了解系統(tǒng)是否發(fā)生了變化。”
使用 MLOps 平臺(tái)還可以讓我們對(duì)生產(chǎn)系統(tǒng)進(jìn)行更新?!霸诓煌V乖搼?yīng)用程序運(yùn)行的情況下替換某一文件是非常困難的,”祖卡雷利說?!凹词瓜到y(tǒng)正在生產(chǎn)過程中,MLOps 工具也可以對(duì)該系統(tǒng)進(jìn)行更換,而且對(duì)該系統(tǒng)本身的干擾極小?!?/p>
他表示,隨著 MLOps 平臺(tái)的成熟,這些平臺(tái)會(huì)加快整個(gè)模型開發(fā)的過程,因?yàn)槠髽I(yè)不必為每個(gè)項(xiàng)目都白費(fèi)力氣做一些重復(fù)性工作。數(shù)據(jù)管道管理功能對(duì)于實(shí)施 AI 也至關(guān)重要。
“如果我們有多個(gè)需要相互通信的數(shù)據(jù)源,那么 MLOps 就可以發(fā)揮作用,”他說。“你希望流入機(jī)器學(xué)習(xí)模型的所有數(shù)據(jù)都是一致且高質(zhì)量的。就像他們說的那樣,無用數(shù)據(jù)輸入,無用數(shù)據(jù)輸出。如果模型所獲取的信息質(zhì)量很差,那么其預(yù)測結(jié)果本身就會(huì)很差。”
MLOps 的基本原理:移動(dòng)目標(biāo)
但不要僅僅因?yàn)楝F(xiàn)在可使用一些平臺(tái)和工具,就認(rèn)為可以忽略 MLOps 的核心原則。剛開始涉足這一領(lǐng)域的企業(yè)應(yīng)該記住,MLOps 的核心是在數(shù)據(jù)科學(xué)和數(shù)據(jù)工程之間建立強(qiáng)有力的聯(lián)系。
“為了確保 MLOps 項(xiàng)目能夠成功,你需要在同一團(tuán)隊(duì)中同時(shí)配備數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家?!弊婵ɡ桌f。
此外,還要配備一些必要的工具以防止產(chǎn)生偏見、保證透明度、提供可解釋性和支持職業(yè)道德平臺(tái)——這些工具仍在開發(fā)中,他表示?!斑@肯定還需要大量的工作,因?yàn)檫@是一個(gè)很新的領(lǐng)域?!?/p>
因此,如果沒有一個(gè)完整的交鑰匙解決方案可供使用,則企業(yè)必須精通所有方面,才能在實(shí)施 AI 技術(shù)時(shí)使 MLOps 變得如此高效。這意味著在各項(xiàng)工作中學(xué)習(xí)專業(yè)知識(shí),位于美國坦佩的 Insight 技術(shù)咨詢公司的 AI 團(tuán)隊(duì)的國內(nèi)業(yè)務(wù)經(jīng)理梅根·金特里 (Meagan Gentry) 說。
MLOps 涵蓋了從數(shù)據(jù)收集、驗(yàn)證和分析到管理機(jī)器資源和跟蹤模型性能的所有方面??蔀槠髽I(yè)提供幫助的一些工具可以部署在本地、云端或邊緣。這些工具可以是開源的或私有的。
但掌握技術(shù)方面的知識(shí)只是解決問題的一部分。MLOps 還借鑒了開發(fā)運(yùn)營 (DevOps) 中的敏捷方法以及迭代開發(fā)原則,金特里說。此外,與敏捷開發(fā)相關(guān)的領(lǐng)域一樣,溝通是至關(guān)重要的。
“每個(gè)角色之間的溝通都至關(guān)重要,”她說?!皵?shù)據(jù)科學(xué)家和數(shù)據(jù)工程師之間的溝通。與開發(fā)運(yùn)營人員的溝通,以及與更大的 IT 團(tuán)隊(duì)之間的溝通?!?/p>
對(duì)于剛起步的公司而言,MLOps 可能會(huì)讓你感到困惑。可以看到一些一般性原則,有數(shù)十家供應(yīng)商,甚至有更多的開源工具箱。
“這就會(huì)存在一些陷阱,”凱捷美洲公司 (Capgemini Americas) 企業(yè)架構(gòu)高級(jí)經(jīng)理海倫?里斯托夫 (Helen Ristov) 說。“其中很多陷阱都在開發(fā)過程中。沒有一套正式的指南,就像你在開發(fā)運(yùn)營 (DevOps) 中看到的那樣。這是一項(xiàng)新興技術(shù),一些指南和策略需要一定時(shí)間才能發(fā)展出來?!?/p>
里斯托夫建議企業(yè)從他們的數(shù)據(jù)平臺(tái)開啟自己的 MLOps 行程。“也許他們擁有多個(gè)數(shù)據(jù)集,但這些數(shù)據(jù)集位于不同的地方,并且沒有一個(gè)很緊密相連的環(huán)境。”她說。
她表示,企業(yè)無需將所有數(shù)據(jù)轉(zhuǎn)移到一個(gè)平臺(tái)上,但確實(shí)需要一種方法將來自不同數(shù)據(jù)源的數(shù)據(jù)引入,這可能會(huì)因應(yīng)用情況不同而存在差異。例如,對(duì)于那些需要低成本存儲(chǔ)且頻繁進(jìn)行大量分析的公司,則非常適合使用數(shù)據(jù)湖。
她表示,MLOps 平臺(tái)通常會(huì)提供一些工具來構(gòu)建和管理數(shù)據(jù)管道,同時(shí)記錄不同版本的訓(xùn)練數(shù)據(jù),但這并不是一勞永逸的。
然后還提供模型創(chuàng)建、版本管理、日志記錄、衡量特征集,以及管理模型本身的其他方面。
“這涉及到大量的編碼工作,”里斯托夫說,并補(bǔ)充道,建立一個(gè) MLOps 平臺(tái)可能需要幾個(gè)月的時(shí)間,而且當(dāng)涉及到集成方面的工作時(shí),平臺(tái)供應(yīng)商仍有很多工作要做。
“在不同方向有很大的發(fā)展,”她說?!坝泻芏喙ぞ哒陂_發(fā)中,這一生態(tài)系統(tǒng)非常大,人們只是在選擇他們需要的東西。MLOps 正處于不成熟階段。大多數(shù)組織機(jī)構(gòu)仍在尋找最佳配置?!?/p>
了解 MLOps 的格局
IDC公司的蘇布蘭馬尼安表示,到 2025 年,MLOps 市場規(guī)模預(yù)計(jì)將從 2020 年的約 1.85 億美元增長到約 7 億美元。但他表示,這可能是一種嚴(yán)重的低估,因?yàn)?MLOps 產(chǎn)品通常與更大的平臺(tái)捆綁在一起。他表示,到 2025 年,這一市場的真實(shí)規(guī)模可能超過 20 億美元。
蘇布蘭馬尼安表示,MLOps 供應(yīng)商通常分為三類,首先是大型云提供商,包括 亞馬遜網(wǎng)絡(luò)服務(wù) (AWS)、Azure 云和谷歌云,這些云平臺(tái)將 MLOps 功能作為一項(xiàng)服務(wù)來提供。
然后是一些機(jī)器學(xué)習(xí)平臺(tái)供應(yīng)商,如 DataRobot、Dataiku、Iguazio 等。
“第三類是他們過去所說的數(shù)據(jù)管理供應(yīng)商,”他說?!叭?Cloudera、SAS 和 DataBricks 等公司。他們的優(yōu)勢在于數(shù)據(jù)管理能力和數(shù)據(jù)操作,然后他們擴(kuò)展到具備機(jī)器學(xué)習(xí)能力,并最終擴(kuò)展到具備 MLOps 能力?!?/p>
蘇布蘭馬尼安表示,這三個(gè)領(lǐng)域都在呈現(xiàn)爆炸式增長,并補(bǔ)充道,讓 MLOps 供應(yīng)商脫穎而出的關(guān)鍵在于他們是否能夠同時(shí)支持在本地和云端部署模型、他們是否能夠?qū)嵤┛尚刨嚭拓?fù)責(zé)任的 AI、他們是否能提供即插即用的方案,以及他們的方案是否可以輕松進(jìn)行擴(kuò)展?!斑@就是不同供應(yīng)商之間的差異所在。”他說。
根據(jù)IDC公司最近的一項(xiàng)調(diào)查,缺乏實(shí)施負(fù)責(zé)任 AI 的方法是使用 AI 和機(jī)器學(xué)習(xí)技術(shù)的三大障礙之一,與缺乏 MLOps 本身并列第二位。
Gartner咨詢公司AI 和機(jī)器學(xué)習(xí)技術(shù)研究分析師蘇米特?阿加瓦爾 (Sumit Agarwal) 表示,這在很大程度上是因?yàn)槌耸褂?MLOps 之外,沒有其他選擇。
“其他方法都是手動(dòng)方式,”他說?!八裕拇_沒有其他選擇。如果你想擴(kuò)大規(guī)模,你就需要自動(dòng)化。你需要自己的代碼、數(shù)據(jù)和模型具有可追溯性。”
根據(jù)Gartner咨詢公司最近的一項(xiàng)調(diào)查,一個(gè)模型從概念驗(yàn)證到投入使用所需的平均時(shí)間已從 9 個(gè)月降至 7.3 個(gè)月?!暗?7.3 個(gè)月仍是一個(gè)很長的周期,”阿加瓦爾說?!敖M織機(jī)構(gòu)有很多機(jī)會(huì)可以利用 MLOps?!?/p>
將組織文化轉(zhuǎn)向 MLOps
簡柏特公司 (Genpact) 全球分析業(yè)務(wù)負(fù)責(zé)人阿馬雷什?特里帕蒂 (Amaresh Tripathy) 表示,MLOps 還要求企業(yè)的 AI 團(tuán)隊(duì)進(jìn)行組織文化方面的轉(zhuǎn)變。
“數(shù)據(jù)科學(xué)家給人們的一個(gè)普遍形象是一個(gè)瘋狂的科學(xué)家,努力在做一個(gè)大海撈針的事情,”他說?!皵?shù)據(jù)科學(xué)家是一個(gè)發(fā)現(xiàn)者和探索者,而不是一個(gè)生產(chǎn)小部件的工廠車間。但這就是你真正要擴(kuò)大規(guī)模時(shí)所需要做的事情。”
他表示,企業(yè)往往會(huì)低估自己所需要付出的努力。
“人們對(duì)軟件工程有更好的認(rèn)識(shí),”他說。“關(guān)于用戶體驗(yàn)和要求有很多規(guī)則。但不知何故,人們并不認(rèn)為當(dāng)自己部署一個(gè)模型時(shí),必須經(jīng)歷同樣的過程。人們還有一種錯(cuò)誤的觀念是,所有擅長在測試環(huán)境中工作的數(shù)據(jù)科學(xué)家都會(huì)很自然地去部署并能夠部署某一模型,或者他們可以派幾個(gè) IT 同事就能夠完成這一工作。人們對(duì)自己所需要做的工作缺乏理解。”
企業(yè)還沒有認(rèn)識(shí)到,MLOps 可能會(huì)對(duì)公司的其他部門產(chǎn)生連鎖反應(yīng),而且通常會(huì)導(dǎo)致發(fā)生巨大的變化。
“你可以將 MLOps 部署在客服中心,但平均響應(yīng)時(shí)間實(shí)際上會(huì)增加,這是因?yàn)橐恍┖唵蔚墓ぷ饔蓹C(jī)器、AI 負(fù)責(zé)處理,而交給人工處理的工作實(shí)際上需要更長的時(shí)間,因?yàn)檫@些工作更為復(fù)雜。”他說。“因此,你需要重新考慮將要做的工作是什么,你需要什么樣的人,以及應(yīng)該具備什么樣的技能?!?/p>
他表示,如今,一個(gè)組織中只有不到 5% 的決策是由算法驅(qū)動(dòng)的,但這種情況正在迅速改變。“我們預(yù)計(jì),在未來五年內(nèi),將有 20% 到 25% 的決策由算法驅(qū)動(dòng)。我們研究的每一個(gè)統(tǒng)計(jì)數(shù)據(jù)都表明,我們正處于 AI 快速擴(kuò)張的拐點(diǎn)?!?/p>
他表示,MLOps 是一個(gè)關(guān)鍵要素。
“百分之一百,”他說?!叭绻麤]有 MLOps,你將無法持續(xù)地使用 AI。MLOps 是企業(yè)中擴(kuò)大使用 AI 的催化劑?!?/p>