想成為機器學習信息工廠,企業需要從精益制造學到這六個精髓
譯文【51CTO.com快譯】根據調研機構Forrester Research公司最近發布的一份調查報告,機器學習(ML)對于企業的業務獲得成功至關重要。98%的IT領導者認為,機器學習運維(MLOps)將為自己的公司帶來決定性的競爭優勢。但是,只有6%的公司認為其機器學習運維(MLOps)功能已經很成熟,并且可以從中受益。
機器學習(ML)和機器學習運維(MLOps)到底是什么?
為了找到答案,先從術語的定義開始。機器學習(ML)是一種可以在不需要人工干預的情況下從數據中學習的人工智能。致力獲得成功的企業正在使用機器學習(ML)來優化其業務的各個方面:提高員工生產率、提高客戶滿意度,以及增加收入。
雖然數據量在過去幾年中幾乎呈指數級增長,但使用機器學習(ML)組織和分析數據的能力卻明顯滯后。這成為了一個挑戰。而面臨的一個更大的挑戰是將機器學習(ML)模型運用到生產環境中,使應用程序變得更加智能。Forrester公司在調查中發現,只有14%的受訪者將機器學習(ML)模型運用到可重復且可靠的生產環境過程中。
許多企業正在采取的一種方法是采用機器學習運維(MLOps)。機器學習運維(MLOps)是數據科學家和運營團隊在機器學習生命周期中進行協作和通信的實踐。在許多方面,機器學習運維(MLOps)正在努力獲得與DevOps在敏捷軟件開發中實現的機器學習生產率、效率和質量優勢。
只采用機器學習運維(MLOps)并不能解決企業嘗試實施機器學習(ML)所面臨的問題。而這是第一步,也是重要的一步,但還需要更多工作。成功采用機器學習(ML)能力的企業已經通過關鍵流程、工具和持續改進實踐來加強機器學習運維(MLOps)。其中一些實踐聽起來很熟悉,因為它們直接來自工業制造行業中的經驗和教訓。
精益制造的6個精髓
50多年來,全球制造企業一直采用六西格碼和精益制造技術來解決質量問題。如今,很多企業正在使用其中一些技術來從其數據中創造價值,并在本質上正在成為信息化工廠。
(1)自動化(Jidoka)
自動化在現代生產工程中起到至關重要的作用——提高產品質量、生產率和吞吐量。Jidoka這一日語術語描述的是具有人類智能的自動化,使機器設備和操作人員能夠在發現問題時停止工作,然后立即解決問題,而不必等到生產線停止運行或生產結束。
自動化(Jidoka)的概念可以為分析生產線做同樣的事情。具有自動化(Jidoka)功能的自助服務可以為機器學習(ML)流程中涉及的每個角色提供基礎設施、工具和數據需求。這種類型的自動化可以提高效率并確保符合標準。其結果是,不再浪費時間等待訪問合適的環境或嘗試配置從互聯網下載的新工具。機器學習過程的每個階段都可以自動調度,從而使整個系統可預測且高效。
(2)工具(Tooling)
工具在現代生產設備中起著基礎性的作用。明智地使用工具可以幫助實現規模化。它可以減少所需的員工技能,同時提高質量,縮短實現價值的時間,提高生產率和速度。
如今的信息工廠需要一系列工具來適應每個角色,并滿足生產的每個階段的需求。隨著新的、更具挑戰性的業務問題得到解決,將需要新的工具。這就引出了信息化工廠的下一個基本要素:研發實驗室。
(3)研發實驗室(Research and development lab)
直到現在,大多數機器學習(ML)工具幾乎都只專注于模型開發,但這種情況正在發生變化。新的機器學習(ML)工具解決了操作流程和模型生命周期管理。這些新工具可以提高機器學習(ML)模型的效率,并支持下游操作、標準規范和模型治理。
使用研發實驗室,數據科學家可以在安全和可管理的環境中評估新工具,記錄最佳實踐并評估潛在收益。一旦被更廣泛團隊使用,新工具就可以集成在應用程序目錄中,該目錄可在自助服務提供過程中使用。
(4)改善(Kaizen)
Kaizen這一日語術語的意思是為了更好或不斷改進而進行的更改。它更像是一種哲學而不是一種工作實踐,它可以確保更高質量,消除浪費,提高效率。
隨著越來越多的企業開始擴展其數據科學能力,將會出現新的需求。這些可能包括更多標準化或自動化流程的機會。
信息化工廠和相關團隊(包括DataOps、數據科學、MLOps、DevOps、運營和商業智能)中工作的集成性使其適合改善(Kaizen)實踐。每個人對面臨挑戰都有不同的看法,因此,應該鼓勵他們不斷評估如何改進信息化工廠的流程。
(5)供應鏈(Supply chain)
多年來,制造商通過使用準時制(JIT)方法進行零件交付來優化他們的供應鏈。準時制(JIT)將庫存保持在最低水平,并消除了將零件移入和移出庫存的時間和精力。
信息化工廠需要以相同的方式處理數據。盡管大多數企業在多個數據倉庫、操作性數據存儲和數據池中都有大量的數據,但是發現和訪問有用的數據通常是第一個挑戰。在許多情況下,數據科學家需要數據工程師幫助復制大型數據集,因為需要讀寫訪問來轉換數據,并使其適合于機器學習(ML)模型的構建。這種延遲與理想的準時制(JIT)相比還相差甚遠。
在機器學習(ML)競賽中獲勝的企業將關注數據供應鏈,提供全面的數據目錄和業務術語表。他們還定期評估和報告數據質量。大多數還使用只讀快照,而不是復制數據。現在,許多人開始探索特定的機器學習(ML)特征存儲,通過標準化數據的準備方式極大地加快了模型開發。
(6)防錯(Poka-yoke)
最后一個是Poka-yoke,這一日語術語的意思是防錯。手機中的SIM卡就是一個很好的例子,制造商將SIM卡去掉一個小角,以防止錯誤插入。
防錯(Poka-yoke)有助于防止缺陷的發生。這種類型的防錯是以上描述的持續改進過程的一部分(Kaizen)。雖然防錯措施的想法有些瑣碎,但是想象一下如果把它嵌入到人們接觸到的每個過程中,隨著數據科學家使用更加自動化的工具實施更復雜的任務,防錯措施將顯現出其寶貴的價值。
通過流程、工具和人才使機器學習(ML)獲得成功
機器學習(ML)和機器學習運維(MLOps)對于企業的業務成功至關重要,然而大多數企業都未能實現他們的目標。解決這一挑戰的第一步是實施機器學習運維(MLOps)。然而,只依靠機器學習運維(MLOps)是不夠的。通過獲得以上六種行之有效的精髓,企業可以從數據中創造價值,從而獲得更大的成功。
原文標題:Becoming an ML information factory – 6 lessons we can learn from lean manufacturing,作者:Doug Cackett
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】