是什么阻礙人工智能進步?還是數據的問題
弗雷斯特咨詢公司(Forrester Consulting)代表Capital One進行的一項新調查顯示,缺乏堅實的數據基礎和堅實的數據工作流正阻礙企業在機器學習和人工智能方面取得更大進展。
據Capital One近日發布的新報告《可操作性機器學習實現關鍵業務成果》,盡管企業在將機器學習(ML)和人工智能(AI)投入生產方面取得了一些成功,但如果數據管理問題不成為阻礙,它們將會取得更大進展。
該報告部分基于Forrester今年7月對北美150名數據管理決策者的調查,發現73%的決策者認為數據流的透明度、可追溯性和可解釋性是阻礙機器學習和AI應用操作化的關鍵問題。調查還發現,57%的受訪者表示,他們的數據科學家和業務者之間的內部豎井阻礙了機器學習的部署。
Capital One高級副總裁兼數據分析主管David Kang表示:“我們仍然處在這樣一個階段,機器學習算法本身并不是阻礙人們獲得成功的障礙。”“關鍵還是數據!”
當Capital One委托進行這項調查時,他們認為最大的挑戰將集中在機器學習的可操作性上。隨著機器學習和人工智能應用的發展,MLOps(機器學習運營)已經成為獨立學科,也是Capital One正在投資的領域。
Kang說,但當這份報告出爐時,數據決策者最關心的還是在建立堅實的數據基礎(包括數據工程和數據基礎設施)方面缺乏進展。
“從某些方面來說,這令人失望。但從其他方面來說,這并不令人驚訝。因為要大規模利用數據,就需要持續關注思考和重新思考數據生態系統中的每一個能力——如何生產和消費,如何監控,如何以不同的方式管理數據。數據生態系統的轉型旅程仍在進行中。這不是一件你只做一次就會忘記的事。它需要持續關注。”
Capital One的調查與最近其他研究的發現相似。這些研究發現,數據管理的問題減緩了機器學習和人工智能的采用速度和程度。其中包括9月份受Databricks委托發布的《麻省理工科技評述》(MIT Technology Review)報告,強調了數據管理不當對人工智能的危害;以及IDC 8月份受Collibra委托進行的一項研究,該研究發現,數據編目、傳承、質量管理和治理等具有“數據智能”特征的公司與市場成功之間存在相關性。
如果說這些研究有一個共同的主題,那就是,盡管現有的機器學習和人工智能技術的復雜性正在迅速增長,但企業發現,他們還沒有做好一些核心數據管理工作,而這些工作是實現這些技術進步所必須的。
企業可能會發現,ML或AI應用對有限的概念驗證(POC)產生了積極的影響,但未能采取必要的步驟,以確保在更廣泛的真實生產中順利推出。
在你想要擴大規模的技術開始在市場上產生影響之前,可能需要等待一段時間。誘惑總是存在的,這些概念開始看到效果,然后突然就發現自己在某一個地方有一堆數據豎井和一堆其他數據工程基礎設施的挑戰。
數據科學仍然是一門相當新的學科,許多公司都在努力填補職位空缺。Capital One的報告發現,57%的受訪者表示,他們打算利用合作關系來填補數據科學從業者之間的空白。Kang表示,缺乏內部專業知識也使得企業建立核心數據基礎設施變得更加關鍵,從而使更先進的ML和AI用例更容易在此基礎上構建,也更容易重復。
Capital One的調查也發現了減緩機器學習和人工智能采用的其他問題。該公司發現,36%的受訪者認為“龐大、多樣化、混亂的數據集”是主要障礙,38%的受訪者認為人工智能風險是最大挑戰。38%的人提到了跨組織和外部數據合作伙伴的數據豎井,稱這對機器學習的成熟度構成了挑戰。
數據管理的“小問題”似乎并沒有減緩人工智能和機器學習的投資(至少目前還沒有)。Capital One的調查發現,61%的決策者計劃在未來三年增加新的機器學習能力和應用。超過一半(53%)的受訪者目前正在優先考慮利用機器學習提高業務效率。
那么,公司用機器學習做什么呢?這是調查的另一個有趣的花絮,即自動異常檢測是機器學習的最主要用例,40%的受訪者報告這是他們的最主要用例。這引起了Kang的共鳴,他幫助Capital One建立了基于機器學習的異常檢測系統。
ML和AI的其他主要用例包括: 自動應用程序和基礎設施更新(39%),以及滿足負責任和有道德AI的新監管和隱私要求(39%)。