如何解決企業AI的巨大挑戰
在過去兩年中已生成了90%的現有數據。 每天產生7.5億兆字節的數據-每人約147,000千兆字節。 這些數字驚人,但可以預料:世界在增長,而機器經濟也在以指數級增長。
這并不是說所有這些數據都立即有用。 如果沒有大量的預處理,組織就不能簡單地利用這些資源,但是有人在工作嗎? Forrester報告稱,在企業公司內部,仍有73%的數據未用于分析。 業務策略和數據策略之間仍然存在很大的差距-您組織的預測性解決方案將僅與初始問題陳述一樣堅固。 根據Gartner的說法,組織需要建立特定的用例,并部署具有可衡量結果的技術,以實現AI的價值。
數據是一大難題
這個比喻仍然存在-數據就是新的石油(盡管最晚在2006年創造了這個詞,也許并不是那么"新")。 在原始狀態下絕對有價值。 精制后,它甚至更有價值。 但是,當將其轉變成專門為解決特定問題而設計的產品時,其應用將無數,其價值將飛速增長。
數據也是如此:組織需要記住,這里的最終目標不是收集盡可能多的數據。 他們需要從數據中提取價值并將其應用于特定的業務問題。 觀察數據,從中學習數據,然后基于該反饋使工作自動化的想法是機器學習的核心。
> GIF via giphy
盡管好萊塢經常描述這種情況,但ML并沒有朝著證明"終結者假說"的方向發展。
了解機器學習
在任何組織成為數據驅動者之前,了解基礎知識很重要。 人們通常認為機器學習的最終目標是對實時儀表板上顯示的數據進行圖形化和可視化處理。 ML與自動執行任務有關(而不是與替換工作有關),而不僅僅是顯示統計信息。 廣義上講,機器學習向計算機教授有關世界的知識,以便機器可以使用該知識執行其他任務。 另一方面,統計信息可以教給人們一些有關世界的知識,以便他們可以看到更大的圖景并做出明智的決策。
埃森哲稱,與那些追求概念驗證的公司相比,從戰略上擴展AI的公司報告的AI投資回報幾乎是其三倍。 顯然,ML并不是一些笨拙的儀表板; 實際上,它可以幫助您的組織構建可以模仿,擴展和增強人類智能的智能系統,以實現某些"機器智能",從而使組織中的人員可以專注于解決更適合人類的問題。
但是,大多數組織都在努力實現可擴展的AI解決方案,并且沒有從中受益(參見:金錢)。 問題? 您的組織不是人才短缺,而是戰略短缺。 不服氣嗎? 我們來看一些數字。
可擴展的解決方案
自2015年以來,數據科學工作需求增長了344%。 我們可以清楚地看到,組織正在投資發展其數據科學團隊,給人的印象是,如果他們繼續聘用數據科學家,創新和數字化轉型將自動成為副產品。 但是,僅使用了27%的企業數據,而將外部數據考慮在內則更加令人震驚-在世界上所有可用數據中,只有不到1%用于分析。
所有這些數據都有一個臨界點。 公司可以花費數百萬美元來組建龐大的數據團隊,以搜尋Internet到處尋找和準備數據的方法-但這永遠不是可擴展的解決方案,而且缺乏管理策略會造成瓶頸。
公司需要什么來部署AI和ML?
那么,流程從哪里開始,組織如何實際構建和部署成功的機器學習項目?
(1) 從結局開始。 您必須清楚地了解自己面臨的問題以及想要實現的解決方案。 在保齡球比賽中,每個球都可以擊倒十個針腳,但是如果您朝正確的方向扔球,那將是一場完美的比賽。 使用ML,您需要了解您的目標。 組織以目標為導向,他們一直在尋求增加收入和提高KPI-如果您的問題不能解決這些目標,則可能會偏離目標。
(2) 提出正確的問題。 大多數企業在嘗試解決ML問題之前并沒有提出正確的問題。 分析并了解您可以回答的內容和無法回答的內容,然后弄清楚您的預測系統如何使最終用戶真正受益。 要問的一個關鍵問題:"我的項目會被它可以為組織創造的價值深深地驅動嗎?"
(3) 定義業務策略。 必須使用將應用于其他項目的數據和ML項目來實現相同的策略制定細節。 您需要特定,可衡量和可實現的目標,實施計劃以及有助于跟蹤項目成功的指標。 僅從技術層面上看項目是不夠的,您需要能夠將解決方案連接到您的組織。 例如,在實施模型之后,您的公司會增加收入還是在市場上獲得牢固的競爭優勢?
(4) 建立合適的團隊。 組織常常無法招到合適的人選,因為他們要么不知道自己想要實現的目標,要么對數據科學家的角色有相互矛盾的認識。 數據團隊不僅由數據科學家組成,而且由更多的角色組成,并且認為一個角色能夠建立和維護倉庫,架構數據工作流程,編寫完美優化的機器學習算法并對所有內容進行分析都是無知的。 為了填補項目的正確角色,您需要明確定義目標,了解每個技術角色/團隊結構的細微差別,并確保在招聘信息中列出所有這些內容。 下圖顯示了核心技能對于數據科學中新興角色的相對重要性:
> Chart of skill importance in Data Science
(5) 創建數據策略路線圖。 數據是ML項目訓練模型的關鍵資產。 根據人工智能領域的先驅Andrew Ng所說,最大,最成功的產品擁有最多的用戶。 擁有最多的用戶通常意味著您可以獲得最多的數據,而對于現代ML,擁有最多的數據通常意味著您可以創建良好的AI。 下圖描述了以上概念:
(6) 利用第三方軟件。 不要試圖徹底改變現狀并建立內部數據管道。 為了成功啟動AI,重要的是選擇正確的工具,這些工具可以幫助您的組織完成在采購,抓取,標準化,優化和集成數據方面可以自動化的任務。 代表Alegion進行的Dimensional Research報告發現,最終,有71%的團隊將培訓數據和其他機器學習項目活動外包。 在"建造與購買"辯論中,選擇"建造"的公司花費更多的時間和金錢。 請記住,您不是在雇用數據管理員,而是在雇用數據科學家。 采用DataOps工具并找到使數據生命周期的準備階段和過程階段自動化的方法,將會縮短洞察時間。
從來都不是容易的事,但不必那么難
一些企業沒有足夠的數據,另一些企業則在掙扎著十多年無法使用的價值。 擁有數據并不自動意味著可以從中獲得見解。 組織無法識別從數據中獲取見解所需的必要準備工作,因此,在創新和增長方面會出現越來越多的瓶頸。 不是沒有數據,而是可用數據。
數據是創建預測性和智能解決方案的重要因素,但是數據不僅擁有很多,而且還有更多。 找到問題,找到合適的人來解決它,并為他們提供有效解決問題和衡量其效力所需的工具-這些是成功ML的要求。