知道為啥失敗么?87%的機器學習項目都是這么栽了的……
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)
機器學習領域的發展潛力巨大,但我們對它了解得還不夠。根據Garner的預測:“2020年,有80%的人工智能項目還很神秘”,Transform 2019 of Venture Beat預測有87%的AI項目將永遠不會投入生產。
為什么會這樣呢?為什么這么多項目失敗呢?
· 缺乏專業知識
首先是因為大多數人對此技術依然很陌生,大多數公司組織仍不熟悉軟件工具和所需的硬件。
如今,似乎只要從事過數據分析或軟件開發工作,完成了一些示例數據科學項目的人,在上過在線短期課程后都自詡數據科學家。事實上,大多數的機器學習和人工智能項目,尤其在定義成功標準以及最終部署和持續監控模型時,都需要經驗更豐富的數據科學家。
· 數據科學與傳統軟件開發之間的脫節
數據科學與傳統軟件開發之間的脫節是另一個主要因素,傳統的軟件開發往往更便于預測和測量。
· 數據科學依然是科研與工程的結合體
數據科學研究通過多次迭代和試驗向前發展。有時,由于選擇的度量標準無法帶動用戶行為,因此整個項目將不得不從部署階段重返計劃階段。
傳統項目或許不能和數據科學項目傳達一樣的結果。對于那些在傳統軟件開發項目的每個任務周期結尾時能得到清晰交付結果的領導者而言,這可能令他們感到疑惑。
· 數據的質量與規模
眾所周知,人工智能系統的數據基礎越廣,產生的預測就越好。除了數據量增多的直接影響外,隨著數據規模的增加,還會面臨許多新的挑戰。
在許多情況下必須合并來自多方的數據。這時,我們就會意識到它們并不是多次同步的。問題也隨之而來,有時會合并不應該被合并的數據,這將導致有相同名稱的數據點卻有不同的含義。錯誤的數據產生的結果不僅沒有參考意義,還會產生誤導性。

· 數據標注
據《麻省理工學院斯隆管理評論》稱,另一個使許多機器學習項目停滯的原因是數據標注的不可用。
76%的人通過對訓練數據進行標注和注釋來解決這一問題,而63%的人甚至嘗試構建自己的數據標注和自動化注釋技術。這意味著大量數據科學家會在數據標記過程中無法運用自己的專業知識,這是有效執行人工智能項目所面臨的主要挑戰。
這就是許多公司將標注任務外包給其他公司的原因。但是,如果標注任務需要全面的專業領域知識,任務外包不會是好的解決方法。如果公司想保持數據集的質量和一致性,必須對數據標注員進行正式和標準化培訓。
如果要標注的數據很復雜,另一個選擇是開發自己的數據標注工具。但是這通常比機器學習任務本身需要更多的工程開銷。
· 封閉化組織
數據是機器學習項目中最重要的部分。在大多數組織中,這些數據將有不同的安全性約束,并以結構化、非結構化、視頻文件、音頻文件、文本和圖像等多種形式儲存在不同位置。
將這些數據以不同的格式放在不同的位置本身是一個挑戰。但是,在組織處于封閉狀態、負責人不相互合作時,團隊就會面臨加倍挑戰。
· 缺乏合作交流
另一個主要挑戰是數據科學家、數據工程師、數據管理員、商務智能專家、開發運營(DevOps)和工程等不同團隊之間缺乏協作。這對于從事數據科學工程方案的團隊尤其重要,他們的工作方式和使用的技術之間存在很多差異。
工程團隊將完成機器學習模型并將其投入生產。因此,他們之間需要有恰當的理解和高效的協作。
· 技術上不可行的項目
由于機器學習項目往往成本高昂,因此大多數企業傾向于以遠大的“登月計劃”為目標,試圖以此完全改變公司或產品并為企業帶來超額回報或投資。這樣的項目會使數據科學團隊無法突破極限,并且永遠無法完成這樣的項目。最終,企業領導者將對項目失去信心并停止投資。
企業最好將精力集中在單個可實現項目上,在力所能及的范圍內針對分散的業務制定階段性的小目標。
· 技術和業務團隊之間的協調問題
在機器學習項目啟動時,業務團隊和數據科學團隊之間沒有明確期望、目標和成功標準。這樣的項目將永遠停留在研究階段,因為他們不清楚自己的目標,便永遠不知道自己是否正在取得進展。
數據科學團隊將主要專注于準確性,而業務團隊卻對財務收益或業務洞察力等指標更感興趣。最終業務團隊不會接受數據科學團隊的成果。

· 缺乏數據策略
根據麻省理工學院斯隆管理評論,只有50%的員工人數超過10萬的大型企業最有可能采用數據策略。在開始機器學習項目之前制定可靠的數據策略至關重要。
你需要對以下內容有清晰的了解,這是數據策略的一部分:
- 公司中的總數據
- 項目真正需要多少數據
- 項目涉及到的員工是否有權查看這些數據
- 如何將來源不同的數據匯總在一起的具體策略
- 如何清理和轉換這些數據
大多數公司開始時都沒有計劃,或者根本沒有想到自己沒有數據。
· 缺乏領導支持
只要投入金錢和技術,問題就能迎刃而解。這是大眾常見的誤解。領導者可能沒有提供正確的支持來確保已經達到成功所需的條件。有時業務主管并不看好數據科學家開發的模型。
這或許是由于業務負責人缺乏對人工智能的理解以及數據科學家無法將模型的商業價值準確傳達給領導者。領導者需要了解機器學習的工作原理以及人工智能對企業的真正意義。
以上就是機器學習項目“九死一生”的原因所在。