分析成熟度模型:阻礙數據科學團隊發展的“罪魁禍首”
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)
下面這種模型你肯定見過,高德納優勢分析模型在數據分析和數據科學會議上實在是太常見了。
不要與卡內基梅隆大學的能力成熟度模型混淆,該圖表被多樣地稱作成熟度模型、連續體,甚至是自動扶梯。有時,公司也會顛倒用詞次序使用。而行業術語常常將其稱為分析成熟度模型,本文也將使用這種叫法。

分析成熟度模型令人無法抗拒…
人們太偏愛這種模型了,主要原因有以下幾個:
(1) 它的比喻是吸引人且能引發共鳴的。“這就像是一個孩子在成長。首先學著爬,其次是走,最后是跑。”與會者很容易理解這種比喻,并表示贊同。
(2) 其格式與新聞記者使用的經典5W1H技巧十分接近,能夠立即吸引人們的注意。
從據理力爭的創業數據極客到身著細條紋套裝的企業銷售分析人員,任何人都可以傳達典型的套話:“我們從‘發生了什么’開始,接著直觀地轉到‘為什么發生’,再到‘將要發生什么’,并以令人滿意的‘我們如何實現這一目標’結束。”
(3) 它有助于公司發展。常見的介入式咨詢模式始于在成熟度模型上對公司所處位置的評估。然后,公司用對應的級別來確定接下來要優先學習的能力。
因此,該模型不僅通過令人印象深刻的能力結構,且通過清晰的提升路線圖,為公司提供了十分清晰的發展思路。
但該模型包含可能阻礙數據科學發展的錯誤假設
以這種方式表現模型,在視覺上引入了許多巧妙的假設。不幸的是,這些假設中有許多是錯誤的,并且可能嚴重阻礙數據科學團隊的發展。
這就很諷刺了,該模型旨在幫助公司做出更好的數據驅動型決策,卻導致了建立數據科學團隊的錯誤決策。
成熟度模型被構造為一系列效益級別。然而,在我們做以下假設時,風險也隨之而來:
- 從底部開始,按順序前進到各個級別
- 每個更高級別都比之前的較低級別帶來更多價值
- 管理這些能力的方式屬于同一領域
這些假設無一正確
讓我們來一次性解構這些假設:
在進階到高級分析前,無需“完成”附加描述型分析。
首先,一家公司如何準確地“完整擁有”附加報道、商業智能和分析能力?數據是不斷變化的世界的動態表示,只要世界不斷變化(這當然是永遠的,且速度會不斷加快),描述型分析就會有新的要求。
成熟的數據管理十分重要,出色的數據平臺是數據科學的有力支持,且擁有所有所需數據并進行建模是一種難得的樂趣。擁有良好的數據倉庫和數據湖,為隨機森林的生長創造了一片肥沃土壤。
然而,數據倉庫項目需要等待多年完成,在此期間還將數據科學團隊部署到從事結構化查詢語言(SQL)和歸檔責任的工作,這是得不償失,甚至還會促使數據科學團隊跳槽。
從根本上講,除非正在構建產品功能,否則數據科學和數據分析的價值源泉僅來自于一個因素——就是決策。
如果數據科學家能通過數據來影響決策以達到更好效果,那么就可以創造價值。如果決策仍沒有改變,那么就浪費了時間。無論安全高性能云托管可解釋深度學習模型多么強大,都不會改變決策。整個團隊極有可能存在數年,工資照領,卻沒有創造出任何價值。
在高級數據分析有所進展的機會渺茫的同時,無需在成熟度模型的較低級別上停留。數據科學家在少量但重要的業務決策上立即創造價值也是常見情況。
一個更好的策略在其簡單程度方面幾乎是可笑的:讓數據科學家參與到可以接觸到的最高層人員作出的最重要決策中。
坐在高層人員身邊,了解他們的想法和決策過程。從他們已經想到的地方開始,繼續推進思路。查看本地訪問數據庫、Excel電子表格程序。查找管理會計師,并運用你儲備的各項技術來改善決策。
更高級別的數據分析是否能帶來更多價值尚不確定
計算預測或規范模型的價值或“提升”有許多完善的方法,例如,可以利用統計技術來預測世界狀況,你無需使用模型進行干預,一段時間后,再將其預測值與真值、創造價值進行比較。
例如,在啟動數據科學項目以增加零售產品銷售之前,可以預測在沒有任何模型干預的情況下,下個月的收入可能是1萬美元。執行定價和促銷模型后,收入為1.2萬美元,包括2000美元的模型營銷增益。
但矛盾的是,計算描述型或診斷型工作的價值可能會非常棘手。人們如何準確地量化意識的價值?如果一個人被蒙住眼睛行走,那么如何估計他摘下眼罩的價值呢?
不同類型工作在完全不同的管理方法下蓬勃發展
我們知道,不同級別的團隊可以并行工作,并以不同的方式衡量價值。這還沒完:團隊在成熟度模型下限停滯不前的一個重要原因就是,使描述型和診斷型分析有效的管理范式可能為預測型和規范型工作敲響“喪鐘”。
簡而言之,前者在強大的“工程”模式下蓬勃發展,要求互聯網技術風格,擁有強大的項目管理和穩健的流程。而后者則在定義了起點和終點的項目范圍外工作效果最佳。
二者最大的區別在于數據不確定性。預測型和規范型分析的特殊風險是:無法保證數據中包含足夠的信息,使預測型和規范型分析的應用程序變得有價值。
更復雜的是,還可以使用多種通常同樣有效的技術,來解決給定的問題。因此,必須有足夠的空間進行早期嘗試、試驗和失敗,使其影響較小。
如果正在建立用于預測型維護的機器學習模型,并且發現可用數據沒有任何有用的信號,那么在筆記本電腦上進行兩周的實驗后失敗總比在六個月的預算項目和十人團隊中試驗失敗要好得多。
概言之,成熟度模型對團隊造成損害的主要方式是:企業采用用于提供描述型分析解決方案的管理方法,并將其強加于高級分析工作中,而不去改變導致數據不確定性的方法。
通向更好的數據科學團隊成熟度模型
成熟數據科學團隊的選擇是什么呢?
首先,拋棄描述型、診斷型、預測型和規范型兼具的模式。在一線,工作通常在這四項分析模式間無縫過渡。數據分析和數據科學專業人士始終在全面地進行診斷工作。
而且,每當有人從建立可視化轉變到建立機器學習模型(反之亦然),并將此作為日常工作的一部分時,把公司的主要流程強加其上是費力不討好的。
人們不該將分析成熟度和其價值比作正在長個頭的孩子,這是在單個維度上的連續增量。更準確的出發點應從兩個維度看待成熟度,即實際上創造價值的維度:決策支持或生產系統。
生產中成熟的決策科學和數據科學
我們真正想要的成熟度是決策科學成熟度。在這里,“工程學”就是次要的了。取而代之的是研究數據素養和數據解析、減輕認知偏見、并建立正確的指標和激勵措施和實際獎勵數據驅動的決策。
建立數據科學產品或將模型投入生產是一項十分不同的活動。它需要成熟的流程來確認數據不確定性,安全的空間進行實驗以降低高級分析工作的風險,上線后適當的模型操作,以及針對產品而非項目量身定制的財務模型。
本文中還省略了一些現實生活中數據科學團隊的復雜性:人工智能的子學科是否被視為科學或工程學?對于擁有博士學位的人最應該去哪里?僅調用預訓練模型的人屬于一名數據科學家?數據工程應該成為一個單獨的團隊嗎?
數據科學是一個不斷發展著的學科,這些問題都是快速發展過程中不斷催生出的問題,也是我們必須去適應和解決的問題。