數據科學思維 :打造健康數據驅動組織的 6 條原則
要點
- 大多數組織都難以解鎖數據科學以優化其操作流程,讓數據科學家、分析師和業務團隊采用一致的語言:不同的團隊和數據科學流程常常是形成摩擦的根源。
- 健康的數據科學組織框架是一系列方法論、技術和資源的組合,它們將幫助你的組織 (從業務理解、數據生成和獲取、建模,到模型部署和管理) 變得更為數據驅動。
- 為了成功地將愿景和業務目標轉化為切實有效的結果,建立清晰的績效指標非常重要。
- 組織需要更有機地考慮其端到端的數據流和體系結構,它們將是數據科學解決方案的支撐。
- 基于 Azure 機器學習服務,團隊構建了一個人員部署推薦方案,為新項目推薦最優的員工組合和具有對口經驗和專業知識的人員。
在過去的幾年里,來自無數不同來源的數據變得更加可用和可消費,許多組織都在開始尋找使用最新數據分析技術的方法,以滿足他們的業務需求和尋求新的機會。除了數據變得更加可用和可訪問外,還出現了大量工具和應用程序,使團隊有能力構建復雜的數據分析解決方案。鑒于以上種種,組織越來越多地圍繞數據科學的職能組建團隊。
數據科學是一個結合數學、編程和可視化技術的領域,它將科學方法應用于特定的業務領域或問題,如預測未來的客戶行為、規劃空中交通路線或識別語音模式等。但是,成為一個數據驅動的組織究竟意味著什么呢?
通過本文,業務和技術領導者將學到一些評估他們的組織是否是數據驅動的方法,以及對其數據科學成熟度進行基準測試的方法。此外,通過現實世界中已經應用過的用例,他們將學習如何使用健康的數據科學組織框架在組織內培養健康的數據科學思維。作為一名數據科學家,我基于自身的經驗創建了這個框架,我正在從事端到端數據科學和機器學習解決方案的工作,與許多不同類型行業的外部客戶合作,包括能源、石油和天然氣、零售、航空航天、醫療保健和職業勞務。該框架提供了一個構建數據科學項目的開發生命周期。這個生命周期概述了項目在運行時從開始到結束要遵循的步驟。
理解健康的數據科學組織框架
成為一個數據驅動的組織意味著要嵌入數據科學團隊,以充分參與業務,并調整公司的運營骨架 (技術、流程、基礎設施和文化)。健康的數據科學組織框架是一系列方法論、技術和資源的組合,如果正確使用,這些方法論、技術和資源將幫助你的組織 (從業務理解、數據生成和獲取、建模,到模型部署和管理) 變得更為數據驅動。這個框架包括六個關鍵原則,如圖 1 所示:
- 了解業務和制定決策的過程
- 建立績效指標
- 構建端到端解決方案
- 構建你的數據科學技巧工具箱
- 統一組織的數據科學愿景
- 讓人類參與其中
考慮到該領域的快速發展,組織通常需要指導如何應用最新的數據科學技術來滿足其業務需求或尋求新的機會。
原則 1:了解業務和制定決策的過程
對于大多數組織來說,缺乏數據并不是問題。事實恰恰相反:通常在制定決策時手里掌握太多的信息。有這么多的數據需要分類,組織需要充分定義一個策略在以下各方面對業務加以闡述:
- 數據科學如何幫助企業做業務轉變,更好地管理成本,并驅動更卓越的運營?
- 組織對想要完成的事情是否有一個明確定義并予以清晰表達的目標和愿景?
- 組織如何獲得 C 級管理人員和涉眾的支持,以實現數據驅動的愿景,并推動它貫穿至業務的各個部分?
簡而言之,公司需要對其業務決策過程有一個清晰的理解,以及一個更好的數據科學策略來支持該過程。有了正確的數據科學思維,以往大量不同的信息就變成了一個簡單清晰的決策點。推動轉型需要公司對他們想要實現的事情有一個明確定義并予以清晰表達的目標和愿景。它通常需要 c 級主管的支持,以實現該愿景,并推動它貫穿至業務的各個部分。
組織必須從正確的問題著手。該問題應該是可度量的、清晰的、簡潔的,并與他們的核心業務有直接的關聯。在此階段,設計問題就特定業務問題或機會的潛在解決方案加以限定(或取消限定)非常重要。例如,從一個明確定義的問題開始:一家零售公司的成本正在不斷上升,無法再向客戶提供有競爭力的價格。要解決這一業務問題,可能會引出許多的問題,其中之一可能是:公司能否在不影響質量的情況下減少運營?
要回答這類問題,組織需要解決兩項主要任務:
- 定義業務目標:數據科學團隊需要與業務專家和其他涉眾合作,以理解和識別業務問題。
- 提出正確的問題:公司需要提出明確的問題,定義數據科學團隊可以瞄向的業務目標。
去年,Azure 機器學習團隊為一家職業勞務公司開發了一個基于推薦的員工分配解決方案。通過使用Azure 機器學習服務,我們開發并部署了一個人員部署推薦解決方案,該方案為新項目推薦最優的員工組合和具有對口經驗和專業知識的個人員工。我們這個解決方案的最終業務目標是提高客戶的利潤。
當時,項目人員配置是由項目經理手工完成的,他基于的是員工的可用性和其個人過去業績的先驗知識。這個過程非常耗時,而且結果往往并不理想。利用歷史數據和先進的機器學習技術可以更有效地完成這個過程。
為了將這個業務問題轉化為切實可行的解決方案和結果,我們幫助客戶提出了正確的問題,例如:
- 我們如何預測新項目的員工構成?例如,一名高級項目經理、一名首席數據科學家和兩名會計助理。
- 我們如何計算新項目的員工適合度評分?我們將員工適合度得分定義為度量項目員工適合度的指標。
我們這個機器學習解決方案的目標是根據員工的可用性、地理位置、項目類型經驗、行業經驗和以前項目產生的小時貢獻邊際,為新項目推薦最合適的員工。Azure和無數的基于云計算的工具,可以幫助該組織制定成功的勞動力分析解決方案,為具體的行動計劃和人力資源投資提供基礎:使用 Azure 云,更容易獲得無與倫比的生產力,它具有端到端的開發工具和監控、管理和保護云資源的管理工具。此外,Azure 機器學習服務提供了一個基于云的環境,組織可以使用它來準備數據、培訓、測試、部署、管理和跟蹤機器學習模型。Azure 機器學習服務還包括自動生成模型和調優的功能,以幫助你輕松、高效并準確地創建模型。這些解決方案可以解決組織人員分配中需要克服的偏差或低效,從而得到更好的業務結果。組織可以通過使用勞動力分析來優化人力資本的使用,從而獲得競爭優勢。在接下來的幾個章節,我們將一起了解如何為客戶構建這個解決方案。
原則 2:建立績效指標
為了成功地將這個愿景和業務目標轉化為切實有效的結果,下一步是建立清晰的績效指標。在第二步中,組織需要從分析層面關注定義數據解決方案管道的以下兩個關鍵方面(如圖 2):
- 解決該業務問題并得出準確結論的最佳分析方法是什么?
- 如何將這一愿景轉化為能夠改善業務的切實有效的結果?
這一步分為三個子步驟:
決定度量什么
我們以預測性維護為例,這是一種用于預測在役機器何時會發生故障的技術,它使你能夠對其維護提前很好地進行規劃。事實證明,這是一個非常廣泛的領域,有著各種各樣的最終目標,比如預測故障的根本原因、哪些部件需要更換以及故障發生后何時提供維護建議等等。
許多公司正在嘗試進行預測性維護,以及從各種傳感器和系統中獲得大量數據。但是,通常情況下,客戶并沒有足夠的故障歷史數據,這使得預測維護非常困難。畢竟,為了預測未來的故障事件,需要基于此類故障歷史數據對模型進行培訓。因此,盡管為任何分析項目制定愿景、目的和范圍很重要,但是從收集合適的數據開始才至關重要。用于預測維護的相關數據源包括但不限于:故障歷史、維護 / 維修歷史、機器操作條件、設備元數據。讓我們假定有一個車輪故障用例:訓練數據應該包含與車輪操作相關的特征。如果問題是預測牽引系統的故障,訓練數據必須包含牽引系統的所有不同部件。第一個案例針對特定的組件,而第二個案例針對較大子系統的故障。一般的建議是設計關于特定組件的預測系統,而不是更大的子系統。
給定上述數據源,預測維護領域中觀察到的兩種主要數據類型是:1)暫態數據(如操作遙感、機器條件、工作指令類型、記錄時具有時間戳的優先級代碼)。故障、維護 / 修理和使用歷史記錄也將有與每個事件相關聯的時間戳);2)靜態數據(機器特征和操作員特征一般是靜態的,因為它們描述了機器或操作員屬性的技術規格。如果這些特征隨著時間的推移而改變,那么它們也應該具有與之相關聯的時間戳)。預測器和目標變量應該根據使用的算法進行預處理 / 轉換為數值、分類和其他數據類型。
2. 決定如何度量它
考慮組織如何度量數據也同樣重要,尤其是在數據收集和攝入階段之前。這一子步驟的關鍵問題包括:
- 時間是什么時候?
- 度量單位是什么?
- 應該包括哪些因素?
此步驟的中心目標是確定分析需要預測的關鍵業務變量。我們將這些變量稱為模型目標,并使用與它們關聯的度量來確定項目的成功。針對這類目標,舉兩個例子為銷售預測或預測是欺詐性訂單的可能性。
3. 定義成功指標
在標識關鍵業務變量之后,將業務問題轉換為數據科學問題并定義界定項目是否成功的度量標準非常重要。組織通常使用數據科學或機器學習來回答以下五類問題:
- 多少?(回歸)
- 哪一類?(分類)
- 哪一組?(聚類)
- 這奇怪嗎?(異常檢測)
- 應該采取哪種選擇?(推薦)
確定公司正在詢問哪些問題,以及如何回答這些問題,這樣才能實現業務目標,并能夠對結果進行度量。在這一點上,通過提出和精煉相關的、具體的、明確的尖銳問題來重新審視項目目標是很重要的。例如假設,一家公司想要實現客戶流失率的預測,需要精確到在一個為期三個月的項目結束時達到“x”%。有了這些數據,公司就可以為客戶提出減少客戶流失率的促銷活動了。
以我們的職業勞務公司為例,我們決定解決的第一個業務問題是,如何預測一個新項目的員工組合,例如一名高級會計師加兩名會計助理。對于這種客戶參與,我們使用了近五年個人級別的每日歷史項目數據。我們刪除了任何有負邊際貢獻或負總小時數的數據。我們首先從測試數據集中隨機抽取了 1000 個項目,以加速參數調優。在確定了最優參數組合后,我們對測試數據集中的所有項目進行了相同的數據準備。
以下是我們為這次業務構建的數據類型和解決方案流(如圖 3 所示):
我們使用了一種聚類方法:K 最近鄰 (KNN) 算法。KNN 是一種簡單、易于實現的監督機器學習算法。KNN 算法假設相似的事物具有很近的距離,從而在訓練數據中找到最相似的數據點,并根據它們的分類進行有根據的猜測。該方法雖然易于理解和實現,但在推薦系統、語義搜索和異常檢測等領域也得到了廣泛的應用。
在第一步中,我們使用 KNN 來預測一個新項目的人員組成,也就是說,使用歷史項目數據預測每種人員分類 / 職務的數量。我們根據不同的項目屬性,如項目類型、總賬款、行業、客戶、收入范圍等,找出與新項目相似的歷史項目。我們根據業務規則和標準為每個項目屬性分配了不同的權重。我們還刪除了任何有負邊際貢獻 (利潤) 的數據。對于每一種人員分類,通過計算同類歷史項目對應人員分類的人員數量加權和來預測人員數量。最后將這些權值規格化,使所有權值的和為 1。在計算加權和之前,我們剔除了 10% 的過高異常值和 10% 的過低異常值。
我們要解決的第二個業務問題是,如何計算新項目的員工適合度得分,我們決定使用基于內容的自定義過濾方法:具體來說,我們實現了一個基于內容的算法來預測員工的經驗與項目需求的匹配度。在基于內容的過濾系統中,通常是根據用戶對條目的歷史評分來計算得出用戶配置文件。這些用戶配置文件描述了用戶的品味和偏好。為了預測員工對新項目的適合度,我們使用歷史數據為每個員工創建了兩個員工檔案向量:一個向量基于的是一個小時數,它代表員工在不同類型項目上的經驗和專業技能;另一個向量基于的是每小時貢獻利潤率 (CMH),它代表員工在不同類型項目上的盈利能力。新項目的員工適合度評分是通過計算這兩個員工輪廓向量和代表項目重要屬性的二進制向量之間的內積來計算的。
我們使用Azure 機器學習服務實現了這個機器學習步驟。使用主流的 Python SDK和用于 Azure 機器學習的Data Prep SDK,我們在 Azure 機器學習服務工作區中構建我們的機器學習模型,并對其展開訓練。這個工作區是為該服務準備的頂級資源,它為我們提供了一個集中的地方來處理這個項目創建的所有工件。
為了創建一個工作區,我們確定了以下配置項:
當我們創建一個工作區時,會自動添加以下 Azure 資源:
- Azure Container Registry(Azure 容器注冊表)
- Azure Storage(Azure 存儲)
- Azure Application Insights(Azure 應用洞見)
- Azure Key Vault(Azure 密鑰保管庫)
該工作區保存了一個計算目標列表,你可以使用這些目標訓練你的模型。它還保存執行訓練的歷史記錄,包括日志、指標、輸出和腳本快照。我們使用這些信息來確定哪個訓練運行生成了最佳模型。
之后,我們將模型注冊到工作區中,并使用注冊的模型和計分腳本創建用于部署的鏡像(為此用例構建端到端體系結構的相關更多細節將在下面討論)。工作區的概念和機器學習流程如圖 4 所示:
原則 3:構建端到端解決方案
在大數據時代,越來越多的數據的積累和分析,往往是非結構化的,它們來自于應用程序、Web 環境和各種各樣的設備。在第三步中,組織需要更有機地考慮支持其數據科學解決方案的端到端數據流和體系結構,并問問自己以下問題:
- 他們真的需要這么多數據嗎?
- 他們如何確保它的完整性和可靠性?
- 他們應該如何存儲、處理和操作這些數據,以回答我的問題?
- 最重要的是,他們如何將這個數據科學解決方案整合到他們自己的業務和運營中,以便隨著時間的推移仍能成功地使用它?
數據體系結構是規劃數據收集的過程,包括對所要收集的信息的定義、用于結構化數據的標準和規范以及用于提取、存儲和處理此類數據的工具。
對于任何執行數據分析的項目來說,這個階段都是基礎,因為它保證了將來所要研究的信息的可用性和完整性。為此,你需要了解數據將如何存儲、處理和使用,以及項目需要哪些分析。就這一點,可以說項目的技術愿景和戰略愿景是交叉的,因為這個計劃任務的目的是保持數據提取和操作過程與業務目標保持一致。
在定義了業務目標(原則 1)并將它們轉換為有形的度量標準(原則 2)之后,現在必須要做的是選擇正確的工具,以使組織能夠實際構建端到端數據科學解決方案。考慮諸如數據量、數據種類以及數據生成和處理的速度等因素,對公司確定應該使用哪種類型的技術會很有幫助。在現有的各類工具中,必須考慮:
- 數據收集工具,如Azure Stream Analytics 和Azure Data Factory,這些工具將幫助我們提取和組織原始數據。
- 存儲工具,如Azure Cosmos DB和Azure Storage:這些工具以結構化或非結構化的形式存儲數據,并且可以以集成的方式聚集來自于多個平臺的信息
- 數據處理和分析工具,如Azure Time Series Insights和Azure Machine Learning Service Data Prep,有了這些,我們可以使用存儲和處理的數據創建可視化邏輯,使分析、研究和報告成為可能,從而支持運營和戰略決策的制定。
- 模型操作化工具,如 Azure Machine Learning service 和Machine Learning Server:在公司擁有一組運行良好的模型之后,它們可以將這些模型操作化,供其他應用程序使用。根據業務需求來看,可以實時預測,也可以批量預測。為部署模型,公司需要使用一個開放的 API 接口來暴露它們。各類的應用程式可以通過該接口輕松使用這個模型,例如:在線網站/電子表格/儀表板/企業重要流程線(LoB)應用程序/后端應用程序
這些工具可以根據業務的需要予以調整,但在理想情況下應該提供它們之間集成的可能性,從而使數據可以在任意選擇的平臺上使用,而不需要手工處理。這種端到端架構(如圖 5)還將為公司提供一些關鍵的優勢和價值,例如:
- 加速部署和降低風險:集成的端到端體系結構可以極大地降低組裝端到端解決方案所需的成本和精力,從而進一步減少部署用例的時間
- 模塊化:使公司能夠從端到端體系結構的任何部分開始切入,并確保已經集成了關鍵組件,且可以良好地配合
- 靈活性:可以在任何地方運行,包括多云或混合云環境
- 端到端分析和機器學習:支持從邊緣到云的端到端分析,能夠將機器學習模型回推到邊緣進行實時決策
- 端到端數據安全性和依從性:預集成了跨基礎設施的安全性和可管理性,包括訪問、授權和身份驗證
- 支持開源創新:基于開源項目和確保開放標準的充滿活力的社區創新模型
之于我們職業勞務公司,我們的解決方案架構由以下組件組成(如圖 6):
數據科學家使用 Azure 機器學習和 HDInsight 集群來訓練模型。Azure HDInsight 是一種面向企業的管理、全頻譜、開源的分析服務。HDInsight 是一種云服務,它使海量數據的處理變得簡單、快速和劃算。模型被裝箱并放入Azure 容器注冊表。Azure 容器注冊表使你可以為所有類型的容器部署構建、存儲和管理鏡像。對于這個特定的客戶參與,我們使用Azure CLI創建了一個 Azure 容器注冊表實例。然后,使用 Docker 命令將容器鏡像推入注冊表,最后從注冊表中拉出并運行鏡像。Azure CLI 是一個命令行工具,為管理 Azure 資源提供了很好的體驗。CLI 旨在簡化腳本編寫、查詢數據、支持耗時操作等等。
該模型通過離線安裝程序部署到 Azure 棧上的 Kubernetes 集群。Azure Kubernetes Service (AKS) 簡化了 Kubernetes 的管理,它通過 Azure CLI 等工具簡化了集群的供應,并通過自動化的升級和擴展簡化了集群的維護。此外,創建 GPU 集群的能力使 AKS 能夠用于高性能服務和機器學習模型的自動擴展。
最終用戶提供的數據是根據模型評分的。將預測模型應用于一組數據的過程稱為對數據進行評分。一旦建立了模型,就可以將模型規格說明保存在一個文件中,該文件包含重構模型所需的所有信息。然后你可以使用該模型文件在其他數據集中生成預測分數。
從評分中獲得的洞見和異常將被存儲起來供以后上傳。Azure Blob storage 用于存儲所有項目數據。Azure 機器學習服務與 Blob 存儲集成在一起,以便用戶不必在計算平臺和 Blob 存儲之間手動移動數據。從該工作負載所需的性能來看,Blob 存儲也是非常劃算的。
在全局應用程序中,全局相關和兼容性的洞見可供使用。Azure App Service是一種托管 Web 應用程序、REST API 和移動后端的服務。App Service 不僅為你的應用程序添加了 Microsoft Azure 的強大功能,比如安全性、負載平衡、自動縮放和自動化管理,還為你提供了 DevOps 能力,例如 Azure DevOps、GitHub、Docker Hub以及其他來源的持續部署,包管理、準生產環境、自定義域和 SSL 證書。
最后,利用邊緣評分數據對模型進行改進。
原則 4:構建數據科學技巧工具箱
在為我們的職業勞務公司開發基于推薦的人員分配方案時,我們立刻意識到他們的時間有限,并且沒有無限的計算資源。組織如何組織他們的工作以保持最高的生產力呢?
我們與客戶的數據科學團隊緊密合作,幫助他們開發了一組不同的技巧,以優化他們的工作,縮短生產時間,例如:
首先,不要在你擁有的整個數據集進行培訓,而應在一個小得多的子集上:一旦數據科學團隊清楚地了解了他們需要實現的功能、損失函數、度量標準和超參數值之后,再進行擴展。
重用以前項目中獲得的知識:許多數據科學問題都是彼此想通的。從其他數據科學家過去解決過的類似問題中重用超參數或特征提取器的最佳值,這將為組織節省大量時間。
設置自動報警,通知數據科學團隊某個特定的實驗已經結束:假使實驗時有些東西出錯了,這么做將節省數據科學團隊的時間。
使用Jupyter 筆記本進行快速原型設計:數據科學家可以在對結果滿意之后再將代碼重寫為 Python 包 / 類。
將實驗代碼保存在版本控制系統中,比如GitHub。
使用云中的預配置環境進行數據科學開發:這些是虛擬機鏡像(如Windows 虛擬機和Azure 數據科學虛擬機),使用一些常用的工具進行預安裝、配置和測試,這些工具通常在數據分析和機器學習培訓會用得到。
在運行實驗時,列出要做哪些事情:數據收集、清理、注釋;閱讀新的數據科學主題,嘗試新的算法或框架。所有這些活動都會對你未來項目的成功有所助益。建議可參考這幾個數據科學網站:數據科學中心、KDnuggets、Revolution Analytics
原則 5:統一組織的數據科學愿景
從開始數據科學過程的第一天起,數據科學團隊就應該與業務伙伴進行交互。數據科學家和業務伙伴不經常接觸解決方案。業務伙伴希望遠離技術細節,數據科學家也是想遠離業務。然而,為了理解并行模型的實現以構建模型,他們之間保持持續交互是非常重要的。大多數組織都難以解鎖數據科學以優化其操作流程,讓數據科學家、分析師和業務團隊采用一致的語言:不同的團隊和數據科學流程常常是形成摩擦的根源。這種摩擦定義了新的數據科學鐵三角,它基于的是數據科學、IT 運營和業務運營的協調配合。
為了與客戶共同完成這項任務,我們實施了以下步驟:
- 要求 C 級別高管的支持采納這一愿景,并將其推動至其他不同業務部分:哪里有清晰的目標, 愿景和支持,就在哪里先試點,最初的成功或勝利,會刺激大家進一步試驗和探索,這經常會導致多米諾效應,讓大家產生積極的轉變。
- 營造一種實驗文化:即使有了明確的目標,但通常僅憑這一點也不會帶來成功的業務轉型。在許多組織中,一個重要的障礙是員工沒有足夠的權力來實現變革。向員工充分授權有助于讓員工參與進來,并讓他們積極地為共同的目標做出貢獻。
- 讓每個人都參與到溝通中來:達成共識會增強績效表現。如果數據科學家在沒有其他人參與的情況下孤立地工作,組織將缺乏共同承擔的愿景、價值觀和共同的目標。跨多個團隊的組織的共同愿景和共同目標,能帶來協作的提升。
原則 6:讓人類參與其中
成為一家數據驅動型公司,更多的是一種文化轉變,而不僅僅是數字化:因此,任何數據科學解決方案的結果都應讓人類參與評估,這很重要。人類 - 數據科學的團隊合作將會得到比任何一個單獨的團隊更好的結果。
例如,在我們的客戶案例中,我們結合數據科學與人類經驗,幫助他們構建、部署和維護了一個人員部署推薦解決方案,為新項目建議最優的人員組合和具有對口經驗和專業知識的人員,這常常會直接帶來經濟價值。在我們部署了解決方案之后,我們的客戶決定與幾個項目團隊進行試點。他們還創建了一個數據科學家和業務專家的 v-Team,目的與機器學習解決方案并行開展工作,從兩個試點團隊使用 Azure 機器學習解決方案前后比較機器學習在項目完成時間、收入、員工、客戶滿意度等方面得出的結果。這種由一組數據和業務專家進行的線下評估對項目本身非常有益,這主要有兩個原因:
- 驗證了該機器學習解決方案能夠為每個項目提高約 4% 到 5% 的貢獻邊際;
- 該 v-Team 能夠測試這個解決方案并創建一個可靠的即時反饋機制,使他們能夠不斷地監控結果并改進最終的解決方案。
在這個試點項目之后,客戶成功地將我們的解決方案集成到了他們的內部項目管理系統中。
在開始這種數據驅動的文化轉變時,公司應該牢記以下幾點準則:
- 并肩工作:業界領先的公司越來越認識到,當技術能夠助力人類,而不是取代人類時,它們才是最有效的。理解數據科學和人類為不同類型的工作和任務帶來的獨特能力將是至關重要的,因為這樣重點就從自動化轉向了對工作的重新設計。
- 對人類接觸的認知:重點是要記住,即使高度電腦化的工作不得不保持在面向服務的層面,并由像數據科學家和開發人員這些角色來解釋公司的成功,但仍需要創造力、同理心、溝通能力和解決復雜問題等必要的人類技能。
- 投資于勞動力的發展:對勞動力的發展、學習和職業模式予以重新關注也很重要,要不吝為其注入創造力。也許最關鍵的是對做有意義的工作的需求——盡管他們與智能機器有了新的合作,但人類將熱切地擁抱這些工作。
在數據科學需要額外的目前昂貴得令人望而卻步的基礎設施(例如巨大的知識圖譜),以在每個領域中提供上下文和替代人類經驗的情況下,人類組件將特別重要。
結論
通過在數據分析過程中應用健康數據科學組織框架中的這六個原則,組織可以針對他們的業務做出更好的決策,他們的選擇將得到可靠的數據收集和分析的支持。
我們的客戶能夠實現一個成功的人員部署推薦解決方案,該方案為新項目推薦最優的員工組合和具有對口經驗和專業知識的個人員工。通過將員工經驗與項目需求結合起來,我們幫助項目經理更好更快地進行人員分配。
通過實踐,數據科學過程將變得更快、更準確,這意味著組織將做出更好、更明智的決策,從而最有效地運營。
以下是一些可能會用到的附加資源,可幫助你學習如何培養健康的數據科學思維,建立一個成功的數據驅動組織:
- 團隊數據科學過程文檔(Team Data Science Process Documentation)
- 團隊數據科學處理 GitHub 庫(Team Data Science Process GitHub Repo)
- 數據架構指南(Data Architecture Guide)
- Azure 的筆記本(Azure Notebooks)
- 數據科學虛擬機(Data Science Virtual Machine )
- Azure 機器學習文檔(Azure Machine Learning Documentation )
- 微軟 Azure 數據科學博客(Microsoft Azure Data Science Blog)
作者簡介:Francesca Lazzeri 博士(推特:@frlazzeri)是微軟云計算倡導團隊的高級機器學習科學家,也是大數據技術創新和基于機器學習的解決方案在現實問題中的應用方面的專家。她是《時間序列預測:機器學習方法》(O 'Reilly Media, 2019) 一書的作者,她定期在美國和歐洲的大學教授應用分析和機器學習課程。在加入微軟之前,她是哈佛商學院商業經濟學研究員,她在那里的技術和運營管理部門進行統計和計量分析。她還是麻省理工學院博士和博士后的數據科學導師,并在學術和行業會議上發表主題演說和專題演講,在會上,她分享了她對人工智能、機器學習和編碼的知識和激情。