很長一段時間以來,數據科學一直被視為科技和商業領域的下一次重大革命。最近幾年增加了不少使用數據科學應用的企業。根據Statista的數據,截至2021年,近60%的公司在其團隊中擁有至少50名數據科學家。
然而,如果客觀地看待,數據科學提供的結果與它的期望并不匹配。許多將數據科學方法應用于數據的企業經常發現他們的數據科學項目是不可行的。
導致這種結果的一個重要原因是不能正確執行數據科學的程序。其他原因通常包括對業務問題缺乏了解、項目設計不一致以及將數據洞察力轉化為可操作結果的能力不足。
數據科學是復雜的,公司需要使用一些最佳實踐來更好地實施數據科學程序。
在本文中,我們將討論公司可以參考哪些實踐,以提高數據科學工作的成功率。首先讓我們了解一些數據科學的基本概念。
解讀數據科學
數據科學聽起來好像類似于比特幣、NFT、加密等IT流行語。但是拋開炒作,我們會看到一個多層次的領域,是融合了數學推理和計算機編程等多個方面來理解數據。
與看起來相反的是,數據科學并不是一個新的IT術語。在20世紀后期它的用途接近于統計,意思是有組織的數據文檔。
數據科學從根本上說是大數據、數據挖掘和機器學習等學科的擴充和結合?,F在,它本質上是指收集和分析一個公司或組織的非結構化數據。
數據科學家是記錄和解讀龐大和雜亂數據的專業人士,他們使用數學能力、編碼技能和一系列有關數據庫、計算和通信等技能來處理數據并得出相關見解。然后,公司利用這些見解來改善他們的客戶服務、產品質量、組織間溝通等等。
數據科學正逐漸成為一些組織夢寐以求的資產,隨著時間的推移,它必將獲得更多的關注。
10 個有效的數據科學最佳實踐操作指南
到目前為止,我們已經收集了有關數據科學的定義和目標的信息。現在讓我們看看公司可以遵守的一些數據科學實踐操作,以便更好地利用數據科學的優勢。
1. 在組織中建立專門的數據科學計劃
公司不能充分利用其數據科學能力的一個主要原因是缺乏專門的數據科學基礎設施。通常情況下,公司由兩到三個數據科學團隊組成,他們同時從事不同的工作。他們沒有成文的工作方式,也缺乏衡量他們完成的每項任務是否成功所需的指標。
此外,在許多情況下,這些團隊缺乏必要的技術支持,無法發揮其潛力。因此,這些團隊為企業的整體發展提供的價值并不大。
為了更好地利用其數據科學團隊未被充分利用的能力,每個企業都需要鼓勵建立一個數據科學計劃,其中包括:
1.數據科學計劃的目標
2.為自己配備必要的數據科學基礎設施(訓練有素的專家、性能優越的設備等)
3.交付路線圖
4.績效衡量標準
2. 創建有能力的團隊,而不是尋找獨角獸
獨角獸指的是一種神話般的生物,它像一匹馬,額頭上有角。在流行文化中,這個詞被用作比喻許多人渴望但難以獲得的東西。
在數據科學的語境里,獨角獸這個詞指的是一個人,更具體地說是一個數據科學家,他擁有企業所需的幾乎所有數據科學技能。
與獨角獸的定義一樣,數據科學獨角獸是一種罕見的現象。
這意味著,企業應該優先建立跨職能的數據科學團隊,而不是尋找一個全能型的人。
典型的跨職能或跨學科數據科學團隊由以下人員組成:
數據工程師,負責收集、轉換和匯集未經提煉的數據,為團隊其他成員提供可訪問和可用的信息。
機器學習專家,創建ML數據模型,以識別所收集數據的模式。
DevOps工程師,來部署和維護ML數據模型。
商業分析師,了解公司的要求以及它所瞄準的市場。
一個團隊領導,來正確引導團隊。
跨職能團隊是獨角獸的更好選擇,因為他們可以:
1.分擔工作量
2.在解決問題時提供不同的觀點
3.改善整體決策
3. 在著手解決問題之前,先徹底定義問題
能整體性地描述數據科學問題的能力再怎么強調也不為過,甚至包括描述最細微的細節。
揭示問題的細節使數據科學家能夠檢查其每個組成部分,并根據具體參數(例如優先級、清晰度、可用數據和投資回報率)對其進行衡量。這也使他們能夠確定處理該問題所需的主要和次要利益相關者。一旦定義了問題,數據科學家就可以將數據收集、分析和解釋系統化。
然而,這個看似基本的問題,卻沒有多少公司在開展數據科學業務時關注它。他們反而含糊其辭地解釋問題,使數據科學家的工作更加復雜。
因此,在嘗試解決問題之前,公司需要將其刨根問底,暴露其所有要素和要求。
4. 確保POC在明確的用例上運行
POC(概念證明)對于任何數據科學項目都至關重要,因為它們決定了數據模型或數據科學解決方案是否可行。它本質上是更廣泛的數據科學解決方案的測試用例,它決定了公司的數據科學計劃是否能夠滿足其需求。
首先,運行POC需要一個用例。而正是對用例的選擇,可以決定POC進入生產階段的前景。因此,數據科學家應該選擇最合適的用例,在運行POC時提供可量化的結果。
此外,用例應表示關鍵業務問題或一系列問題,以便為 POC 提供具體和相關的測量標準。
5. 確定并列出所有KPI指標
是什么決定了一家公司的數據科學工作是否取得了足夠的成果?就是與之并列的關鍵績效指標(KPI)。
目前,雖然大多數實施數據科學的公司都有一套業務目標,但他們缺乏一定的關鍵績效指標來監測他們實現這些目標的進展。
因此,企業需要預留某些可衡量的關鍵績效指標,如投資回報率、每個消費者的收入增長百分比、CSAT得分等,以確定其數據科學項目的可行性。
例如,如果企業部署了優化算法來增加收入,它可以使用月銷售額、網站訪問者數量等績效指標。
6. 強調對利益相關者的適當管理
根據數據科學術語,利益相關者是使用數據科學家提供的數據的個人。他們可以是內部的,例如使用數據促進業務增長的業務分析師,也可以是外部的,如使用數據科學家解釋數據結果的客戶。
現在,數據科學主要處理的是數據。但是,牢記計劃使用它的個人——利益相關者,也是必要的。
這樣做可以確保數據科學家不僅分析數據,還分析與之相關的人為因素。換句話說,管理利益相關者使數據科學家能夠與人一起合作,而不僅僅是數據。
為了有效管理利益相關者,數據科學家應實施以下策略:
1.建立透明的溝通渠道
2.將項目的所有可能結果進行反饋
3.尋求反饋
4.發起合作努力
7. 基于利益相關者的數據科學文檔
文檔對于任何數據科學項目都至關重要。
適當地記錄一個項目的所有方面,可以讓利益相關者更好地理解和利用其數據。
但是,無論文檔有多好,如果你不能將數據科學項目的具體內容傳達給正確的利益相關者,那么項目可能就不會變得那么有效。
因此,你應該根據所涉及的利益相關者的要求和專業來記錄一個項目,而不是采取"一刀切"的方式。
8. 學會用適當的工具來匹配數據科學工作
這一點似乎很明顯,但是將正確的數據科學項目與正確的工具配對需要高超的技能和對數據科學的適應性。
可以選擇的工具:
1.選擇合適的數據可視化軟件
2.衡量項目的云存儲容量
3.選擇合適的編程語言
4.評估當前數據科學基礎設施的可擴展性
5.確定解決手頭問題的正確方法
要做好這種數據科學操作的前提是,準備好工作所需的工具有助于數據科學家更快、更有效地處理數據。
9. 融入敏捷方法論
如果剝去所有的描述后進行概括,敏捷方法論指出,軟件開發應該分塊進行,溝通和互動是關鍵。
目前雖然有些人可能不同意,但將敏捷方法運用到數據科學項目中會有奇效。
敏捷框架基本上將一個項目分為幾個沖刺階段,時間限制通常為幾周,數據科學家在其中從事項目的特定方面。
每個沖刺都是在與利益相關者互動后啟動的,以概述其要求,確定利益相關者的預算,為他們提供交付計劃,并確定要完成的任務的優先級。
在每個沖刺階段結束時,都會進行審查以評估迄今為止所做的工作。
10. 掌握數據道德規范
數據模型的執行是客觀的,但數據科學家不是。因此,數據科學家必須建立不違反數據收集、分析和解釋的道德模型。
不遵守數據倫理可能會以多種方式嚴重影響公司的信譽和聲譽。
結論
以上就是10個數據科學最佳實踐操作指南的清單,可以幫助你的數據科學事業。
數據科學是一個快速發展的領域,其應用范圍與日俱增。如果實施得當,數據科學可以成為企業的重要組成部分,并大大促進其增長。唯一的問題是,公司應該為自己配備足夠的數據科學基礎設施,雇用合適的人,進行廣泛的合作并遵循上述最佳實踐操作指南,以使他們的數據科學成果發揮最大的作用。
譯者介紹
翟珂,51CTO社區編輯,目前在杭州從事軟件研發工作,做過電商、征信等方面的系統,享受分享知識的過程,充實自己的生活。
參考鏈接:https://www.datasciencecentral.com/10-best-practices-for-data-science