遠不止編碼:如何規劃組織數據科學及分析項目?
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)。
執行一個數據科學/分析項目從來不是一件容易的事情。一個成功而全面的分析項目遠遠不止是編碼,它還涉及復雜的設計和大量的溝通。
什么是分析項目的生命周期?
要完成一個數據科學/分析項目,你需要經歷五個主要階段,從了解問題和設計項目,到收集數據、進行分析、展示結果,記錄和自我反思。
筆者強烈地感受到,運行一個分析項目和建造一座房子非常相似。首先,建筑師滿足其客戶,了解需求并提出一個可行的藍圖(理解和規劃)。然后需要收集建筑材料,如水泥、鋼材、磚塊等。你必須了解建筑材料的特點,并選擇合適的建筑材料。否則,房子可能會很容易倒塌。
這就像一個數據收集過程,你必須做一些EDA或特性工程來理解數據,并找到正確的數據來解決問題,否則可能無法從分析中獲得可靠具體的結果。
有了建筑材料和藍圖,就可以開始建造房子了(運行分析)。施工結束后,要進行現場檢查和質量檢查,以確保安全。同樣,我們需要記錄分析項目的方法、結論和局限性。
1. 理解和規劃
如果有人問我整個周期中最關鍵的階段是什么,我會毫不猶豫地說理解和規劃,因為數據科學和分析的主要目的不是用花哨的技術創建一個項目,而是解決實際問題。
因此,分析項目的成功在很大程度上取決于理解程度、對問題的定義以及將業務問題轉化為分析問題的程度。從這個角度來看,花時間考慮分析項目更廣泛的背景總是值得的。
2. 提出問題
通常一個分析項目從與合伙人的會議開始,你會與商業伙伴見面。他們將提供一些背景,并簡要介紹需求,提出明智的問題能讓你更好地理解客戶的痛點和需求。
3. 分析計劃
在深入分析之前,先制定一個分析計劃,并安排另一個后續會議來回顧問題并強化預期。這個計劃將提供一個高層次的計劃概覽,給出下一個步驟的清晰藍圖,并從業務方面指出技術行動和廣闊藍圖之間的聯系。以下是我分析計劃中的一些關鍵元素:
不要讓數據科學和技術變得晦澀難懂。試著用通俗的語言對這些方法進行簡要描述,概述用例和場景,總結其優勢和局限性。避免使用復雜的公式或函數,而是專注于該方法如何幫助解決問題。
完成一個分析項目可能需要幾周時間,有時甚至更久。一個項目所花費的時間越長,某些變數對工作造成不利影響的可能性就越大。因此,項目開始之前,第一件事是分解完成項目必須要做的所有步驟。然后根據所需的大致時間來完成這些任務,并記錄每個重大突破。
建議在項目的中間設置一些簽入點,以便與涉眾交流并獲得他們的反饋,這樣就可以進行及時的調整,而不只是做一個最后的演示。
如何組織項目并跟蹤進度
1. 利用項目管理工具
當你在做一個復雜的分析項目,且需要與多個團隊(如工程、產品和業務等)協作時,一個簡單的待辦事項列表或基于excel的跟蹤器就無法滿足需求了。
你可以利用專門的項目管理工具和軟件。如果你用谷歌和簡單的搜索項目管理工具會發現很多,比如Asana、Trello、JIRA、Monday.com等等。你可以根據團隊規模和喜歡的工作方式找到合適的工具。
這個概念征服了我,因為它是一個集多個工作應用于一身的多功能工作區。為了不同的目的而擁有多種工具并不可取,所以可以想象,“多功能”是最有效的營銷信息。對我來說,在一個地方做計劃、跟蹤、知識共享和寫博客是一個很好的選擇,它還提供了一些模板來幫助制定旅行計劃以及跟蹤求職進度。
圖源:unsplash
2. 迭代策劃會議( Sprints Planning)
一個強大的工具就像私人助理。那么如何保證合作,使項目運轉起來?來談談迭代策劃會議。
對于那些不熟悉sprint概念的人來說,迭代策劃是一個短期的、有時間限制的時間段,這個時間段內,團隊工作以完成一定數量的工作。迭代策劃使項目更易于管理,允許團隊更快、更頻繁地交付高質量的工作,并使他們能夠更靈活地適應變化。
進行迭代策劃會議的首要任務是確定時限。盡管沒有硬性規定每個sprint應該有多長時間,但它必須足夠長才能確保任務能夠完成,同時它也必須足夠短,以便需求和目標保持不變。
在迭代策劃會議上,整個團隊將在接下來的迭代策劃中調整目標,并計劃有助于實現該目標的工作。這些任務將被逐條列出,按優先級排列,分配給團隊成員,并記錄到接下來的迭代策劃董事會中。
3. 日常反饋
迭代策劃會議是明確未來要實現的目標和交付的任務,以推動項目的進展,而每天5到10分鐘的自由討論會議將有助于使計劃與執行保持一致。更具體地說,這是為了讓團隊保持一致,明確優先級,避免一些常見的阻礙因素。
簡要來說,下面是每個人都會回答的三個基本問題:
- 你昨天做了什么?
- 你今天做什么?
- 是什么阻礙了你?
不要忽視記錄和反思的重要性
我已經在數據分析、數據科學領域工作了六年多,多希望能在我開始職業生涯時就可以明白——記錄和反思與分析本身同樣重要。你做的所有的分析項目可能在簡歷中成為一個閃光點,并成為面試的話題,總結和框架分析工作一旦完成非常有利于發現新的天地,并鞏固所有的內容和架構。
對你的分析進行記錄和架構
你可以按照這個框架來處理情況、問題、解決方案和下一步行動(SPSN)。
首先,描述當前的狀態和痛點,然后描述問題并指出這個項目的業務影響。
最關鍵的部分是解決方案,在該解決方案中,你將在較高的層次上概述這些方法,并逐步提供有關數據和分析的細節。然后將分析產生的結果、見解和可操作的建議記錄下來。
請注意,沒有完美的數據科學項目。開誠布公地談論項目的注意事項和局限性,既要提出你的分析可以解決的問題,又要了解什么樣的問題是不能回答的。
最后一部分是測試提高準確性的新方法,包括新的數據源,或者自動化整個過程,以使結果每天都顯示出來等等。同時,不要忘了做自我反省,創建一個網格,把你在每個分析項目中遇到的一些例子和情況分成下面五個類別。
這一定能幫助你更順利地實現整個過程的分析/數據科學項目!