數(shù)據(jù)科學(xué)家的開源社區(qū)分析指南
在數(shù)據(jù)分析的黃金時代,開源社區(qū)也不能免俗。大家都熱衷于將一些華麗的數(shù)字放到演示幻燈片上,但如果你掌握了正確的分析方法,這些信息可以為你帶來更大的價值。
或許你認(rèn)為作為一名 ??數(shù)據(jù)科學(xué)家??,我會告訴你數(shù)據(jù)分析和自動化能為你的社區(qū)決策提供信息。但實際上,情況恰恰相反。利用數(shù)據(jù)分析來構(gòu)建你現(xiàn)有的開源社區(qū)知識,吸收其他的知識,并發(fā)現(xiàn)潛在的偏見和沒有思考過的觀點。你或許是實施社區(qū)活動的專家,而你那些同事則是代碼方面的專家。當(dāng)你們每個人都在自己的知識背景下將信息可視化時,你們都可以從這些信息中受益。
讓我們來面對現(xiàn)實吧。每個人都有一千零一件事情要做,而且總感覺一天的時間永遠(yuǎn)不夠用。如果需要幾個小時才能得到你的社區(qū)的答案,你就不可能有足夠的精力去解決這些事情。但是,花時間創(chuàng)建一個全面發(fā)展的可視化項目,可以幫助你時刻掌握你所關(guān)心的社區(qū)的不同方面,這就將你從精疲力盡中解放了出來。
隨著“數(shù)據(jù)驅(qū)動”思維的盛行,圍繞開源社區(qū)的信息寶庫可能是一種祝福,也可能是一種詛咒。下面我將分享一些方法,告訴你如何從數(shù)據(jù)干草堆中挑出有價值的信息。
你的預(yù)期是什么?
當(dāng)考慮一個指標(biāo)時,首先要明確你想提供的觀點。以下是幾個可能涉及的概念:
告知性和影響性的行動: 你的社區(qū)是否存在某個領(lǐng)域尚未被理解?你是否已邁出第一步?你是否試圖確定特定方向?你是否正在衡量現(xiàn)有倡議的效果?
暴露需要改進(jìn)的領(lǐng)域和突出優(yōu)勢: 有時你想宣傳你的社區(qū),突出它的優(yōu)勢,特別是在試圖證明商業(yè)影響或為項目宣傳時。然而,當(dāng)涉及到向社區(qū)內(nèi)部傳遞信息時,你通常需要從一堆指標(biāo)中精準(zhǔn)的找到你們的缺點,以此來幫助你們改進(jìn)。雖然突出優(yōu)點并非不可取,但需要在適當(dāng)?shù)臅r間和地點。不要把優(yōu)勢指標(biāo)作為社區(qū)內(nèi)部的拉拉隊,告訴每個人都有多棒,而是要與外界分享,以獲得認(rèn)可或推廣。
社區(qū)和商業(yè)影響: 數(shù)字和數(shù)據(jù)是許多企業(yè)的語言。但是這可能使得為你的社區(qū)進(jìn)行宣傳并真正展示其價值變得異常困難。數(shù)據(jù)可以成為用他們的語言說話的一種方式,并展示他們想看到的東西,以使你數(shù)據(jù)背后的潛在含義能夠被有效轉(zhuǎn)達(dá)。另一個角度是對開源的整體影響。你的社區(qū)是如何影響他人和生態(tài)系統(tǒng)的?
這些觀點并非非此即彼,而是相互關(guān)聯(lián)的。適當(dāng)?shù)目蚣軐⒂兄趧?chuàng)造一個更深思熟慮的衡量標(biāo)準(zhǔn)。
數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的工作流程
當(dāng)人們談?wù)撏ㄓ玫臄?shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)工作時,通常會描述這樣的工作流程。我將重點關(guān)注第一步,即編寫問題和度量標(biāo)準(zhǔn),并簡要提及第二步。從數(shù)據(jù)科學(xué)的角度來看,這個演示可以被視為這個步驟的一個案例研究。這一步有時會被忽視,但你的分析的實際價值始于此。你不能一天醒來就知道要看什么。從理解你想知道什么和你所擁有的數(shù)據(jù)開始,逐步實現(xiàn)更加深度的數(shù)據(jù)分析。
3個開源數(shù)據(jù)分析用例
以下是您在開源數(shù)據(jù)分析過程中可能遇到的三種不同場景。
場景 1:現(xiàn)有數(shù)據(jù)分析
假設(shè)你開始進(jìn)行分析,并且已經(jīng)知道你將要研究的內(nèi)容對你或你的社區(qū)是有用的。那么你該如何提高分析的價值呢?這里的想法是建立在“傳統(tǒng)”的開源社區(qū)分析基礎(chǔ)之上。假設(shè)你的數(shù)據(jù)表明,在項目的整個生命周期內(nèi),你共有 120 個貢獻(xiàn)者。這是你可以放在幻燈片上的價值,但你不能從中做出決策。從僅有一個數(shù)字到獲得洞見,逐步采取措施。例如,你可以從相同的數(shù)據(jù)中將貢獻(xiàn)者分為活躍和流失的貢獻(xiàn)者(那些已經(jīng)有一段時間沒有做出貢獻(xiàn)的貢獻(xiàn)者),以獲得更深入的了解。
場景 2:社區(qū)活動的影響測量
目標(biāo)和影響
針對聚會、會議或其他任何社區(qū)外聯(lián)活動,你如何看待你的影響力和目標(biāo)?這兩個步驟實際上互相影響。一旦你確定了活動的目標(biāo),就要確定可以用什么來檢測效果。這些信息有助于設(shè)定活動的目標(biāo)。在活動開始時,很容易陷入模糊的計劃而非具體的計劃的陷阱中。
場景3:形成新的影響分析區(qū)
新的分析區(qū)
當(dāng)你從頭開始進(jìn)行數(shù)據(jù)分析時,就會出現(xiàn)這種情況。前面的例子是這個工作流程的不同部分。這個工作流程是一個不斷發(fā)展的循環(huán);你可以隨時進(jìn)行改進(jìn)或擴(kuò)展。基于這個概念,以下是你應(yīng)該經(jīng)歷的必要步驟。在本文的后面,將會有三個不同的例子,展示這種方法在現(xiàn)實世界中的應(yīng)用。
第一步:分解關(guān)注區(qū)和視角
首先,想象一下魔法 8 球——你可以問任何問題,搖一搖,就能得到答案的玩具。考慮你的分析領(lǐng)域。如果你能立即得到任何答案,那會是什么?
接下來,考慮數(shù)據(jù)。從你的魔法 8 球問題中,哪些數(shù)據(jù)源可能與問題或關(guān)注領(lǐng)域有關(guān)?
在數(shù)據(jù)背景下,哪些問題可以回答,讓你更接近你提出的魔法 8 球問題?需要注意的是,如果你試圖將所有的數(shù)據(jù)匯集在一起,你必須考慮到所做出的假設(shè)。
第二步:將問題轉(zhuǎn)化為指標(biāo)
以下是第一步中每個子問題的處理過程:
- 選擇所需的具體數(shù)據(jù)點。
- 確定可視化以實現(xiàn)目標(biāo)分析。
- 假設(shè)這些信息的影響。
接下來,引入社區(qū)提供反饋并觸發(fā)迭代開發(fā)過程。這個協(xié)作部分可能就是真正的魔力所在。最好的想法通常是在將一個概念帶給某個人時產(chǎn)生的,會激發(fā)他們的靈感,這是你或他們無法想象的。
第三步:分析實踐
這一步是你開始處理你所創(chuàng)建的指標(biāo)或可視化的影響。
首先要考慮的是,這個度量標(biāo)準(zhǔn)是否符合當(dāng)前對社區(qū)的了解。
- 如果是:是否有假設(shè)得出的結(jié)果?
- 如果不是:你需要進(jìn)一步調(diào)查,是否這是一個潛在的數(shù)據(jù)或計算問題,或者只是先前被誤解的社區(qū)的一部分。
一旦你確定你的分析足夠穩(wěn)定,可以開始在信息上實施社區(qū)倡議。當(dāng)你正在進(jìn)行分析以確定下一步最佳步驟時,你應(yīng)該確定衡量倡議成功的具體方法。
現(xiàn)在,觀察這些由你的指標(biāo)提供信息的社區(qū)倡議。確定是否可以用你之前建立的成功衡量指標(biāo)觀察到影響。如果沒有,可以考慮以下幾點:
- 你是否在衡量正確的事情?
- 倡議戰(zhàn)略是否需要調(diào)整?
分析區(qū)的例子:新貢獻(xiàn)者
魔法 8 球問題是什么?
- 如何分析哪些人為持續(xù)的貢獻(xiàn)者?
我有什么數(shù)據(jù)可以納入分析區(qū)和魔法 8 球問題?
- 倉庫存在哪些貢獻(xiàn)者的活動,包括時間戳?
現(xiàn)在你有了這些信息和一個魔法 8 球問題,把分析分成幾個子部分執(zhí)行。這個想法與上述步驟 2 和 3 相關(guān)。
子問題 1: “人們是怎么進(jìn)入這個項目的”
這個問題的目的是先看看新的貢獻(xiàn)者在做什么。
數(shù)據(jù): GitHub 上的首次貢獻(xiàn)隨時間推移的數(shù)據(jù)(議題、PR、評論等)。
每季度首次貢獻(xiàn)圖表
可視化: 按季度劃分的首次貢獻(xiàn)條形圖。
潛在的意義: 在你與其他社區(qū)成員交談后,進(jìn)一步檢查按季度細(xì)分的信息,以及貢獻(xiàn)者是否為重復(fù)貢獻(xiàn)者或僅僅是路過。你可以看到人們進(jìn)來的時候在做什么,以及這是否能告訴你他們是否會留下來。
每季度路過貢獻(xiàn)圖標(biāo)
從這些信息中了解到的可以采取的行動。
- 目前的文檔是否能夠幫助到最常見的新手?你能不能更好地幫助和支持新人朋友,這將有助于他們中更多的人留下來?
- 是否有一個貢獻(xiàn)領(lǐng)域在整體上并不常見,但重復(fù)貢獻(xiàn)者卻集中在這個區(qū)域?也許 PR 是重復(fù)貢獻(xiàn)者的一個常見區(qū)域,但大多數(shù)人卻不在這個區(qū)域工作。
行動項目:
- 給 “好的第一個問題” 貼上一致的標(biāo)簽,并將這些問題鏈接到貢獻(xiàn)文檔中。
- 在這些問題上添加一個 PR 伙伴。
子問題 2: “我們的代碼庫真的依賴于路過的貢獻(xiàn)者嗎?”
數(shù)據(jù): GitHub 的貢獻(xiàn)數(shù)據(jù)。
貢獻(xiàn)者類型隨時間變化的圖表
可視化: “貢獻(xiàn)總額:按路過和重復(fù)貢獻(xiàn)者的貢獻(xiàn)進(jìn)行細(xì)分。”
根據(jù)這一信息可能采取的行動。
- 這個比例是否達(dá)到了項目的目標(biāo)?很多工作都是由路過貢獻(xiàn)者完成的嗎?這是否是一種未被充分利用的資源,項目是否沒有盡到自己的責(zé)任來吸引他們?
分析:吸取教訓(xùn)
數(shù)字和數(shù)據(jù)分析并不是“事實”,它們可以支持任何觀點。因此,在處理數(shù)據(jù)時,內(nèi)部懷疑者應(yīng)該非常積極,并進(jìn)行反復(fù)迭代,以帶來真正的價值。你不希望你的分析只是一個 “yes man”,因此花點時間退一步,評估你所做的假設(shè)。
如果一個指標(biāo)只是指出了調(diào)查的方向,那也是一個巨大的勝利。你不可能看清或想到所有的事情,兔子洞可以是一個好事,對話的起點可以把你帶到一個新的地方。
有時,你想測量的東西恰恰不在那里,但你也許能得到有價值的細(xì)節(jié)。不要假設(shè)你有所有的拼圖碎片來獲得你最初問題的準(zhǔn)確答案。如果你開始強(qiáng)迫一個答案或解決方案,你會把自己帶入一條由假設(shè)引領(lǐng)的危險道路。為分析的方向或目標(biāo)的改變留出空間,可以讓你獲得比最初的想法更好的洞察力。
數(shù)據(jù)只是是一種工具,并不是標(biāo)準(zhǔn)答案,它可以匯集原本無法獲得的見解和信息。將你想知道的東西分解成可管理的小塊,并在此基礎(chǔ)上進(jìn)行分析,這是最重要的部分。
開源數(shù)據(jù)分析是一個很好的例子,說明你必須對所有的數(shù)據(jù)科學(xué)采取謹(jǐn)慎態(tài)度。
- 主題領(lǐng)域的細(xì)微差別是最重要的。
- 通過“問什么/答什么”的工作過程經(jīng)常被忽視。
- 知道“問什么”可能是最難的部分,當(dāng)你想出一些有洞察力和創(chuàng)新的東西時,這比你選擇的任何工具都要重要。
如果你是一個沒有數(shù)據(jù)科學(xué)經(jīng)驗的社區(qū)成員,正在尋找開始的地方,我希望這些信息能告訴你,你在這個過程中是多么重要和寶貴。你帶來了社區(qū)的洞察力和觀點。如果你是一個數(shù)據(jù)科學(xué)家或?qū)嵤┲笜?biāo)或可視化的人,你必須傾聽你周圍的聲音,即使你也是一個活躍的社區(qū)成員。關(guān)于數(shù)據(jù)科學(xué)的更多信息列在本文的最后。
總結(jié)
把上面的例子作為建立你自己的開源項目的數(shù)據(jù)分析的框架。對你的結(jié)果有很多問題要問,知道這些問題和它們的答案可以把你的項目引向一個令人興奮和富有成效的方向。