平均值真的是最優解嗎?何不試試用數據分箱進行結構化分析
本文轉載自微信公眾號「數據萬花筒」,作者數據打工人森夏恩。轉載本文請聯系數據萬花筒公眾號。
平均值是數據分析中常用的方法,是利用特征數據的平均指標來反映業務目前所處的位置和發展水平。平均值雖好,但是它真的可以反應業務的真實形態嗎?答案當然是否定的。平均值很容易抹平個體之間的差異,因此很多時候個體暴露的問題很難從平均值中得到體現,所以說平均值并不是最優解。
一、為什么平均數不是最優解
舉幾個例子來說,郭敬明和姚明的身高的平均值是190.5cm,那我們可以認為國人的平均身高是190.5cm嘛?
在舉個例子來說,馬云的財富值是4377億元,而小編的財富值只有1萬元,我和馬云財富的平均值是2189億元,這樣一算小編好像也可以躋身富豪榜了,但真的是這樣的嘛?這顯然不能以這個平均值代表小編的收入水平,更不能代表國民收入水平。
同樣的案例,2019年人均國民收入10410美元,你又被平均了嗎?“二八法則”在現實生活中還是普遍存在的,20%的人掌握了80%的財富,馬云這樣的富豪拉高了我們的收入水平,所以平均值很多情況下會抹平個體之間的差異,使得個體層面的信息很難在數據層面有展現,因此平均數雖然方便,但是在很多情況下并不是最優解!
二、結構化分析是什么
平均數容易掩蓋個體差異,很多情況下業務的真實情況都會被平均數,因此相比平均數,結構化分析能夠更好地看出各類用戶之間的差異。結構化分析換句話說就是用戶分箱,即將圈定的用戶群體按照組成成分或付費金額等維度劃分區間對其進行分組,而后討論每一個組別之間的差異,這就是結構化分析。
2.1 以DAU變化為例詮釋結構化分析
結構化的分析思想在數據指標異動分析模塊就有體現,我們還是以DAU為例講一講結構化分析,讓大家更加清晰地理解結構化分析。
近七天的DAU逐漸走低,看到這個現象之后想要定位DAU持續走低的原因,這時候就可以用到結構化分析,即按照DAU的組成成分分析,定位到底是哪一部分的人數減少。這個例子當中,我們將DAU拆解成新用戶和老用戶之后,發現這七天新用戶占比基本不變,而老用戶占比持續減少。老用戶占比持續走低是DAU持續下降的原因,說明用戶粘性不好,可以告訴老板應該推出一些激勵活動刺激用戶,提升用戶粘性!
2.2 以營收分析為例詮釋結構化分析
在營收付費方面結構化分析就更加常用了,因為經常存在20%的用戶貢獻了80%收入的情況,所以對用戶進行分箱處理進而進行結構化分析是非常重要的,最終可以朝著實現用戶分層運營的方向努力!
對于營收方向的的結構化分析,一般情況下通過用戶的付費金額對用戶進行分組并貼上標簽,然后在計算每一個組別的用戶占比。用統計學的術語來說就是統計用戶付費情況的分布,即各個標簽下用戶的分布情況。
通過統計結果,我們可以發現5%的頭部用戶貢獻了75%的營收,和“二八法則”描述的情況非常相似,只不過這個例子中頭部用戶的購買力更強!
有了上述的用戶標簽和用戶付費分布之后,對于業務的監控、業務波動原因的定位以及業務提升的建議等都是非常用幫助的。
這里舉個例子進行說明,某段時間,業務營收數據出現了下滑,數據分析師們就可以通過結構化分析定位下滑的原因并給出一些合理的意見和建議。通過結構化分析我們可以發現營收下滑的原因是中R用戶數量出現下滑,提升中R用戶數量是增加營收的關鍵。
三、如何更加高效地做結構化分析
看到這里,你是不是你也覺得結構化分析比平均數好用多了,可以看出各個層級的用戶在相關維度上的特征,方便地定位業務波動的原因給出業務合理的意見和建議。結構化分析涉及到了用戶分箱、用戶標簽、指標體系和報表體系等多方面的知識,如何高效快捷成體系地應用結構化分析是我們值得思考的一個問題。
其實結構化分析并不需要每次都從頭開始做,我們完全可以將其固化為監控報表即可。當然在做報表之前,我們需要確定研究的對象,到底是以人還是貨亦或訂單為研究對象;其次選定監控指標,確定是要研究用戶活躍還是用戶付費亦或其他指標;然后根據業務含義對數據進行分箱處理,對用戶打上分類標簽;最后選取合適的數據維度對不同層級的用戶進行監控,沉淀為一張張的報表。
最終結構化分析還是回歸到了數據報表,遇到問題時就不需要在做臨時取數,也不需要額外占用其他時間去分析了。從另一個層面來說,結構化分析是一種分析方法,更是數據指標體系的一環,只要指標體系做得足夠好,數據分析師的臨時取數需求就能變少。說到這里,你不難發現其實數據分析的大多數方法論都是用一組有邏輯的指標,梳理清晰的標桿,長期監控業務變化,從而可以快速定位業務問題得出結論!
參考文章
https://mp.weixin.qq.com/s/kZ8mdaAqJPRnABljijuhsQ