最接地氣的數據分析詳細流程,看這篇就夠了!
什么是數據分析?
無論你是剛接觸數據分析,還是一位分析大神,我想很多人都不知道,數據分析究竟是什么,或者說數據分析的本質是什么。
其實很多公司和企業,也不明白數據分析是什么,很多人從網上看到公司招數據分析師,進入了之后發現是做什么的呢?就是天天用sql取數給業務用,十分機械而且也沒成就感。
這叫做數據分析嗎?當然不叫!所以我們要先對數據分析有個整體的認知。
先看一下教科書上的定義:
- 數據分析是用恰當的統計分析方法對收集來的大量數據進行分析,然后加以處理和加工,以開發數據的功能、挖掘數據的價值,主要目的是為了清洗出有用的信息并形成結論。
這個定義過于繁瑣,很多剛剛接觸數據分析的人都不一定能看得懂,因此我自己給數據分析下了個定義:
- 數據分析,就是針對某個問題,將獲取后的數據用分析手段加以處理,并發現業務價值的過程。
大家可以看到我把五個關鍵詞給標紅了,這一句話,基本上可以包含數據分析所必須的流程點,我們一個個講。

一、問題
首先第一個關鍵詞是“問題”,我們可以把這個詞解釋“發現問題”或者是“目標”。
數據分析一定要有目標!哪怕業務人員給你提出的問題或者需求,根本不是那么明確和清晰,你也要找到自己要分析的目標!舉個最簡單的例子,業務方最近新上線了一個功能,想讓你分析一下目前這個功能的使用情況。這時候你該怎么做?
你會覺得“分析業務功能情況”是目標,然后根據這個模糊的目標你只能做一些描述性的統計分析,告訴業務方每天UV的最大值,最小值,中位數,平均數,方差,標準差……看起來很厲害的樣子,但這些數據有啥意義呢。這樣子的目標就是在做樣子,應該怎么做呢?
要明確業務方的需求是什么,然后分析業務最終的目的,把這個目的進行拆解;比如剛才的例子,業務真正想要了解的是什么,是這個新功能的目的,是為了提升客戶的留存率?還是為了提升客戶的轉化率?還是其他的?然后再把這個目的給拆解,確定我們的指標,然后再進行分析。這才是真正的目標思維。
二、獲取
第二個關鍵詞是“獲取”,叫做“數據獲取”或者“數據采集”
數據采集就是將原始數據從數據庫中取出來,主要工作是:搞清楚數據放在哪里+怎么把數據取出來。
1、數據存放在哪里?
很簡單的答案,很多人都知道公司的業務數據一般都是放在數據庫里的,但是相同的數據庫,數據源不一樣相同,我們所取的數據一定保證數據源的一致,否則會造成數據混亂。
比如說,不同的數據存儲系統,mysol、oracle、sqlserver等等,數據倉庫結構以及各庫表之間的關聯方式也可能有所不同,星型?雪花型?數據指標是否相同,名稱、含義、字段類型、約束條件等等?是否經過了ETL處理,清洗規則是什么樣的?這些都是我們在進行數據提取之前所必需了解的。
2、那么怎么把數據取出來呢?
其實只要搞清楚了數據放在那里,取出來就是水到渠成的事情。一般來說SQL是進行數據采集的必備技能,目前也是數據分析實際業務場景中最常使用的取數方式。當然了,能取出什么樣的數據,也要看你是否精通sql,比如單張數據庫表的提取很容易就做到了,但是跨表查詢提取的時候很多人就不行了。再比如更為復雜一點的復雜查詢、聯機處理等等,這些做數倉的人用的很多,我們數據分析師不必設計這么深,我們只要熟練掌握就行了;當然,有很多數據分析師最后也做了數倉師、架構師,如果你以后考慮往這個方向發展,sql肯定是要精通的。
三、數據
第三個關鍵詞是“數據”,這里說的數據是廣義上的數據,包括數據庫中的數據,也可以概括為數據場景,也可以理解為經過清洗后的數據。總之,這個數據指的是我們可以直接拿來分析的信息,而不是一堆臟亂差的原始數據。
1、數據庫數據
數據庫數據這里就不細講了,我們只要知道數據庫中的數據都有哪些就行了,比如業務數據、日志數據之類的。
2、數據場景
很多人都問我為什么看資料看的好好的,一到實際業務場景中都歇菜了?這是因為在實際業務分析中,我們分析的不是數據,而是場景。那我們怎么根據場景找數據呢?最重要的方法是建立分析指標體系:
我很喜歡用點線面體的定義來解釋指標體系,如果用點線面來解釋,搭建分析指標體系就是分析整個“體”,將分析框架的體系化,明確每個點都是什么指標,任何一個分析路徑都能對應到指標。指標體系搭建一般都是要放在數據提取之前做的工作,方便我們這一步的數據清洗。以電商為例,我們在取數前遵循“人貨場”的思維邏輯,這就是我們的體,我們的大體指標框架。然后我們要找人貨場各自的業務邏輯,也就是場景,電商常用的業務分析場景有哪些呢?無非就是銷售、商品、渠道、競品、會員等等,這就是我們的面。而商品可進一步細分為商品的庫存、商品的利潤以及關聯銷售分析,這就是線和點。
總結起來就是,在整個業務分析體系中,確保先分析什么,后分析什么,從體及線,從線及點,有了點,我們就知道該需要什么數據了。
3、清洗數據
數據分析工作里數據清洗基本上比較占時間,包括臟數據的排除、重復數據檢索、無效數據等等,如果你的數據源比較混亂,那么還需要篩選數據指標、整合核心數據等等工作,總體來說比較耗費精力。最后要注意一點,很多人喜歡采集大數據,認為數據越多越好,不管什么規則、質量好壞,這是不對的,我們在進行數據獲取的時候,一定要保證我們數據的質量,避免臟亂差數據。
四、分析手段
這里就是我們狹義上所說的數據分析了,根據實際場景需要可以分為四種:描述分析、統計分析、挖掘分析、建模分析
1、描述分析
其實就是數據分析思維,其實業務很喜歡讓你做描述性的分析,因為不會用到算法之類的東西,業務能看得懂,就能跟你扯皮。描述分析包括:
- 對比、細分、趨勢等三大基礎思維
- 結構化、演繹推理、假設等常用分析思維
- 指標思維、系統思維等常用業務思維
2、數理分析
數理分析,基本要用到一些數理統計學基礎的分析方法,比如:
- 分類分析
- 聚類分析
- 相似分析
- 假設檢驗分析
- 回歸分析
- ...........
3、建模分析
第三個是建模分析,也就是數據分析模型,常見的一些我們都會講到:
- 波士頓模型
- ABtest模型
- RFM模型
- 購物籃模型
- ...........
4、挖掘分析
最后就是挖掘分析,基于我們的一些數據分析和挖掘工具,比如常用的excel和python、BI等,這里不多做介紹。
五、業務價值
最后一個關鍵詞是“業務價值”,這是數據分析最核心也是最終的目的企業是做什么的呢?企業的作用是向市場提供產品或服務,為客戶創造價值。那我們數據分析就是為企業提供服務和產品,為企業創造價值。價值體現在兩點:一是將盈利時間拉長,一是將單位時間內盈利量做大。第一點,需創造的價值讓越來越多的客戶知道并認可,獲得用戶粘性,從而實現持續增長,其實就是用戶體驗;第二點,需提高企業創造價值的效率。所以我們要做的數據分析也要跟緊緊貼合這兩個點,這就要求我們在進行數據分析最后一步——數據可視化、數據報告等等時,要緊緊貼合業務,給領導或者業務最想看的數據,這也是一門學問。