如何做好大數據分析?你需要這個思維框架
數據分析,拆開來看其實是幾個方面:工具、理論、業務
工具,指的是我們從事數據分析所使用的具體工具,如 SQL、Excel、Python、R、SAS等;
理論,指的是我們從事數據分析時所依賴的理論基礎,如概率論、統計學、機器學習及相關的建模和分析框架;
業務,指的是數據分析落地的具體場景,輸入和輸出以及要解決的具體問題。
工具和理論都是比較容易速成的,這也是為什么各類網課主要集中在這些領域。
業務是依賴于在行業的經驗,因此,轉行最好先在同行業里面轉,可以借用之前對于行業的業務理解,快速上手。
以上三個方面固然重要,但并不是數據分析的全部。還需再加一個維度,就是思維模式。
也就是,我們除了數據分析的工具、理論以及業務知識,還需要具備數據分析的思維。
那么什么叫做數據分析思維呢?
我認為可以分為三個方面:
01 定量思維
迪斯尼通過草坪規劃道路的故事大家也許都聽過:
在迪斯尼樂園提前開放的半年里,草地被踩出許多小道,這些踩出的小道有寬有窄,優雅自然。第二年,格羅培斯讓人按這些踩出的痕跡鋪設了人行道。1971年在倫敦國際園林建筑藝術研討會上,迪斯尼樂園的路徑設計被評為世界最佳設計。
后來,迪斯尼還推出了 MagicBand,這個手環可以在園內支付,可作為酒店房卡,可以用來當 FastPass,可以用來停車等等,通過這些環節收集的數據,就可以知道哪幾個項目最熱門,哪幾個項目不太熱門,什么位置餐廳人滿為患,說明還需要增加配置,什么地方餐廳無人問津,可能要做優化……
等等,時間一長,積累的數據就有了各種價值,看起來無法測量的東西,通過巧妙的收集數據,都可以測量。
這就是數據思維第一條,萬物皆可測。
02 相關思維
大數據時代,隨著算力的不斷加強,原來小樣本的計算已經可以升級為全樣本計算,并且可以發現變量間的相關關系,用來代替原來小樣本中推導出的因果關系。
最經典的例子就是08年的 Google Flu:
Google流感趨勢(Google Flu Trends,GFT)是Google于2008年推出的一款預測流感的產品。Google認為,某些搜索字詞有助于了解流感疫情。Google流感趨勢會根據匯總的Google搜索數據,近乎實時地對全球當前的流感疫情進行估測
一個搜索行為,和一個疾病的發生,看似不相關的兩件事情,存在強相關,這在原來是不可想象的。
不過,盡信數據不如無數據,一定要找到業務含義。
就拿 Google Flu 來說,在研究成果公布以后,研究人員發現結果不再準確了。經過反復確認和調研,發現因為很多人得知了這項成果,抱著好奇的心態嘗試搜索關鍵字——盡管他們周圍并未出現相關病例,導致預測結果不再準確。
當你觀測的對象知道你在觀測他的時候,觀測結果就不再準確了。
03 實驗思維
告別拍腦袋決策,告別依賴個人審美決策,告別依賴個人經驗決策,通過實際的數據表現來決策。同時,根據實驗結果不斷的迭代和優化模型。
當然,實驗的前提是測量,必須先將所有實驗的數據采集下來,才能根據實驗數據進行決策,同時,根據數據分析的結果,可能某些人群針對某個方案更加有效,這又會用到相關思維,即某些要素的相關性決定了最后的數據表現。
通過以上三個思維模式,我們可以將實際中的業務問題進行拆解,轉化為數據分析問題。
這么說可能還是比較抽象,具體來看看如何應用。
在廣告營銷領域,有一個著名的說法
這是相當長的一段時間,廣告營銷行業最大的痛點,蒙著眼睛放廣告,來了客戶也不知道是廣告帶來的,還是自己找上門來的,或者其他渠道推薦來的。
那么,用上數據分析思維的廣告營銷,會變成什么樣子呢?
運用定量思維,那就是營銷效果要可以度量。一個廣告投出去,我需要知道到底帶來了多少轉化,每個渠道的轉化率怎樣,以及這些客戶的后續活躍程度如何,是不是假量?是不是羊毛黨?是不是僵尸戶?等等。
那么如何度量呢?我們自然可以想到,要檢測轉化率,那就要對每個渠道進來的客戶打標簽,定期出報表,監控每個標簽下客戶的活躍情況等等,自然的就形成了客戶分群經營,分群營銷,分群活動投放等等策略。
運用相關思維,那就是通過相關性分析,使得廣告的投放更加精準。減少無效的廣告投放,在更相關的人群上投放他們感興趣的廣告,提升轉化率,節省營銷費用。
那么如何進行相關性分析呢?通過前期采集的數據,使用 Apriori 、Collaborative Filtering 等算法,找出用戶特征、用戶行為及其最終購買之前的相關關系,從而優化投放及推薦模型。
運用實驗思維,那就是通過實驗,判斷哪個投放模型更優,哪個投放渠道更優,同時根據反饋不斷迭代和優化模型。
那么如何進行實驗呢?自然是通過 A/B Test 方法,隨機均分流量到不同的投放模型上,同時采集客戶的反饋,不斷的根據反饋迭代和優化模型。
總的來說,做好數據分析,除了掌握工具、理論和業務,還需要具備數據分析的思維,有了數據分析的思維框架,更容易將業務、理論和工具貫通,形成自己的數據分析框架,更好、更有效的進行數據分析工作。