因果推斷的四個模型,的確管用!
因果關系推斷,可以說是數據分析領域最難的問題之一,爭吵很多年也沒有定論。經常同學們被問到:“到底這個問題的原因是什么!”大家都會覺得分析起來很撓頭,今天我們系統講解下。
一、常見方法1:拆解法
最常見的用來求因果關系的方法,是拆解法。把一個結果指標,從多個角度拆解,找到影響它的原因。舉例:昨天有4個推廣渠道,一共獲客100,今天只獲客80,問為啥獲客少了。
圖片
拆解法做法(如上圖):
1、把總獲客數,按四個渠道拆解,發現A渠道獲客最少。得到結論1:因為A渠道少了,所以總獲客少了。
2、把A渠道的獲客,按獲客流程拆解,拆解為展示頁-落地頁-轉化三步,發現是轉化環節少了,得到結論:因為A渠道的轉化環節出了問題,所以總獲客少了。
3、小結:因為A渠道轉化環節出問題,這是獲客少的原因。
看起來回答得很完美,原因找到了!
可這種答法經不起業務部門再問一句:那為什么A轉化差了呢?
- 我也沒改文案呀?
- 投放經費也沒少呀?
- 前后只差1天,為啥差異這么大?
- 為啥只有A變差了,其他又不變呢?
一個都回答不上來……
所謂的拆解法,本質上只是通過細分,鎖定了問題發生的位置。并不能找到元兇。所以常常被用來發現問題,而不是解釋問題(如下圖)。
圖片
二、常見方法2:相關系數法
統計學里有相關分析的方法。而且有個看起來很復雜公式(如下圖):
圖片
很多同學一看就來勁了!于是把兩個指標帶進去算相關系數,而且還到處Chat GPT一下:
● 相關系數0.99算不算大
● 相關系數0.9算不算大
● 相關系數0.8算不算大
● 相關系數0.7算不算大
● 反正相關系數足夠大,就算是相關了!
這次有一個復雜的公式做支撐,應該很科學了吧?
這么搞,很容易搞出來統計學領域經典的“龍脈梗”
1、中國GDP年年漲
2、我家門前的樹年年漲
3、把兩個數據帶進去,算出相關系數0.99
4、所以我家門前的樹是中國的龍脈!
相關分析、回歸分析、聚類分析,本質上不是“分析”,而是計算。通過計算,得出兩列數字或者幾列數字之間的關系。至于這個關系到底有沒有含義,計算公式本身就不負責解釋了。因此套到現實中經常搞出來各種奇葩結果。
所有的統計學方法都有類似的問題,只能解釋數據本身的關系,解釋不了現實中的關系。更本質地看:是否所有業務行為,外部因素都能量化?完全不是。比如消費者對品牌的信任,比如產品體驗好壞,比如文案感受,是很難量化到一個穩定、可靠的指標的。因此,用統計學方法,可以大范圍地篩選過濾指標,但是很難推理出真實因果。
圖片
三、常見方法3:趨勢分析法
既然復雜的方法不好用,有沒有簡單的辦法?有!比如基于最樸素的感覺:既然A會引發B,那么A產生了B就該產生,A結束了,B會慢慢結束(或者B死掉)。人們就此總結出了因果推斷四大原則。
四大原則:
1、原因發生在結果以前
2、原因發生以后,結果發生
3、原因持續期間,結果持續
4、原因消失以后,結果消失
這樣的推斷,符合人們的直觀邏輯。更重要的是需要的數據少!只要一個指標走勢就能看圖說話了。所以非常好用。
圖片
BUT,這么干有個很大的問題,就是無法剔除雜糅因素,只能觀察到影響最大的那個因素。更無法看到隱藏在背后的深層因素。比如觀察外因的時候,只能觀察到天氣、限行這種明顯的因素;觀察內因的時候,只能觀察到降價這種因素。其他小因素根本觀察不到。
因此,這種方法常常用來做排除法,剔除不合理的借口。比如:“你說天氣不好業績就不好,那為啥人家天氣差照樣有業績!”至于到底推動業績的因素是啥?不知道,還得用其他方法分析。
圖片
四、常見方法4:控制變量法
想剔除雜糅因素,最好的辦法就是分組測試,把樣本塞到密封箱子里,然后一組組地測試效果。比如我想測用戶對不同文案響應率,理論上,我應該用同樣的商品、價格、轉化位置,選同一批人,同一個渠道,然后可以開測了:
圖片
但是測試手段也有問題:
1、很難找到一模一樣的兩組人,完全剔除雜糅因素。
2、很難窮盡目標用戶類型,因此測來測去可能都是同一類人的意見。
3、測試環境很難完全封閉,特別是要測試的是大促銷、新品這種熱門話題。4、很難在合法合規的情況下,完全搞差異化方案,涉嫌價格歧視與欺騙消費者,《反壟斷法》和工商局都不是吃干飯的。
5、消費者永遠是趨利的,他們會自己想辦法突破測試屏蔽,最后選優惠最大的方案。
導致的結果,就是這種測試,適合即時反饋的+封閉信息渠道+個性化推送的場景。是滴,就是類似打車軟件、短視頻軟件的場景。稍微反饋速度慢一點,比如電商平臺搞大數據殺熟,很容易在消費者換幾個手機號登陸比價的時候被發現。最后還是哪個便宜買哪個……
圖片
五、為什么常見方法不管用
綜上,我們會發現,在因果推斷領域,幾乎沒有一種方法完全可靠,包括很多經典的統計學方法和科學實驗方法。為什么會這樣?
因為本質上,企業經營是個社會科學問題,不是自然科學問題。自然科學領域,是有一些物理、化學、數學等基礎原理支撐的,這些原理是穩定、科學、可量化的,因此可以通過數據統計+科學實驗,慢慢地發現背后的自然規律。社會科學問題完全不是這樣!社會科學問題本身就是多因素共同影響,容易被人操控改變,感性且沖動的。因此在社會科學領域,很難直接套用自然科學的方法解決問題。
再加上,企業里上班的人,都是有立場、有態度、有企圖的。當他們張嘴問:“這個問題到底是因為什么產生的?”或者問“這個功勞到底是因為什么出來的?”的時候,他們的潛意識里裝的就是:功勞是我的,多少得蹭一點,鍋都是別人的,硬甩也得甩出去。因此即使有靠譜的方法,大家也不見得就愿意用,即使有結論,大家也會找其他理由搪塞。