一文看懂“AB實(shí)驗(yàn)”:統(tǒng)計(jì)學(xué)原理,分析思路,業(yè)務(wù)應(yīng)用
AB實(shí)驗(yàn)(ABtest)是一個經(jīng)常被提起,但是很多同學(xué)聽得云里霧里的東西。因?yàn)榫W(wǎng)上太多文章都在講統(tǒng)計(jì)學(xué)公式,但:
1、為什么非得是AB實(shí)驗(yàn)?
2、到底AB實(shí)驗(yàn)該怎么設(shè)計(jì)?
3、到底業(yè)務(wù)該怎么用?
網(wǎng)上的案例非常少。今天一文跟大家講清,包教包會!
一、AB實(shí)驗(yàn)的原理
之所以做AB實(shí)驗(yàn),是因?yàn)椋河绊懡Y(jié)果的因素很多,我們想剔除其他因素的干擾,只看我們關(guān)心的。比如用戶的消費(fèi)率,可能受:
1)業(yè)務(wù)派發(fā)的優(yōu)惠券
2)用戶自身需求
3)特定的商品
的影響,我們想剔除X2,X3,只看業(yè)務(wù)發(fā)券對用戶消費(fèi)率的影響,此時(shí)就得做實(shí)驗(yàn)。
在統(tǒng)計(jì)學(xué)上,有兩種常用方法剔除干擾:
方法一,隨機(jī)實(shí)驗(yàn):隨機(jī)分成兩組,一組有作用,一組沒有,組間對比。充分的隨機(jī)性,能消除一切干擾因素!因此,隨機(jī)實(shí)驗(yàn)被稱為“因果推斷的黃金法則!”
方法二,找特征相似的個體作對比,所謂分組法,PSM,DID,RDD都是此原理。
這里可能有人疑惑:為什么僅靠隨機(jī)分組,就能消除所有因素影響?統(tǒng)計(jì)學(xué)上有一個經(jīng)典的種豆子故事(如下圖)簡單來說:隨機(jī)分組,構(gòu)造了一個“平行世界的你”實(shí)現(xiàn)了相似特征對比。
圖片
二、AB實(shí)驗(yàn)的設(shè)計(jì)
AB實(shí)驗(yàn)設(shè)計(jì),包括五個步驟
1、業(yè)務(wù)提出行動目標(biāo)(改善XXX指標(biāo))
2、業(yè)務(wù)提出行動方案(頁面改版/派優(yōu)惠券)
3、根據(jù)業(yè)務(wù)方案,抽取部分用戶進(jìn)行隨機(jī)分組
4、推送業(yè)務(wù)方案,收集用戶響應(yīng)的數(shù)據(jù)
5、利用統(tǒng)計(jì)學(xué)知識,對比組間差異,得出結(jié)論
典型的ABtest場景,有以下3種,牢牢記住哦。
圖片
這里要注意,現(xiàn)在是2025年,不是所有工作都需要從0開始做的!市面上有火山引擎(DataTester)/神策(ABtest)等工具,很多公司也有自建的ABtest平臺,可以實(shí)現(xiàn)全流程配置與管理。除了數(shù)據(jù)產(chǎn)品要搞研發(fā)以外,產(chǎn)品經(jīng)理/運(yùn)營/數(shù)據(jù)分析師的精力應(yīng)更多放在:如何設(shè)計(jì)一個靠譜的實(shí)驗(yàn)。
三、什么是靠譜的實(shí)驗(yàn)
第一:實(shí)驗(yàn)本身符合業(yè)務(wù)邏輯。
比如:
- 派優(yōu)惠券:消費(fèi)滿1萬元,減1元
- 首頁banner,把“快來看看”改成“馬上看看”
你自己覺得這些玩意能有多大作用!
這種屎上雕花的東西,再測也測不出效果來,窮折騰。
第二:用戶分組隨機(jī)性驗(yàn)證。
理論上,最好先做AA實(shí)驗(yàn)。即隨機(jī)分組后,不上線任何政策,空跑一段時(shí)間。如果分組是隨機(jī)的,那么此時(shí)組間不會出現(xiàn)任何差異。
實(shí)際上,人們經(jīng)常懶得做AA就直接上了。那么至少,分組后,組間用戶在關(guān)鍵特征(性別,年齡,收入,消費(fèi)力等)保持一致(也可以做T檢驗(yàn))。
第三:實(shí)驗(yàn)時(shí)間設(shè)計(jì),符合業(yè)務(wù)周期,避開特殊時(shí)間段。
比如:
1、要測優(yōu)惠券,那么不要趕在618前后測,618的巨大影響,會把你那點(diǎn)券沖掉的。
2、要測游戲功能,不要趕在學(xué)生快放暑假,快開學(xué)的時(shí)候。選擇正常時(shí)間
3、要測商品詳情頁,至少測夠1周(包含工作日和周末)
第四:做好多個實(shí)驗(yàn)之間的協(xié)調(diào)。
業(yè)務(wù)動作有可能很多,多重動作疊加很可能引發(fā)用戶體驗(yàn)下降,比如:
1、單獨(dú)上一個“猜你喜歡”,效果很好
2、單獨(dú)上一個“福利炸彈”,效果很好
3、單獨(dú)上一個“好運(yùn)降臨”,效果很好
結(jié)果實(shí)際上線,用戶打開頁面哐哐哐彈了一堆東西,嚇得用戶趕緊關(guān)上……
綜上可見,好的實(shí)驗(yàn),建立在充分的前期分析,對用戶和產(chǎn)品有足夠分析積累之上,不是閉著眼睛上個頁面就測了。
圖片
四、實(shí)驗(yàn)結(jié)果的解讀
AB實(shí)驗(yàn),對應(yīng)的統(tǒng)計(jì)學(xué)知識是“雙樣本T檢驗(yàn)”,而且常用的AB實(shí)驗(yàn)平臺會直接通報(bào)結(jié)果,所以直接看P值是不是小于0.05就好了。P值大于0.05說明沒有組間差異,業(yè)務(wù)動作做了白做,回去重做!
這里,經(jīng)常有業(yè)務(wù)部門會搬來厚厚的統(tǒng)計(jì)學(xué)書,試圖證明P值大于0.05,也能說明業(yè)務(wù)做的很好。反正業(yè)務(wù)做的不好,測到它好為止!最后結(jié)論必須是“好!”……我們常說:放過統(tǒng)計(jì)學(xué)吧,它老人家已經(jīng)300歲了,經(jīng)不起產(chǎn)品經(jīng)理和運(yùn)營這么折騰。
反而是,很有可能出現(xiàn):明明測試看起來有效,上線沒效果,比如:
- 測的東西本身就是小因素,很快泯然眾人
- 有影響更大的其他事件發(fā)生
- 業(yè)務(wù)動作之間相互干擾,拉低效果
- 持續(xù)動作下,用戶需求/市場結(jié)構(gòu)發(fā)生變化
- 新奇效應(yīng),上線時(shí)候好玩,過兩天懶得完了
就比如給優(yōu)惠券,給太多了,用戶習(xí)慣了發(fā)券,沒券就不消費(fèi),導(dǎo)致越往后效果越差。這都是常事。
因此,AB實(shí)驗(yàn)并不是“一炮定輸贏”,緊密圍繞業(yè)務(wù)目標(biāo),不斷尋找優(yōu)化方法,才是關(guān)鍵。而不是對著P值大喊:給我顯著!快給我顯著!