打造用戶增長場景下的AB實驗體系,我們需要做什么?
一、新用戶場景下實驗面臨的問題
1、UG全景圖
這是 UG 的全景圖。
UG 通過渠道,比如 Paid Ads、 ASO、SEO 等渠道,獲客引流到 APP。接下來,會做一些新手的運營和引導,來促活用戶,使其進入成熟期。后續用戶可能會慢慢地失活,進入衰退期,甚至進入流失期。在這期間會做一些流失的預警,促活的召回,后面還有一些對流失用戶的召回。
可以概括為上圖中的公式, 即 DAU 等于 DNU 乘上 LT。UG 場景下的所有工作都可以基于這一公式來拆解。
2、AB實驗原理
AB 實驗是要對流量進行完全的隨機,對于實驗組和不同和對照組,給予不同的策略。最后結合統計的方法和實驗的假設做出科學的決策,這就是整個實驗的架構。現有市面上的實驗分流的類型,大概分為兩種:實驗平臺分流和客戶端本地分流。
實驗平臺分流是有前提的,需要設備完成初始化以后能獲取到穩定的 ID,基于這個 ID 向實驗平臺請求實驗平臺完成分流相關的邏輯,把分流 ID 返回給端上,然后端上基于收到的 ID 做相應的策略。它的優點是有一個實驗平臺,能夠保證分流的均勻性和穩定性。它的缺點是設備必須完成初始化以后才能進行實驗分流。
另外一種分流是客戶端本地分流,這種場景相對來說會比較小眾一點,主要是在一些 UG 的場景,廣告開屏的場景,以及一些性能的初始化場景。這里所有的分流邏輯都是在端初始化時完成的,其優點很明顯,就是無時延,開機即可分流。從邏輯上來講,其分流均勻性也是能夠得到保證的。但是在實際的業務場景上,它的分流均勻性常常存在問題。后面會介紹其原因。
3、新用戶場景AB實驗面臨的問題
UG 場景實際面臨的第一個問題是盡可能早的分流。
這里舉個例子,比如這里的流量承接頁面,產品經理覺得 UI 可以再優化一下,進而提升核心指標。在這樣的場景下,我們希望實驗盡早地進行分流。
在頁面 1 的分流,是在分流時設備完成初始化并獲取 ID,有 18.62% 的用戶是沒有產生 ID 的。如果用傳統的實驗平臺的分流方式,會有 18. 62% 的用戶是不能被分組的,先天性會出現選擇偏差的問題。
另外,新用戶的流量是非常寶貴的,有 18. 62% 的新用戶不能被用于實驗,對于實驗的時長和流量利用效率也是有很大損失的。
未來解決實驗盡可能早的分流的問題,我們就會用客戶端本地分流實驗。其優點是在設備初始化的時候,就完成了分流。其原理為,首先是在端上面初始化的時候,它本身就可以生成隨機數,對隨機數進行哈希以后進行同樣的分組,進而產生了實驗組和對照組。從原理上看,應該能夠保證分流是均勻的,但通過上圖中的一組數據會發現,有超過 21% 的用戶是重復進到不同的組的。
有一種場景是,一些很受歡迎的產品,比如王者榮耀或者抖音,用戶很容易上癮。新用戶在實驗周期里面會有多次的卸載重裝。按照剛剛講的本地分流的邏輯,隨機數的產生和分流以后會讓用戶進入不同的組,這樣就會出現分流的 ID 和統計 ID 不能一對一匹配。造成了分流不均勻的問題。
在新用戶場景下,我們還面臨著實驗評估標準的問題。
我們梳理了新用戶流量承接這一場景的時間圖。APP launch 的時候,選擇了分流。假設分流時機能夠做到這個,而且是均勻的,同時就有相應的策略產生作用。接下來指標統計 ID 的生成是晚于策略作用的時機的,在這時才能觀測到數據。數據觀測的時機遠遠落后于策略作用的時機,就會造成幸存者偏差。
二、新實驗體系及其科學性驗證
為了解決上述問題,我們提出了新的實驗體系,并對其科學性進行了驗證。
1、新用戶場景實驗分流ID選擇
前面已經講到了新用戶實驗對于新用戶的分流選擇要求會比較高,如何選擇新用戶實驗分流 ID 呢?有以下幾個原則:
- 合規性,不管是海外業務還是國內業務,安全合規首先是生命線,一定要滿足安全合規,否則一旦被下架影響會特別大。
- 及時性,對于新用戶場景,一定是要及時,開機即可獲取分流。
- 唯一性,在單次安裝周期內,分流的 ID 是穩定的,同時跟指標口徑 ID 能形成一一對應的關系。通過下圖中的數據可以看到,分流 ID 和指標計算口徑 ID 一對一的匹配比例達到了 99.79%,指標計算 ID 和分流 ID 的一對一比例也達到了 99. 59%。基本上可以驗證,按照標準選擇的分流 ID 和指標 ID 是能夠做到一對應匹配的。
2、分流能力科學性驗證
選擇好分流 ID 以后,分流能力往往是通過兩種方式,第一種是通過實驗平臺,第二種是通過端上完成。
有了分流的 ID 以后,把分流 ID 提供給實驗平臺,在實驗平臺里完成分流的能力。作為分流平臺,最基本的是需要驗證它的隨機性。首先就是均勻性。在同一層實驗里面,把流量均勻地分到了很多個分桶,每個分桶進組的數量應該是均勻的。在這里可以簡化一下,假如一層只有一個實驗,分成 a、 b 兩組,進組的對照組和實驗組的用戶數應該是近似相等的,進而驗證分流能力的均勻性。其次,對于多層實驗,多層實驗之間應該是相互正交,不受影響的,同理這里也需要去驗證不同層實驗之間的正交性。可以通過統計學上的 category test 去驗證均勻性和正交性。
介紹完分流選擇的 ID 和分流的能力,最后要從指標結果層面去驗證新提出來的分流結果,是否符合 AB 實驗的要求。
3、分流結果科學性驗證
結合內部的平臺,做了很多次 AA 的simulation。
比較對照組和實驗組在對應的指標上面是否滿足實驗的要求。接下來看一下這一組數據。
抽樣了一部分 t 檢驗的一些指標組,可以理解為對于做的這么多次試驗,放 type one error rate 應該是在很小的概率,假設 type one error rate 預定是在 0. 055% 左右,它的置信區間其實應該在 1000 次左右,應該是在 0. 0365- 0. 0635 之間。可以看到第一列抽樣出來的一些指標,都在這個執行區間之內,所以從 type one error rate 視角來看現有的這個實驗體系是 OK 的。
同時考慮到檢驗是對于 t 統計量的檢驗,相應的 t 統計量在大流量的分布下面,應該是近似地服從正態分布的。也可以對 t 檢驗的統計量做正態分布的檢驗。這里用了正態分布的檢驗,可以看到檢驗出來的結果也是遠遠大于 0.05 的,即原假設成立,也就是 t 統計量是近似服從正態分布的。
對于每次檢驗 t 統計量檢驗出來的結果的 pvalue,在這么多次實驗里面來看,也是近似地服從均勻分布的,同時也可以對pvalue 做均勻分布的檢驗,pvalue_uniform_test,也可以看到類似的結果,它也是遠遠大于 0.05 的。所以原假設 pvalue 近似服從均勻分布也是 OK 的。
以上從分流 ID 和指標計算口徑的一一對應關系,從分流的能力和分流的結果指標結果上面都去驗證了新提出來的這種實驗分流體系的科學性。
三、應用案例分析
接下來結合 UG 場景下的實際應用案例,講解如何做實驗評估,解決前面提到的問題三。
1、新用戶場景實驗評估
這里是典型的 UG 流量承接場景,在 NUJ 新用戶引導或者新用戶任務的時候會做很多的優化,從而提升流量利用率。這個時候的評估標準往往都會是 retention rate,這是業界現有的常規理解。
假設從新用戶下載到安裝再到首啟的這個流程, PM 覺得這樣的流程對于用戶使用,特別是從未體驗過產品使用的這一部分用戶來說門檻太高了,是不是應該先讓用戶熟悉產品,體驗到產品的嘻哈 moment 以后,再引導登錄。
進而 PM 提出了另外的假設,對于從來沒有體驗過產品的用戶,在新用戶登錄或者新用戶 NUJ 的場景里面,降低阻力。對于體驗過產品的用戶,換機用戶,還是走線上的流程。
基于指標 ID 進行分流,首先獲取的指標的 ID,然后進行分流,這樣的分流往往是均勻的,從實驗的結果也可以看到,同時從 retention rate 上面也可以看到沒有太大的區別。從這樣的結果上,很難去做出推全的決策。這樣的實驗其實浪費了一部分流量,同時存在選擇偏差的問題,所以進而會做本地分流的實驗,下圖可以看到本地分流的實驗結果。
進組的新設備數上面會有顯著性的差異,而且是置信的。同時在 retention rate 上面有提升,但在其它核心指標上其實是有負向的,而且這個負向很難被理解,因為它跟留存其實是強相關的。所以基于這樣的數據,也很難去解釋或者去歸因,也很難去做出推全的決策。
可以去看一下重復進組的用戶的情況,就會發現超過 20% 的用戶是被重復進到不同的組的。AB 實驗的分流的隨機性就已經被破壞了,這樣的結果就很難支持我們做出比較科學的決策。
最后,看一下用提出的新的分流的實驗的結果。
開機即可分流,分流能力是由內部平臺來保證的,它能夠極大程度地保證分流的均勻性和穩定性。從實驗的數據來看,幾乎是接近的,在做開方檢驗的時候也能夠看到它是完全滿足需求的。同時看到有效的新設備數是有極大的增加的,增加了1%,同時在 retention rate 上面也有所提升。同時從對照組或者單看實驗組,能夠看到基于分流 ID 到最終產生的新設備的流量轉化率,實驗組比對照組提升了 1% 。之所以出現這樣的結果,實驗組其實是放大了用戶在 NUJ 和 NUT 的這個入水口,有更多的用戶更容易進來體驗到產品,進而留下來。
把實驗數據拆成 login 和 not login 兩部分,可以看到對于實驗組的用戶,有更多的用戶選擇了非登錄的模式,去體驗產品,同時留存也得到了提升,這樣的結果也是符合預期的。
可以看到 by daily 的指標,進組的用戶數,其實是有長期寫,by daily 來看是穩定增加的,同時留存指標也有提升。實驗組相比對照組在有效設備數和留存上都是有提升的。
對于新用戶流量承接的場景,更多的評估指標是從留存或者短期的 LT 的維度來做的評估,這里的優化其實只是在 LT 層級的一維空間上面的優化。
而在新的實驗體系里面,把一維優化變成了二維優化, DNU 神尚 LT 整體得到了提升,這樣策略空間從以前的一維變成了二維,同時在有些場景下是能接受一部分 LT 的損失的。
四、總結
最后,對新用戶場景下實驗能力建設和實驗評估標準進行一下總結。
- UG 新用戶場景下現有的實驗體系無法完全解決新用戶流量承接策略評估所面臨的問題,需要新的實驗體系。
- 分流 ID 的選擇有幾個標準,首先是安全合規,然后是首次啟動即可獲取,再者是在單次安裝周期內是穩定的,并且跟指標 ID 是單射的關系。
- 針對新用戶場景的實驗評估是一個多維優化,收益來源于有效的新設備數和設備的留存,而不像以前只評估設備的留存。
- 針對“新”用戶的承接,往往會有著巨大的業務收益。這里的“新”,不光指新的用戶,還包括卸載重裝的用戶。