為什么互聯(lián)網(wǎng)巨頭如此熱衷于A/B測(cè)試？

作者：衛(wèi)夕指北 2021-06-24 10:04:33

A/B 測(cè)試——又被稱為小流量實(shí)驗(yàn)。通常是針對(duì)某個(gè)功能/UI/邏輯策略等，提供兩種(或多種)不同的備選解決方案，從總體用戶中隨機(jī)抽取一小部分流量，分配給不同方案，最終通過實(shí)驗(yàn)數(shù)據(jù)對(duì)比來確定最優(yōu)方案。

A/B 測(cè)試前身：歷史悠久的對(duì)照實(shí)驗(yàn)

今天互聯(lián)網(wǎng)巨頭熱衷的 A/B 測(cè)試，其實(shí)源于學(xué)術(shù)層面的“隨機(jī)對(duì)照試驗(yàn)”，作為一種方法論，這種對(duì)照試驗(yàn)有著悠久的歷史：

1747 年，為了治療壞血病，皇家海軍的外科醫(yī)生 James Lind 設(shè)計(jì)了一項(xiàng)實(shí)驗(yàn)。他測(cè)試了蘋果醋、大麥水、橘子等六種不同藥方。

最終發(fā)現(xiàn)新鮮的橘子為最佳的治療藥物，盡管那時(shí)并不清楚是橘子中維 C 的作用。

[[407113]]

1835 年，醫(yī)學(xué)史上第一次“雙盲實(shí)驗(yàn)”在紐倫堡實(shí)現(xiàn)。一位名為弗里德里希的公共衛(wèi)生官員，為對(duì)抗當(dāng)時(shí)頗為流行的順勢(shì)療法開啟了一個(gè)賭注：將 25 瓶順勢(shì)療法鹽水和 25 瓶蒸餾水分發(fā)給 50 位雙盲受試者。

最后 8 位聲稱產(chǎn)生了治療效果，但揭盲后發(fā)現(xiàn)，有 3 位喝的其實(shí)是蒸餾水，弗里德里希贏得了賭注。

1935 年，統(tǒng)計(jì)學(xué)家兼生物學(xué)家羅納德·費(fèi)雪(Ronald Fisher)寫了一本名為《實(shí)驗(yàn)設(shè)計(jì)》的書。在書中，他系統(tǒng)論述了隨機(jī)對(duì)照實(shí)驗(yàn)的設(shè)計(jì)原則和統(tǒng)計(jì)檢驗(yàn)的方法，成為實(shí)驗(yàn)設(shè)計(jì)領(lǐng)域的開山之作。

1944 年，在制造原子彈的過程中，曼哈頓計(jì)劃的領(lǐng)軍科學(xué)家奧本海默，用 3 種方法測(cè)試如何分離鈾 235，這一步驟成為整個(gè)項(xiàng)目中最關(guān)鍵的環(huán)節(jié)之一。

1960 年代，大衛(wèi)·奧格威用對(duì)照測(cè)試的方法驗(yàn)證廣告的有效性——寫兩條不同的文案并要求報(bào)紙將其各印一半，同時(shí)在文案中留下索取免費(fèi)樣品的郵編和地址，但樣式不一樣，最終根據(jù)實(shí)際樣品索取量來觀察哪種文案效果更好。

……

可以清楚地看到，隨機(jī)對(duì)照實(shí)驗(yàn)作為一種方法論，在現(xiàn)代科學(xué)和商業(yè)發(fā)展中發(fā)揮了重要作用。它本質(zhì)上能通過控制單一變量的方法來尋找最優(yōu)解決方案，已經(jīng)被廣泛運(yùn)用到工程學(xué)、醫(yī)學(xué)、教育學(xué)和多個(gè)領(lǐng)域的商業(yè)實(shí)踐中。而我們今天要聊的 A/B 測(cè)試其實(shí)就是隨機(jī)對(duì)照實(shí)驗(yàn)在互聯(lián)網(wǎng)領(lǐng)域的具體應(yīng)用。

A/B 測(cè)試，互聯(lián)網(wǎng)巨頭的標(biāo)配

A/B 測(cè)試——又被稱為小流量實(shí)驗(yàn)。

通常是針對(duì)某個(gè)功能/UI/邏輯策略等，提供兩種(或多種)不同的備選解決方案，從總體用戶中隨機(jī)抽取一小部分流量，分配給不同方案，最終通過實(shí)驗(yàn)數(shù)據(jù)對(duì)比來確定最優(yōu)方案。

今天，在硅谷和中國(guó)的互聯(lián)網(wǎng)頭部企業(yè)，A/B 測(cè)試已經(jīng)成為業(yè)務(wù)發(fā)展的標(biāo)配。我們簡(jiǎn)單梳理下 A/B 測(cè)試是如何風(fēng)靡各大互聯(lián)網(wǎng)巨頭的——2000 年 2 月 27 日，谷歌搜索部門的一位工程師進(jìn)行了互聯(lián)網(wǎng)時(shí)代的第一次 A/B 測(cè)試——他想知道搜索結(jié)果每頁展示多少條是效果最好的，當(dāng)時(shí)默認(rèn)為 10。實(shí)驗(yàn)是這樣設(shè)計(jì)的：對(duì)于 0.1%的搜索流量，每頁顯示 20 條結(jié)果;另外兩個(gè) 0.1%分別顯示 25 條、30 條。這次測(cè)試從直接結(jié)果看并不成功——由于技術(shù)故障，實(shí)驗(yàn)組頁面的加載速度明顯慢于對(duì)照組，最終導(dǎo)致實(shí)驗(yàn)的相關(guān)指標(biāo)下降。

但谷歌因此獲得了意外收獲——他們發(fā)現(xiàn)即便是0.1秒的加載延遲也會(huì)顯著影響用戶滿意度。很快，谷歌將改善響應(yīng)時(shí)間提升為高優(yōu)先級(jí)事項(xiàng)。以這次實(shí)驗(yàn)為開端，A/B 測(cè)試在谷歌內(nèi)部快速流行起來。

2012 年，據(jù)谷歌的首席經(jīng)濟(jì)學(xué)家范里安稱，谷歌每年就會(huì)開展超過 5000 次的 A/B 測(cè)試。

亞馬遜早期，工程師 Greg Linden 曾提出一個(gè)想法——在客戶支付時(shí)，根據(jù)他們購物車中的商品，向他們提供個(gè)性化的“沖動(dòng)購買”建議。他精心做了一個(gè) Demo，但演示后當(dāng)時(shí)亞馬遜的一位副總裁武斷地否決了這一想法。Greg Linden 并不氣餒，他業(yè)余時(shí)間用三個(gè)半月完成了這一功能的開發(fā)，并對(duì)這個(gè)功能進(jìn)行了小流量的測(cè)試。結(jié)果證明，即便是這個(gè)極其粗糙、簡(jiǎn)陋的版本，也讓實(shí)驗(yàn)組用戶的購買規(guī)模提升了 17%。

于是，“商品推薦”這個(gè)今天司空見慣的功能從此在亞馬遜開啟。

在 Facebook，CEO 扎克伯格曾公開宣稱：

“在任何給定的時(shí)間點(diǎn)，都不會(huì)只有一個(gè)版本的 Facebook 在線上運(yùn)行，而是有超過一萬個(gè)，我們的實(shí)驗(yàn)框架能隨時(shí)發(fā)現(xiàn)和感知用戶最細(xì)微的行為差異。”

在中國(guó)，頭部的互聯(lián)網(wǎng)企業(yè)也都有自己的 A/B 測(cè)試平臺(tái)。比如字節(jié)跳動(dòng)的 Libra、美團(tuán)的 Gemini、滴滴的阿波羅。張一鳴曾表示——“即使你有99%的把握某個(gè)名字比另一個(gè)名字更好，測(cè)一測(cè)又有什么關(guān)系呢?”

目前在字節(jié)跳動(dòng)，每天同時(shí)進(jìn)行的 A/B 測(cè)試達(dá)上萬場(chǎng)，單日新增實(shí)驗(yàn)數(shù)量超過 1500 個(gè)，覆蓋 400 多項(xiàng)業(yè)務(wù)。截至今年 3 月底，字節(jié)跳動(dòng)累計(jì)已經(jīng)做了 70 多萬次 A/B 測(cè)試。

為什么互聯(lián)網(wǎng)巨頭熱衷于 A/B 測(cè)試?

互聯(lián)網(wǎng)公司大規(guī)模運(yùn)用 A/B 測(cè)試并非偶然，這背后深層次的原因在于，A/B 測(cè)試是數(shù)據(jù)驅(qū)動(dòng)理念的最佳落地實(shí)踐。它能以最小的風(fēng)險(xiǎn)實(shí)現(xiàn)業(yè)務(wù)的有效反饋。

字節(jié)跳動(dòng)在發(fā)布 APP 的時(shí)候，通常會(huì)給 APP 取多個(gè)名字，打多個(gè)包上架到應(yīng)用市場(chǎng)進(jìn)行 A/B 測(cè)試，觀察不同名字的下載率、留存率等指標(biāo)。這背后其實(shí)是一種尊重客觀事實(shí)的決策哲學(xué)。事實(shí)上，在硅谷的互聯(lián)網(wǎng)文化中，那些靠拍腦袋的決策有一個(gè)專有名詞“HiPPO”—”Highest-paid person’s opinion”，即“公司收入最高的那個(gè)人說了算”。

谷歌的技術(shù)專家 Avinash Kaushik 曾說：

“大多數(shù)互聯(lián)網(wǎng)產(chǎn)品都很糟糕，因?yàn)?HiPPO 創(chuàng)造了它們。”

Netflix 在 2016 年 4 月的一篇技術(shù)博客中寫道：

“通過對(duì)照測(cè)試的方法，我們確保產(chǎn)品變更不是由最固執(zhí)己見，和最有發(fā)言權(quán)的 Netflix 高管驅(qū)動(dòng)，而是由實(shí)際的在線數(shù)據(jù)驅(qū)動(dòng)，這是我們走向成功的基礎(chǔ)。”

有人會(huì)問——A/B測(cè)試的決策思想其實(shí)由來已久，為什么直到現(xiàn)在才變得流行起來?

答案是——實(shí)驗(yàn)成本。

在硬件產(chǎn)品時(shí)代，產(chǎn)品的開發(fā)成本很高，一臺(tái)電腦如果控制不同變量，事實(shí)上它就變成兩臺(tái)不同的電腦，本質(zhì)上屬于兩條產(chǎn)品線，而開發(fā)多條產(chǎn)品線對(duì)于硬件產(chǎn)品的成本是非常高的。軟件產(chǎn)品時(shí)代開發(fā)成本同樣高昂，一個(gè)版本的 Windows 要開發(fā)數(shù)年，一個(gè) 3A 大作開發(fā)同樣動(dòng)輒數(shù)年，這樣龐大的開發(fā)成本是無法同時(shí)進(jìn)行不同版本的開發(fā)的。同時(shí)，無論是硬件產(chǎn)品還是軟件產(chǎn)品，它們從開發(fā)、上市到客戶反饋，這個(gè)周期是極其漫長(zhǎng)的，這樣冗長(zhǎng)的周期也讓靈活多變的 A/B 測(cè)試難以大規(guī)模應(yīng)用。而到了互聯(lián)網(wǎng)時(shí)代，每一個(gè)產(chǎn)品特性都可以快速迭代，每一次迭代都能迅速得到反饋。開發(fā)成本的降低和反饋周期的縮短——這兩重因素?zé)o疑給A/B測(cè)試提供了極其便利的實(shí)踐條件。

為了讓 A/B 測(cè)試的價(jià)值得到更大發(fā)揮，很多互聯(lián)網(wǎng)巨頭還將這項(xiàng)能力開放給 C 端用戶。比如今日頭條發(fā)布文章的界面，作者可以取雙標(biāo)題和雙封面，經(jīng)過小流量的測(cè)試之后，推薦系統(tǒng)會(huì)自動(dòng)推薦點(diǎn)擊率高的標(biāo)題。Facebook 的廣告系統(tǒng)也給廣告主提供了一項(xiàng)組合實(shí)驗(yàn)?zāi)芰Γ纯蛻艨梢陨蟼鞑煌臉?biāo)題、描述、封面和按鈕。Facebook 自動(dòng)對(duì)這些元素進(jìn)行隨機(jī)組合，形成多個(gè)創(chuàng)意進(jìn)行 A/B 測(cè)試，自動(dòng)將預(yù)算分配到轉(zhuǎn)化率最高的創(chuàng)意組合上。

為什么今天傳統(tǒng)的“廣告大師”越來越少了?因?yàn)榛ヂ?lián)網(wǎng)廣告在很大程度上不再依靠“大師”的靈光乍現(xiàn)，而是更多地依靠?jī)?yōu)化師每天測(cè)試無數(shù)版文案和素材，甚至很多文案是機(jī)器生成的。

如何利用工具做好 A/B 測(cè)試?

我們?cè)谏厦娴牟糠至私饬?A/B 測(cè)試的原理和意義，很多公司會(huì)問：我知道在增長(zhǎng)日益困難的今天，A/B 測(cè)試是一個(gè)好東西，那到底應(yīng)該如何付諸實(shí)踐呢?

的確，A/B 測(cè)試的實(shí)踐并不是一個(gè)簡(jiǎn)單的過程，它比很多人想象得要困難，這個(gè)困難體現(xiàn)在幾個(gè)層面——

首先，需要確定 A/B 測(cè)試的關(guān)鍵環(huán)節(jié)。A/B 測(cè)試到底測(cè)什么的問題，即企業(yè)必須清楚哪些環(huán)節(jié)是推動(dòng)業(yè)務(wù)發(fā)展的關(guān)鍵，在關(guān)鍵環(huán)節(jié)上進(jìn)行試驗(yàn)。如果找不到關(guān)鍵環(huán)節(jié)，在無關(guān)痛癢的環(huán)節(jié)上，無論做多少 A/B 測(cè)試也是徒勞的。

其次，需要確保 A/B 測(cè)試過程的科學(xué)性和合理性。比如控制單一變量，即確保實(shí)驗(yàn)組和對(duì)照組只有一個(gè)關(guān)鍵變量是存在差異的;比如確保流量分配的均勻隨機(jī)，即實(shí)驗(yàn)組和對(duì)照組的流量是完全獨(dú)立的，不存在互相影響的關(guān)系。

最后，還需要確定合適的評(píng)價(jià)指標(biāo)。評(píng)價(jià)指標(biāo)通常不止一個(gè)，是看 A 指標(biāo)還是 B 指標(biāo)?過程指標(biāo)還是結(jié)果指標(biāo)?短期指標(biāo)還是長(zhǎng)期指標(biāo)?單個(gè)指標(biāo)還是多重指標(biāo)?這些都需要根據(jù)業(yè)務(wù)實(shí)際情況審慎決定。

總結(jié)

A/B 測(cè)試作為一種科學(xué)的實(shí)驗(yàn)手段，能夠幫助企業(yè)在多種方案中尋求最優(yōu)解，以最小的風(fēng)險(xiǎn)前置性地驗(yàn)證策略效果，為企業(yè)規(guī)避風(fēng)險(xiǎn)。作為互聯(lián)網(wǎng)時(shí)代的企業(yè)，理性擁抱前沿趨勢(shì)永遠(yuǎn)是最優(yōu)的選擇。

責(zé)任編輯：未麗燕來源：優(yōu)設(shè)