成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深入了解技術交易中最強大的工具:A/B測試是如何工作的?

開發 開發工具
A/B測試,簡而言之就是通過創建可信的克隆來研究因果關系,即兩個相同的項目(或者更典型的是兩個統計上完全相同的組),然后觀察不同處理它們的效果。

[[338523]]

 A/B測試,簡而言之就是通過創建可信的克隆來研究因果關系,即兩個相同的項目(或者更典型的是兩個統計上完全相同的組),然后觀察不同處理它們的效果。

兩個相同的項目不是僅僅相似的就可以了,我的意思是比下面圖片上的兩只貓還要相同,關鍵是找到“可信的克隆體”,或者讓隨機化和大樣本量為你創建出來。

科學的、受控的實驗是極佳的工具:它允許人們討論原理和成因。如果沒有它們,那么人們了解的只是相關性,這通常對決策沒有什么幫助。可以說,實驗是在文明對話中使用“因為”一詞的許可證。

但令人痛心的是,貪戀結果而不愿付出、對推理的質量自欺欺人、在沒有做適當實驗就聲稱自己是科學實驗的情況是很普遍的。如果出現不確定的情況,除非存在以下所有三個原因,否則你所做的將不算實驗:

· 運用了不同的方法

· 方法隨機分配

· 經過科學檢驗的假設(查看我的解釋:http://bit.ly/quaesita_damnedlies)

想要知道為什么實驗被用作推斷因果關系的工具,請看最簡單的實驗之一——A/B測試——背后的邏輯。

簡要說明

如果不想閱讀詳細的示例,請查看此GIF,然后跳到最后一部分(“秘密在于隨機性”)。

詳細說明

想象一下,你的公司有灰色徽標已經用了好幾年了。現在,你的所有競爭對手也都使用了灰色徽標(模仿是最真誠的奉承),你的高管堅持要求將品牌重塑為更明亮的顏色……但是,換成什么顏色的呢?

雖然你的用戶看到的徽標是灰色的,但這即將改變。

在仔細評估了貴公司網站配色方案的實用性之后,你的設計團隊確定了僅有的兩個可行的候選顏色:藍色和橙色。

CEO最喜歡的顏色是藍色,因此她選擇批準藍色作為默認方案。換句話說,她認為如果沒有其他原因的話,她很樂意偏向選擇藍色。但幸運的是,她是一位由數據驅動的強大領導者,并且愿意在數據驅動下將她的想法變為橙色。

但CEO要看到切實的數據才愿意妥協,她要求提供證據表明橙色徽標在當前的用戶群體中,可以使網站的特定部分產生更多的點擊量(相對于藍色)。

你是公司的高級數據科學家,到你搬磚的時刻了,你立即確定CEO的決策方法符合頻率統計中的框架。在仔細聽了她的話之后,你確定了她的零假設和備擇假設與因果關系有關,這意味著需要做個實驗。總結一下她告訴你的內容:

  • 默認方案:批準藍色徽標。
  • 替代方案:批準橙色徽標。
  • 零假設:橙色徽標不會比藍色徽標多點擊至少10%。
  • 備擇假設:橙色徽標的點擊率至少比藍色徽標高10%。

對于這樣的設置,A/ B測試是理想的實驗設計。(對于其他因果決策,可能需要其他設計。盡管在這里我僅介紹A/B測試,但更復雜的設計背后的邏輯是相似的。)

實時交通實驗

有多種方法可以運行A/B測試。在心理學實驗室(和焦點小組研究)中,我們看到的往往是邀請人們走到街上,向不同的人隨機展示不同的刺激因素,然后向他們提問。

但是CEO想要的東西難度更大。她的問題只能通過實時流量實驗來回答:當不同的用戶在你網站上進行日常業務時,為他們提供不同版本的徽標。

實驗基礎架構

如果想進行實時流量實驗,那么你需要一些特殊的基礎架構。與工程師合作,建立為不同用戶隨機提供不同待遇的能力,以及根據待遇條件跟蹤CEO期望指標(某些網站元素的點擊率)的能力。

為什么人們不常做實時流量實驗,答案通常與高昂前期成本有關。就像Google甚至在我們不知道要進行哪些實驗之前,就和在我們的大多數系統中構建實驗基礎架構一樣,傳統公司可能一開始會忘記添加此功能,進而會發現自己落后于更懂技術的競爭對手。但要注意,如果你想進入應用的ML /AI游戲,那么就必須具備實驗基礎架構。

示例

你非常謹慎,不想因為突然出現新徽標而嚇到用戶。更明智的做法是對一部分用戶進行實驗抽樣,然后進行逐步部署(如果更改造成無法預料的壞結果,那么可以選擇將其還原為灰色)。

控制

如果想了解用戶對新奇事物的反應(他們是否會因為徽標的更改而點擊更多)可以將灰色徽標處理用作對照組。但這不是的CEO想要回答的答案,她的關注點在于單獨的橙色相對于藍色的因果影響,因此,考慮到她制定決策的方式,對照組應該是顯示藍色徽標的用戶。

首先,你的系統嘗試將藍色徽標基準應用于樣本中的所有用戶。

但是,在系統實際向用戶顯示藍色徽標之前,實驗基礎架構會翻轉虛擬硬幣,以隨機將一些用戶重新分配給橙色處理,向他們顯示橙色。

然后隨機向某一些戶顯示橙色版本,而不向其他用戶顯示。

如果隨后觀察到橙色版本的平均點擊率較高,則可以說是橙色方案導致了行為上的差異。如果統計上的差異高于10%,那么CEO會很樂意按照她的承諾改成橙色。如果沒有,那么她會選擇藍色。

為什么是10%?因為這是CEO愿意接受的最小效應量。如果決策者關心效應量,那么應該將其納入假設檢驗中。檢驗“無差異”的零假設是一個明確的陳述,即你不會對效果大小有所懷疑。

如果處于橙色處理狀態的用戶對控制條件的反應不同,那么可以說顯示橙色版本導致點擊次數多于藍色版本。

秘密在于隨機性

如果不是隨機執行此操作,例如,如果向所有登錄用戶提供了橙色方案,同時向其他所有人(游客)顯示藍色方案,那么就不能說是橙色方案導致了區別。因為不管使用哪種顏色的徽標,也許登錄的用戶對你們公司的忠誠度更高也更喜歡你們的產品。無論以何種顏色顯示,登錄的用戶都可能有較高的點擊傾向。

隨機化是關鍵,是讓你得出因果關系的結論,這就是為什么隨機性如此重要的原因。樣本量大(沒有大量統計能力的情況下無法進行實驗),隨機選擇會創建差異較大的組。從統計學上講,兩組是彼此可信的克隆體。

決策標準越直接,樣本量越大,實驗設計就越不需要復雜。A/B測試很棒,但是更多的高級實驗設計使你可以明確控制一些混雜因素(例如2x2設計,可以將已登錄的用戶與未登錄的用戶分開,并在每個組中運行微型A/B測試,以讓隨機性為你處理其余的工作)。當你很想知道橙色徽標對登錄用戶的影響有何不同,并且希望將其納入決策時,這個功能特別有用。無論哪種方式,隨機選擇都是必須的。

依靠隨機選擇,A/B測試的藍色和橙色條件下的用戶組在所有方面都一直相似(總體而言),傳統上人們會考慮挑選參與者以平衡他們的研究:如性別、種族、年齡、受教育程度、政治觀點、宗教信仰等。

但我們通常難以控制的其他方面,隨機選擇會使它們也保持相似:如喜歡貓的人、喝茶的人、游戲玩家、哥特人,高爾夫球手、擁有尤克里里的人、慷慨給予的人、游泳好的人、暗中討厭配偶的人、幾天沒有洗澡的人、對橙子過敏而又沒有意識到的人,等等。

這就是大樣本量加上隨機選擇的優點,不必依靠自己的聰明才智來考慮要控制的正確混雜因素。當使用隨機數創建兩個大組時,你將獲得一個統計空白的畫布——兩個組在統計上都是相同的,唯一的不同是將要對它們進行的操作。

如果觀察到兩組結果之間存在實質性差異,那么你就可以說發生的差異正是由于你的操作造成的,這就是實驗的驚人力量!

探究因果關系是一場挑剔的游戲——這是科學家們也會做的事,如果提出兩個偽劣的“克隆體”,并試圖將不同的結果歸咎于不同的方案方法,如果沒有大樣本,你怎么知道影響結果的不是它們鼻子下方(這兩只小貓咪)的小斑點呢?

本文轉載自微信公眾號「讀芯術」,可以通過以下二維碼關注。轉載本文請聯系讀芯術公眾號。

 

責任編輯:武曉燕 來源: 讀芯術
相關推薦

2023-04-19 08:13:02

EpollLinux

2021-09-23 09:00:00

機器人人工智能技術

2012-05-14 17:22:38

ibmdw

2022-03-28 08:36:15

tenacityPython

2019-05-07 10:03:47

Linux系統發行版

2012-02-16 11:35:34

ibmdw

2011-02-21 13:14:29

Qmail

2024-06-06 09:23:11

2019-08-02 08:59:21

Token認證服務器

2019-11-29 16:21:22

Spring框架集成

2017-01-20 08:30:19

JavaScriptfor循環

2018-02-24 13:21:02

2018-09-04 16:20:46

MySQ索引數據結構

2013-04-10 11:16:19

iPad的MouseE

2016-10-20 08:46:17

2021-09-03 08:27:47

FortinetSASE平臺安全

2023-06-06 15:31:13

JavaScript開發

2010-02-02 09:06:29

軟交換技術

2010-06-23 20:31:54

2010-07-13 09:36:25

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费一级毛片 | 99久久久久久99国产精品免 | 伊人久久免费视频 | 日产久久 | 日本一二区视频 | 欧美日韩一区二区三区四区 | 一本大道久久a久久精二百 国产成人免费在线 | 欧美一级免费看 | 中文字幕1区 | 视频一区二区在线观看 | 日韩中文字幕在线观看视频 | 亚洲欧洲在线观看视频 | 国产99久久久国产精品 | 亚洲福利av| 久久国产免费看 | av在线一区二区 | 日韩欧美在线不卡 | 中文字幕一区二区三区四区五区 | 日韩中文一区二区三区 | 亚洲国产精品激情在线观看 | 天堂一区在线观看 | 一区二区三区免费 | 伊人网99 | 中文字幕在线播放不卡 | 欧美激情久久久 | 成人av观看 | 999精品在线 | 久久国 | 日韩精品在线一区 | 精品日韩一区二区三区 | av男人天堂影院 | 国产日韩久久 | 亚洲欧美日韩一区 | 91在线中文字幕 | 色伊人 | 国产91精品网站 | 亚洲高清av在线 | 免费一级黄色电影 | 亚洲精品无人区 | 伊人二区 | 91精品一区二区三区久久久久 |