互聯網廣告的歸因分析(Attribution Analysis)
歸因分析可能是廣告技術中最復雜的一個問題,其復雜來源幾個方面:難建模,難驗證,難應用;但從另外一個方面說,它又是重要無比的,它可以幫助回答“我的50%廣告費用都浪費在哪里了?”,我的廣告預算分配如何更加合理?
雖然,本篇文章會假模假樣的建立幾個科學模型,把問題講“清楚”,并且試圖解決之,但是,這個狀態離真正的驗證和廣泛應用還是有一段距離。這有點像我們的中醫,理論聽起來有模有樣,診療也是煞有介事,至于療效是否有因果關系,并非可以通過經典科學實驗可驗證。這個問題本身就是非線性的問題,但是,道長且阻,行者將至!
歸因分析(Attribution Analysis)要解決的問題,就是廣告的Conversion的產生,其功勞應該歸功于哪些渠道;舉個例子,廣告主投放了信息流廣告,搜索廣告,視頻廣告,轉化(Conversion)很多都直接發生在搜索廣告中,那么這些Conversion完全是搜索渠道功勞么?其實未必,很多轉化都是用戶在觀看視頻廣告/信息流廣告之后,引起用戶注意,而后用戶做了大量研究后,***一次轉化發生在搜索引擎渠道中而已。因此,在PC時代,搜索引擎收割各個營銷渠道的成果,成為了一個不爭的行業秘密。
下面圖示意了這個簡單的過程,目前大部分人在手機上的時間已經超過了PC時間,雖然手機上的推廣對人們會有直接的影響,但這些轉化的落地往往在搜索和垂直電商網站。所以,搜索引擎的每一次轉化,實際上是和之前渠道的的投放是密切相關的,那么到底有多相關,就是歸因分析要解決的問題。
首先,介紹一下幾種歸因分析模型,假設廣告觸點,依次發生在渠道1,2,3,4,***發生了轉化,如何將轉化歸功于幾個渠道。比如說,Last Model就是認為***一個渠道的貢獻是100%;Decay Model認為貢獻程度隨著時間而衰減,越接近轉化的渠道,程度越高。
上面幾種模型,權重分配聽起來都比較武斷,并非根據數據計算出每個渠道的權重,無法直接指導投放的優化。因此,很多學術同學,對這個問題深入研究,并且做了一些模型。今天,介紹4種模型,分別
- 夏普里值(Shapley Value)
- 生存分析(Survival Analysis)
- 通徑分析
- 馬爾科夫鏈
方法一:夏普里值方法
夏普里值(Shapley Value)指所得與自己的貢獻匹配的一種分配方式,由諾貝爾獎獲得者夏普里(Lloyd Shapley)提出,它對合作博弈在理論上的重要突破及其以后的發展帶來了重大影響。如果對夏普里不熟悉的同學可以看看下面的例子:
約克和湯姆結對旅游。約克和湯姆準備吃午餐。約克帶了3塊餅,湯姆帶了5塊餅。這時,有一個路人路過,路人餓了。約克和湯姆邀請他一起吃飯。路人接受了邀請。約克、湯姆和路人將8塊餅全部吃完。吃完飯后,路人感謝他們的午餐,給了他們8個金幣。路人繼續趕路。
約克和湯姆為這8個金幣的分配展開了爭執。湯姆說:“我帶了5塊餅,理應我得5個金幣,你得3個金幣。”約克不同意:“既然我們在一起吃這8塊餅,理應平分這8個金幣。” 約克堅持認為每人各4塊金幣。為此,約克找到公正的夏普里。
夏普里說:“孩子,湯姆給你3個金幣,因為你們是朋友,你應該接受它;如果你要公正的話,那么我告訴你,公正的分法是,你應當得到1個金幣,而你的朋友湯姆應當得到7個金幣。”
約克不理解。
夏普里說:“是這樣的,孩子。你們3人吃了8塊餅,其中,你帶了3塊餅,湯姆帶了5塊,一共是8塊餅。你吃了其中的1/3,即8/3塊,路人吃了你帶的餅中的3-8/3=1/3;你的朋友湯姆也吃了8/3,路人吃了他帶的餅中的5-8/3=7/3。這樣,路人所吃的8/3塊餅中,有你的1/3,湯姆的7/3。路人所吃的餅中,屬于湯姆的是屬于你的的7倍。因此,對于這8個金幣,公平的分法是:你得1個金幣,湯姆得7個金幣。你看有沒有道理?”
約克聽了夏普里的分析,認為有道理,愉快地接受了1個金幣,而讓湯姆得到7個金幣。
我們如何用這個方法來分析不同渠道的貢獻度呢? 下面是一個例子,
假設有3個渠道:信息流(A),開屏(B),視頻前貼(C),他們的獨自投放效果和兩兩投放效果如下圖所標識。
下面,我們來計算,每一個渠道的夏普里值,夏普里值的定義:是在各種可能的聯盟次序下,參與者對聯盟的邊際貢獻之和除以各種可能的聯盟組合。
三個渠道,有3*2種聯盟次序,具體計算如下:
因此,信息流的夏普里值為20,開屏的夏普里值為33.3,視頻前貼的夏普里值為46.6。
方法二:生存分析方法(Survival Analysis)
生存分析(Survival analysis)是來源于醫學研究的一種方法,指根據試驗或調查得到的數據對生物或人的生存時間進行分析和推斷,研究生存時間和結局與眾多影響因素間關系及其程度大小的方法,也稱生存率分析或存活率分析。這個方法在醫療處理領域也比較成熟,可以通過以下的映射到歸因分析;
- 病人==>Impression
- 治療方法==>渠道
- 死亡==>轉化
在實現分析中,可以使用COX回歸方法,COX可以對多個因素進行分析;COX回歸方法和邏輯回歸LR有些相似的地方,通過訓練過程找幾個參數,不同的是COX回歸中考慮了時間的因素;通過COX回歸計算,可以算出每一個渠道的權重。
方法三:通徑分析(Path Analysis)
通徑分析的基本原理是美國學者賴特(S·Wright)于1921年創立的。通徑分析是指利用通徑系數分析變量間相關關系的方法。
通徑分析是進行相關系數分解的一種統計方法。它的意義不僅在于揭示了在多個自變量x1,x2,…,xm,y的相關分析中,xi對y的直接影響力和間接影響力,而且還可以在x1,x2,…,xm,y間的復雜相關關系中,從某個自變量與其他自變量的“協調”關系中得到對y的***影響的路徑信息,即從復雜的自變量相關網中,得到某個自變量決定y的***路徑,具有決策的意義。現通過實例說明通徑分析的方法與步驟,并進一步了解通徑系數的意義和應用。它的本質也是基于概率的一些計算。
方法四:馬爾科夫鏈
馬爾科夫鏈模型來自于數學家Andrew Markov所定義的一種特殊的有序列。馬爾可夫鏈(Markov Chain),描述了一種狀態序列,其每個狀態值取決于前面有限個狀態。馬爾可夫鏈是具有馬爾可夫性質的隨機變量的一個數列。這些變量的范圍,即它們所有可能取值的集合,被稱為“狀態空間”。
在應用當中,序列中的每個點通常映射為一個廣告觸點,每個觸點都有一定概率變成真正的轉化。通過這種建模,可以選擇最有效,概率***的觸點路徑。這種方法需要較多的數據,計算也比較復雜。
“哲學是用來解釋世界的,而重要的是改變世界”--馬克思
那么我們得出各個渠道的重要程度后,我們如何使用這些權重是非常有趣的,因為這些渠道都是相關的,需要程序組合一套方案,達到效果推廣***。但是,這些影響力實際上也會發生很大變化:
1.時間變化而變化:例如人們對一些廣告,容易在時間軸上產生疲軟;
2.人群變化而變化:例如洗人群后,效果變化很大;因此,廣告花費在一個渠道的過渡增加,往往會影響效果。
介紹幾個知名歸因分析公司:
1.Google Attribution 360:
Google Analysis Suite 360中有一個重要模塊就是Attribution,這個產品是收購收購了Adometry公司之后,全新打造的新產品。這個產品使用起來非常復雜,需要專業的培訓才可了解。它支持以上大部分歸因分配模型,例如Last Model, Decay Model,customized Model等。
2.VisualIQ
Visual IQ是一家全球領先的跨渠道營銷歸屬軟件公司。公司在2006年成立。公
司的IQ智能套件可以為用戶提供市場數據見解,行政級別和從業級別建議,以提高自己的營銷業績。
Visual IQ是一家專門研究營銷信息管理方案、利用數據以及消費者經歷的每一個營銷觸點對一個客戶整體營銷目標的影響的科學計算和衡量方法的公司。
Visual IQ采用信息管理歸納方案的方法收集數據,然后利用分析模型,計算和量化消費者的購買習慣的方法,去分析數據,整理出最適合企業的廣告方案。
3.Convertro
Convertro 主要利用數據分析,幫助營銷人員了解哪些類型的廣告導致了客戶的購買。AOL與2014年收購了這家公司,收購時間與谷歌收購Adometry非常接近。AOL可以利用 Convertro 的技術,告訴廣告主他們的那些廣告取得了更好的效果,例如,是 AOL 網站主頁上的橫幅廣告,還是《赫芬頓郵報》網站某視頻下方的廣告。Convertro 還可以檢測電視或電臺那一時段的廣告導致了客戶購買。
4.AppsFlyer
移動的歸因市場應該是剛剛起步,有幾家公司開始這方面的工作,包括App推廣渠道的跟蹤,跟蹤效果可以直接對接各種廣告平臺;國外的應用市場比較單純,Android是Google Play, iOS是App Store。AppsFlyer是一個以色列公司,在移動App方面,起步比較早,在行業中也做的比較領先。
//移動歸因其實是一個非常有趣的話題,找個時間,單獨好好聊聊。
總結的話
歸因是一個大問題,幫助分析廣告傳播的效果,更加系統的分析效果貢獻程度,效果形成的路徑,傳播的方式等方面,幫助廣告主優化預算的花費,***化傳播效果和轉化效果。
【本文為51CTO專欄作者“歐陽辰”的原創稿件,轉載請聯系作者本人獲取授權】