【友盟+】李丹楓:從用戶行為數據透視大數據商業密碼
原創【51CTO.com原創稿件】2016年11月25日,由51CTO.com主辦的WOT2016大數據技術峰會在北京粵財JW萬豪酒店召開,50多位來自阿里、騰訊、百度、京東、小米等知名企業的大數據領域資深技術專家齊聚大會現場,將在兩天的時間里與逾千名一線IT技術人員直面交流,分享經驗。
在WOT2016大數據技術峰會的主會場,【友盟+】CDO李丹楓做了《從用戶行為數據透視大數據商業密碼》的演講。以下是他的演講實錄:
說到大數據肯定先要介紹所謂的大數據到底是什么數據?這個數據里頭包括了幾個部分:
***,友盟+的APP統計服務,服務了將近一百萬個APP,所以友盟+是有APP的用戶行為數據,就是APP用戶什么時候啟動使用?使用時長?這些信息的數據。
第二,網站的信息,網站的內容,用戶的來源,搜索詞友盟+都有涉及。友盟+每天會收集240億的數據,這個體量是友盟+多年積累才能達到的。
最近的例子是在剛過去的雙十一,當天友盟+一個廣告效果,監控的產品實際上監測到了人民幣34億的廣告投放。友盟+每天能夠觸達中國社區每天活躍設備是達到了13億,所以基本上來說,如果在中國你是一個比較正常設備的話,有很大的機會我們是會監測到部分行為的。
今天主要分享的這三個內容,主要都是基于數據,友盟+做了挖掘的工作和應用的實踐。
我覺得作為數據來說,最重要的是連接,因為你只有把數據連接才能產生價值,任何獨立的數據點其實用處都不是很大的。對于友盟+來說,最核心的數據是用戶數據。剛才提到了友盟+有APP的使用數據,有網站的瀏覽數據。你能想象,如果我們把移動端的數據跟PC端的數據結合起來,對一個人的行為可以有更完整了解。
友盟+根據數據做了幾個事情:
***個,是人口學信息。包括年齡、性別,還有加上他的地理位置這些信息。那么這些信息,實際上會通過一些標識數據,用這些標識數據做模型訓練,做出這個模型就可以對全量的數據進行預測。用預測的結果,用到友盟+的應用當中。
第二個,是行為信息。這個行為信息,其實包括了線上行為信息,移動端的APP使用行為和PC的瀏覽行為,實際上友盟+現在已經開始進入線下這個領域,收集人的進店行為,你去哪個商場逛,你進了哪個店,這些行為把它收集起來,跟友盟+的線上行為打通。所以友盟+行為數據包括線上和線下,當然線下可能還沒有線下的體量大,但是現在的增長也是比較可觀的。
第三個,更重要的實際上是通過這些數據,會找到一些關系特征,其實這里包括了人與物的關系,人與世界,人與空間,人與時間,和人與人的關系。大家可以想一下,比如說一個廣告主要做一個活動,我做這活動是不是可以找到,比如過去做的活動,對這個活動有興趣的人都是什么人群?可以把歷史的數據和你現在要做的關聯起來。這個不是有一個固定的標簽體系,這樣可以比較靈活的去滿足客戶需求,包括這個例子實際上是人與事件。人與物很多時候可以理解成,你對這個商品是不是有興趣?人與空間,你經常在哪個區域活動?你家在哪?你上班的地點在哪?人與時間,你不同的時間段可能有一些不同的信息。這些對內容提供商有幫助,因為他不同的時間有不同的推送。當然***人與人之間的關系,非常重要。
除此之外,當然還會收集一些其他的特征,這些其他的特征,基本上是包括,這里所有,剛才提到的這些可以命名的信息之外的一些信息,這里不一一贅述了。
這是對數據的一些基礎處理,有了這些基礎處理,最主要的是得到行為數據,這因為我比較強調行為數據,行為數據到底能夠對傳統企業也好,商家也好,能夠提供什么樣的價值?這里會舉三個例子。
***個例子非常容易想象,就廣告營銷,這個是基本上做大數據現在應用的幾個主要場景,一個是廣告營銷,一個是搜索,一個是推薦,一個是金融。廣告營銷友盟+今年做了一些嘗試,用數據做廣告營銷,***的特點是有高覆蓋率。可以拿一個最近做的案例,這是一個游戲的發行商,它有很多很多游戲。他自己是有一個自有的DMP,所以友盟+這個比較實際上不是跟一個什么數據都沒有的比較,友盟+是用自有的DMP和他的DMP進行比較。
因為友盟+每天可以監測到1.3億的設備,所以覆蓋量非常非常大。談到這個覆蓋量具體的數字,用戶的DMP對于他所要投放的人群,他的這個性別和年齡的覆蓋率分別是74.1%和45.6%。對于友盟+來說,兩個都是91.2%。大家可能會問為什么兩個都是91.2%?因為我說了友盟+的性別年齡是用預測模型做的,當然友盟+的設備都會有年齡性別,當然除了一些有問題的設備沒有這樣的信息。如果認為這是一個質量比較好的設備,友盟+都會有相關的信息的,所以這個覆蓋率是91.2%,基本上是覆蓋率非常非常高。
當然重要的一點,友盟+做了一個離線的CTR預估,其實自有的DMP,我基本上是說,沒有給具體的數字。用友盟+的數據你LIFI是原來的1.4倍,CPA從1降到0.6。1.4倍什么意思呢?這個離線你可以理解成我把它做成兩個類型,我在這個人群里面去預測哪些人是最容易點擊的?因為我有預測的值嘛,我可以看到預測的效果是怎樣的。我投了一百萬人有一萬人點擊了,這一萬人要排在我前面,當然現在還沒有系統達到這個效果。
前面的一千人里,有一百個人點擊了,這個預測的1.4,大概的意思,在前面這個,剛剛指的一萬個人里有140人點擊了,這個更容易篩選誰更容易點擊你的廣告。這個對后面的投放有很好的指導意義。
既然友盟+把這個順序排得***,意思就是說,你把你的錢更多的用在刀刃上了,因為你預測的點擊準了,所以你點擊的人在你投放的這個范圍內點擊你的人,用友盟+的模型實際上圈出來的人更多了。因為你投放的錢是一定的,你每個人的點就降低了,降低了40%。這個數字還是很有意義的,因為這個不是說跟一個隨機投放比,而是跟一個已有的DMP去比。
這是***個友盟+做的離線測試,當然這離線的測試往往還不能說明實際的問題,所以大家往往看到一些真實的案例。
這是一個游戲,這是一個APP的創意。友盟+做了一些分析,我這里用了一個叫TGI,用了一個星號。這個平常的定義是什么呢?你這個人群跟整體的人群的比較,剛才***內容官說到,我們的講師都是男的,其實我看的一下,這一屆的講師也全都是男的。如果說我們這個人群性別的TGI跟整體的TGI比,那就是一個非常明顯的區別,我們這邊絕大多數都是男的,少部分人是女的,正常是50%50%。
所以這個TGI的意義是說,我要把兩個人群的***不同給它放大。如果說大家做過一些畫像產品,可能都會有這樣的體會,如果我畫出來,好像我所有客戶的畫像都差不多,這什么原因呢?因為現在市面上很少有一個DMP能夠給你非常非常完全沒有一個偏差的數據統計。
因為你這個數據的性質,你本身這個數據級和在你采集的這個用戶的行為,因為不是他所有的行為,這本身可能就會有偏差。你用稍微帶點偏差的數據做出畫像,你會發現在你的數據里頭,相似的永遠相似,不管在什么場景里面。所以為什么用TGI呢?實際上就是把你關心的人群跟原來用你這個數據畫出來整體人群的差別做一個對比,這樣把差別的地方放大。 實際上對比就是用你的人群除以整體人群的比例,這樣把差別體現出來了。
這里的TGI,用了所有看廣告的人,點了和沒點做了個比較,所以這個不是對一個整體的比較。這個更顯示了這兩個人群的區別,我發現比較明顯的幾個區別,***個點的人對冒險類的游戲都比較有興趣,比較喜歡看跟軍事有關的新聞。后面兩個是說男性25到35歲,有了這個歷史數據的分析呢,就可以用這個去指導投放,我下面再投放的時候,我就要用這四個緯度,當然這個我只是舉一個簡單例子,實際上并不是只用了這四個緯度。去圈你下一次要投放的人群,效果其實還是有,如果你要算相對的提升,還是有很高很高的提升。所以這個實際的案例去印證我們的數據能夠為廣告主提供很大的價值。
當然了,這個例子,大家可以會覺得這個例子比較人肉,我有一個廣告主來了,可能找一兩個人去給他做一個比較深入的分析,我說我怎么去把你的歷史數據拿出來做一個比較?怎么提出來哪幾個緯度***?這個人肉的方式我們不是特別喜歡。剛才阿里云的同志也說了,支付寶這邊放貸是沒有人工介入的,我們也希望做廣告沒有人工介入。在廣告業,當然這個其實并不是一個新的事情了,就是我如果用一批自己的核心用戶,我肯定想找出跟我核心用戶相近的人群,我把我的消息推送給他們,這實際上是最有效的。
這個對做數據的人來說,反而是相對來說比較好做的事情,因為有訓練數據的,這個非常非常關鍵,而且很多廣告,效果廣告,尤其像安裝啊,***的這種轉化數據也是非常非常明顯。所以我們有訓練數據,也非常容易定義我們的目標是什么?其實我們就可以通過廣告本身核心人群,在這個整體的人群里頭去找,哪些人跟他們最相近?
這個找呢,友盟+數據一大好處,數據一個是覆蓋非常多,知道它的行為也很多。所以,這個找你緯度越多,越容易找到相近的人,如果你只是從一兩個角度去看這個人,其實你有時候很難判斷他們倆是不是真正相近?當然我們數據也不是很***,但是至少我們有很多緯度可以作為參考。
所以友盟+就訓練了模型去通過你的人群給你放大,還有一個好處,我這么放大,你可以任意選投放人群的大小,因為這個模型做出來,實際上把整體的整個的人群做一個排序,最和你這個相近的人群都排在前頭。如果你投一千萬人,我可以給你劃一千萬人,這樣你永遠可以找到人投,而且我們可以告訴你為什么投這些人?一些傳統的DMP的投放方式,包括他們打標簽的方式都是基于事實的標簽,也就是說,我判斷這個人是不是對體育有興趣?我可能說看看他最近是不是用了體育相關的這些APP,如果他用了,我就給他打上一個體育性質的標簽,如果他用的多我還可以給他一個權重。但是如果這些人沒有用體育,或者你沒有監測到他用體育的APP,你沒有監控到,并不能說明他對體育沒有興趣。這個就是說我根據各個緯度去判斷這個人群的相似成都,其實你可以理解成友盟+是覆蓋***的人,只是你愿意投到百分之多少的閾值那,這個對廣告主來說也是比較靈活的。
這個是一個比較,這個并不是特別特別***,這個因為能夠找到很多新的人群,所以這個線保持得是比較平穩的。當然我們還在做許多工作,在模型上,在特征上把這個能夠做得***,這兩個是實際我們在廣告營銷上投放的兩個實際的案例。
下面一個,個人認為比較有意思的,這個項目是今年年初成立以來,我起動的一個項目,本身跟我自己的背景稍微有點相關,因為我原來在美國是做過風險控制。我就在想有這么多數據是不是能在風控上做一些嘗試呢?因為在美國實際上有一個公司,它是原來谷歌的CIO出來辦的。他辦這個公司的目的是什么呢?其實美國整個征信體系是非常非常好的,它有三大信用局,它把美國所有人有關這種借款、貸款、信用卡這種還款記錄,實際上都收集起來了。收集起來以后呢,三大信用局,有一個公司是我工作的公司做了一個叫風險控制,這個在美國非常非常重要,如果你的風險控制高,你帶看可以比別人貸款利息多的多。
美國這個數據收集了很久,歷史很長,覆蓋率也很好,確實是把信用高的人和信用低的人分開了,但是信用高的人因為信用高,那各大貸款、銀行都爭先恐后去搶這些人,必然他們的利潤就會越來越低。我在美國的時候用信用卡,我其實不太看利率多少。這個意味著,你如果說都集中在這一塊,你的這個利潤其實競爭,中國所謂的紅海,競爭是比慘烈的。
谷歌這個CIO,他的想法是說,我是不是可以收集一些其他的數據源?因為那些數據都是跟借貸直接相關的數據,然后更好的用一個用戶信用的判斷。這樣的話,我可以去找這些信用好的下面這一層人,這些人他們可能是因為信用分不高,所以他們拿不著貸款,我可以收很高很高的利息,但是如果我在這些人里做一個篩選,我能把有意愿,有能力還款的人再篩出來,我做這個生意就是一個很好的生意。
所以他當時是建了這個公司,他是用了大概兩千多維度,其中包括用戶行為數據。我這邊一看用戶行為數據,比他的用戶行為數據覆蓋率大的多的多,友盟+為什么不做一個嘗試?這就是啟動這個項目的原因。
剛才提到了一點,這個數據跟風控有關的數據,其實是一個金字塔型的。在金字塔最上方就是你借還款記錄,這個非常非常重要,美國的三大信用局收集的數據是這個數據。下面是一些消費數據,包括你銀行卡的記錄,包括你在淘寶、天貓上的這個消費,因為現在很多外面的P2B公司,把你的淘寶帳號給我,我去查一下你的消費記錄。
再下面一層是通訊數據,就是你的電話記錄,這個也用得非常多。再往下是社交,其實通訊里頭可以引申出一些社交,你經常給誰打電話?當然社交還包括微信微博。***是行為數據,這些數據有什么不一樣呢?越往金字塔的上方跟風控和信用相關性越強。你如果掌握了這個數據,它能用這個數據做很好很好的模型。越往下面呢,實際上是覆蓋率越來越高,尤其在中國,央行有一個信用數據,里面有3.5億人,這3.5億人,實際上它收集的數據也不是特別特別全。
行為數據的好處是什么呢?我剛才提了數據覆蓋量非常非常大,尤其在互聯網和APP使用上,一般人不會說我要做個假,我自己假裝成我是一個別的人,所以這個行為數據是非常非常真實的。那是不是說可以通過這個行為數據做一些有意義的事情在風控和信用方面呢?所以今年做的一些比較有意思的嘗試。
***個,是匹配率。因為企業最關心,你要用這個服務,你不能說給一萬個服務號,我只給你匹配一百個,你沒什么用,你必須有足夠高的覆蓋率。
***個發現拿到這個數據,對于按期還款的人我們能夠匹配到71%,這個匹配不是用全量數據,只是用了一個月的數據,要不然做這種驗證代價太大了。對于沒有還款的人,他匹配率66%不到。整體來說,如果給我一個數據,我能給你匹配到70%,那么這個就可用。
因為看了一眼這個預期和不預期的,他們匹配率不同,下面一個自然想到他們風險是不是不同?這個數字說明什么呢?是說如果一個設備在這兒沒有找到匹配,它的風險要比找到了匹配的風險要高28%。實際上這對于下面這個借款公司,這個本身可以作為一個參考。這是非常早的時候發現一個比較有意思的事情。
第二個,操作系統跟手機品牌。這個其實大家比較容易想象,這邊是IOS這邊是安卓,因為IOS本身它的系統也比較封閉,不太容易做太多亂七八糟的事情。安卓是很開放的,有很多山寨機,甚至有很多模擬期,都可以模擬安卓,所以安卓本身風險率要比IOS的要高很多。
另外一個比較有意思的事情,是友盟+內部,因為每天這么多設備,我們會這些設備做一個評級,這評級的意思就是說我去判斷,你這個設備是一個非常正常,有正常使用的設備,還是說你這個設備是一個用來刷量的設備,羊毛黨用的設備?這個是統計級別的,我們其實自己想一些規則,做的一些統計上的處理。我們把這個評級內部評為一到四級,一級是***的最正常的設備,四級是最不正常的設備,這里可以看出他們之間的風險率是非常非常不同的。
下面簡單說一下友盟+用到的特征和模型。我們的特征分成幾類,一類是APP相關的,你安裝的APP,或者你經常使用什么APP。第二類是跟設備有關的,品牌、操作系統,包括你的尺寸、價格和我們內部的質量。
下面這個例子基本上差不多,這是0.68跟0.28,友盟+現在跟所有的P2B公司,或者銀行,我們不希望你直接用我們這個輸出去判斷是不是給人借款?但是我希望你把我們這個輸出整合到你們自己的模型里頭,用到你們所收集到的數據,消費數據、通信數據、社交數據放在一起,希望能夠幫助你們做得更好。這個是我們在風控方面的嘗試。
***一點,開始進入店下,從客流分析入手。之所以做客流分析,友盟+前身的公司就是做APP的客流分析的起家的,這個實際上我們的老本行,只不過你的數據源不同而已。為什么做線下?都說線上很好,線下的日子過得很好,一個原因,如果你想一個電商的網站,用戶從進入你這個網站他的所有選為你有嚴格的監控,他干了什么你全都知道,什么東西都躲不過你的眼睛,你就可以用這些數據做很多多的優化。包括雙十一淘寶、天貓每個人看見的產品都不一樣,這些都是多年收集數據的結果。
對線下來說就比較慘淡了,線下你如果說到我這個店的附近了,我是不是有辦法知道你?這個線上的話,除非他過來了,要不你是不知道的。對于線上來說呢,其實這所有的環節基本上到現在為止,沒什么輸出,付款你可能知道一點點,如果他有你的會員,你說會員卡給我,我可能你買了什么東西,如果他現金付不是會員,你只知道他買了什么東西,對于這個人你完全不知道。
對于線下來說我一點數據沒有,我怎么做優化啊?沒法做優化。我們就想,是不是可以幫助線下的商家開始收集一些數據?收集數據呢有很多方法,收集數據傳統的有紅外線,有攝像頭。紅外線和攝像頭的好處呢,它數的屬于可能相對來說比較準一點。壞處是它沒辦法做連接,我剛才提到這個數據非常重要一點是連接,今天這個人來了,明天這個人回來你不知道他是同一個人。我們現在人臉識別技術很好了,像我一看見這個人,我就可以跟你說歡迎你,再次回來。這個離具體到實施還是有一段距離。
現在還有兩個方式,一個是通過WIFI收集,這個WIFI不對人,只對設備。只要你手機開了WIFI,它就不斷往外發信號,去找最近有沒有上網的地方?他發的時候把手機的ID也會帶著,WIFI可以去匹配這些信息,這些信息收集到以后,你就知道這個人來了,在我店里待了多長時間?他第二天是不是又來了?
Beacon它就是一個二維碼,你不用去掃,你開著藍牙它就自動知道你在附近了。這三個都是WIFI,這個是Beacon。
今天我主要分享一下跟WIFI有關的嘗試。WIFI比較好的是用戶不需要做什么,如果他開著WIFI,我們就能收集到信息,我們也可以做連接。做了連接以后,實際上我們有一系列的指標可以計算出來,這里頭包括客流數,路過數。客流數在某一個時刻有多少人在你店里?路過數是有多少人從你店前路過,這兩者一除你就知道你進店人數。
后面包括兩個,一個是跳出率,一個是進入率,這個是有的人一進我店就出去的,對我們店沒什么興趣。還有人一逛逛兩個小時,這個人就是的金主。新客。還有這個人是不是來過?如果每周都來我店,每次來都待30分鐘,我把這部分人圈起來,這是我將來重點營銷的人。
現在我們做的一些案例,***個案例,去年雙十一促銷,是一個化妝品的零售店,北京有24個店面,它這個促銷店面,11月6號到11月11號,他主要想衡量他這個活動到底效果怎么樣?我們用的是WIFI探針。
***項,這個線是總客流的情況,這個線是入店客流,然后在促銷期間呢,大家可以看到,這個入店客流增長還是不錯的。總體看這個效果至少對引流來說還是做得不錯的。但是是不是都是這樣呢?就更細節的看一下,因為它有24個店在北京,分區,四個區。好像有點問題,有兩個區不錯,另外兩個區好像基本上沒效果。這個數據我們就給到店家,你去深入研究一下,為什么這兩個有效果,這兩個區沒效果?這會對后面有一個比較好的指導,有一個定量的指導。
我做的不簡單只是客流,因為這個數據可以和我們線上數據連接,連接以后就可以對你的人群有一個更好的了解,一個是你的性別,有多少人,這是性別的分布,你的客流性別分布這個主要以女性為主。在網上消費的能力,年齡的分布,在網上消費的頻率還有你經常感興趣的新聞是什么?你經常使用的APP類型是什么?這些我們都可以提供通過這個產品。
第二個,是一個展會,這個展會實際上是用這個可以看一下熱力跟動線圖,因為時間比較緊,這個字不過了。說一下這個效果,這是這個會場的平面圖,你可以看到人流是怎么在你主要幾個點之間流動的,包括人流的大,這個是熱力圖。哪些點大家比較感興趣,你都可以看到。
我們希望通過這個線下的數據收集和線上的數據打通,能夠把線上商家的數據化應用能力,提供給線上的商家,其實很多線上的商家走到線下,線下的商家都到線上,這個也符合我們的發展趨勢。
好,謝謝大家!
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】