51CTO 網+第八期線下公開課干貨分享:移動時代的數據挖掘和行為分析
原創12月26日,逼走了圣誕老人的霧霾依然猖狂。然而,它卻阻擋不了百位移動開發者參加51CTO 網+第八期線下公開課的熱情。
2015年,得移動者得天下的態勢愈加明顯。對海量用戶數據實現有效的挖掘和行為分析,對實現移動端業務的迅速增長至關重要。作為今年的收官之作,本次51CTO 網+線下公開課邀請到TalkingData、微軟、友盟等專注于移動領域數據挖掘和行為分析的三位一線專家,為大家全面解讀移動方向的自定義模塊化功能的設計思路、數據挖掘清洗、用戶行為分析的關鍵。
首先進行分享的是來自友盟的高級數據挖掘工程師王琪,與大家分享友盟在移動端進行多維度用戶數據分析的實踐經驗和思考。
友盟高級數據挖掘工程師 王琪
王琪講到,數據分析通過抽樣統計的方式實現。只有當數據量足夠大時,我們對用戶的刻畫才能更準確,更全面。那我們應該依靠哪些維度建立模型,才能從數據沙漠中找到綠洲呢?
用戶分析的幾個維度
用戶的唯一標識
在許多現實問題下,移動互聯網用戶唯一標示的工作非常困難:
- 安卓山寨多,多種ROM,各種安卓系統的設備泛濫,同寨機共用IMEI,刷機ROM導致MAC一樣
- 蘋果系統封閉,可用的設備標識一直在變
對此,王琪提出了改進設備標識的兩個思路:
性別預測
性別預測是最為常見的問題。用戶會在移動端安裝各種和各樣的APP,我們如何識別使用安裝了這些應用的設備的用戶,是妹子還是猛男?
性別預測思考:
- 數據>算法,數據假設;
- 數據預處理70%+模型,算法,評估30%;
- 生產工具的發展 =》生產力的提高
興趣識別
興趣的識別直接關系著廣告的精準推送問題。王琪分享了友盟的興趣標簽架構、興趣標簽場景,為大家提供借鑒和參考。
圖:用戶分析----興趣標簽架構
在建立興趣標簽時,王琪建議大家在這些層面上思考:
- 長期興趣和短期興趣
- 標簽體系的可擴展性
- 標簽效果的評估
低質量用戶的識別(刷量分析)
快速且低成本實現用戶增長的利益驅動下,業界不斷有通過刷新增、刷活躍、刷留存來騙投資人、騙老板、騙廣告的黑色產業鏈存在。確實,只要有利益,就會有作弊;但只要有作弊,就會有反作弊。
對于識別低質量的用戶,友盟設計出設備評級的方案,對APP的渠道質量進行評估,對用戶設備進行評級。
圖:低質量用戶的識別----設備評級
第二位出場的是微軟(中國)有限公司開發者體驗和平臺合作事業部 高級技術平臺顧問梁健與大家分享在萬眾創新、萬物互聯的時代,微軟如何創新技術助力IoT發展。
微軟(中國)有限公司開發者體驗和平臺合作事業部 高級技術平臺顧問 梁健
如今,智能硬件、穿戴設備對于我們來說不再陌生。隨著物聯網技術的發展,生活中更多的不可能變成可能。梁健認為,在未來5至10年,物聯網將會實現更加快速的發展。究竟什么是IoT?只是簡單的終端設備聯網嗎?
為了讓大家更全面、清晰地認識物聯網,梁健分享了一張最普遍的參考架構圖。
參考架構
為了順應移動互聯網時代新的發展趨勢,微軟以“移動優先,云優先”作為戰略方向,打造業界***的平臺和生產力服務,為企業提供從設備到云端的多種解決方案。
除了面向大眾消費者的Win10家庭版和專業版以及面向企業的Windows10企業版之外,微軟還發布了面向物聯網領域的Win10 IoT正式版本.Windows 10 為具有到設備和云的企業級和本地連接的設備提供了一個通用的平臺來啟用物聯網。這樣一來,開發一個物聯網應用就可以適配所有的設備,打破物聯網應用開發的界限。
具體來說,Win10對物聯網應用開發提供更好的支持體現在以下幾個方面:
***出場的是TalkingData***數據科學家張夏天,他為大家帶來了一種實現用戶增長的新思想:Lookalike over Mobile.
TalkingData***數據科學家 張夏天
目前,用戶在使用移動應用時表現出非常重的頭部效應。排名靠前的應用覆蓋非常集中。這帶來的后果是,對同一類型的兩組用戶進行行為差異分析和行為趨勢預測時非常困難,無法有效發現潛在用戶。
Lookalike是什么?張夏天解釋說,這是一種通過種子用戶尋找類似人群的技術。它通過提高人群定向的效率,尋找到潛在用戶,達到實現用戶增長的目標。它通過建立主樣本進行機器學習,建立預測性模型,建立對應用的重新排序的過程,與目標APP進行用戶相似人群的匹配分析?;谠O備和應用的Lookalike訓練過程分別是:
目前,Lookalike面臨的主要挑戰包括
- Billion級別的訓練數據:
- Million級別的應用
- 數據稀疏
- 樣本平衡
對此,TalkingData進行了有針對性的優化實踐:
通過TalkingData優化過的Lookalike***特點是:只需要一次迭代。在并讀很大集群之上,做到十分鐘內完成一次十億級別數據的機器學習訓練,而且對樣本平衡的要求不敏感。
通過實例,張夏天向我們直觀地展示出通過Lookalike得出的人群特征APP對比,對同一類型的兩種應用得出的應用組合結果看出在一定程度上細分出某一人群類型的區域、性別、用戶黏度等特征。
在每位老師的演講結束后,在場同學都踴躍地與專家就演講內容中的問題交流互動。
活動結束前,各位專家從現場抽出了多位幸運同學,獲得由51CTO提供的精美紀念品。
2015年,51CTO 網+線下公開課得到用戶大力的支持。未來一年,網+將繼續堅持每月推出一期圍繞移動開發者切實需求為主題的線下公開課,為廣大移動開發者提供交流和學習的平臺。