騰訊大數據平臺的秘密——多維度交叉分析
當天幾家公司的大數據應用,相對局限于個性化推薦,例如廣告精準投放、推薦商品、推薦用戶、推薦應用等等?;蛟S,國內的大數據應用由于商業公司功利性的限制,當天幾家演講的公司,大數據的商業化目標明確,而精準個性推薦是其中最有效的手段。
騰訊大數據現狀
IBM將“大數據”理念定義為4個V:大量化(Volume)、多樣化(Variety)、快速化(Velocity)以及產生的價值(Value)。我們可以從這幾個方面一起看看騰訊大數據現狀。
從業務角度
騰訊數據真的夠大。騰訊數據平臺自研的TDW替換了商業數據庫,實現公司級數據集中存儲,總記錄達到375萬億跳,日接入5千億條,覆蓋移動設備數7.7億。
從平臺角度看
騰訊數據平臺從設備8400臺,單集群5600臺,總存儲100PB+;日新增數據200TB+,月數據增長率10%,日均JOB數100萬,日均計算量5PB,量夠大,速度也夠快。
從用戶角度看
這里的用戶,指的是騰訊內部員工。騰訊員工2萬多人,騰訊數據門戶的月活躍是2500左右,也就是說訪問騰訊數據門戶的人占比公司10%+;每月處理數據提取分析的任務數是1萬個,如果訪問者每人都會提數據任務,平均就是一個人提4個左右的分析提取任務;用戶畫像分析任務為1.2萬,可以看出騰訊對用戶畫像的重視程度。
騰訊大數據的多樣性
下面的圖,騰訊數據平臺已經接入100多個產品的各類數據,例如:用戶行為、賬號屬性、收入數據等等。
騰訊數據平臺產品架構
騰訊數據平臺從五個方面進行產品設計,分別是:數據管理、數據監控、數據分析、數據可視化、數據挖掘。
這也是我曾經在騰訊、YY語做過的數據產品運營工作的主線,五個方面分別通過各種數據產品落地,為公司內部產品策劃、產品運營、產品營收、客服、財務等提供數據支撐。
騰訊業務平臺與數據服務
下面這張圖非常清晰的闡明了騰訊數據平臺的數據服務與業務平臺的關系。數據服務的核心是分布式存儲、實時計算(TRC)、離線計算(TDW),以數據產品的方式對外呈現于應用,業務平臺則考慮用戶接入、業務邏輯、關系型存儲的工作。
其中,對于海量數據來說,至關重要的是 Gaia高效的資源調度,提供高并發的任務調度與資源管理,為實現秒級的數據監控與實時運算提供保證。
Gaia高效的資源調度
騰訊大數據應用成效
數據成為生產力,支持海量用戶產品發展。
騰訊廣點通,精準廣告投放,
騰訊信鴿——大數據精準移動推送
用戶留存率提升100%,用戶活躍提升100%。
給騰訊信鴿打個廣告,網址是:http://xg.qq.com/
游戲模型,助力手游精細化運營
自助分析
自助報表
黃金眼——快速報表
用戶畫像
原文鏈接:http://www.36dsj.com/archives/7208