天弘基金大數(shù)據(jù)中心處理百億級海量數(shù)據(jù)
業(yè)內(nèi)人士告訴記者,一般的企業(yè)數(shù)據(jù)系統(tǒng)采用傳統(tǒng)的IOE架構,處理數(shù)據(jù)量級為***,能處理上億級的數(shù)據(jù)就不錯了,10億級別對一般企業(yè)來說都很難想象,處理時間更是無法保障,而天弘基金大數(shù)據(jù)中心可以做到百億級數(shù)據(jù)的處理,且分分鐘就能計算海量數(shù)據(jù)。
所謂IOE,IBM是服務器提供商,Oracle是數(shù)據(jù)庫軟件提供商,EMC則是存儲設備提供商,三者構成了一個從軟件到硬件的企業(yè)數(shù)據(jù)庫系統(tǒng)。由這三駕馬車構成的數(shù)據(jù)庫系統(tǒng)幾乎占領了全球大部分商用數(shù)據(jù)庫系統(tǒng)市場份額,石油、金融行業(yè)也廣泛地使用這套系統(tǒng),價格昂貴。而天弘基金云直銷系統(tǒng)去年9月份投入使用,成為***去IOE的金融案例,今年天弘基金建立的大數(shù)據(jù)中心,也成功上云。
天弘基金大數(shù)據(jù)中心主管周衛(wèi)國告訴記者,截至5月26日那天,我們《余額寶一周年大數(shù)據(jù)報告》分析應用的基礎數(shù)據(jù)有53億條,基礎數(shù)據(jù)維度15個,而這15個維護又包含各種排列組合的交叉分析,簡單的比如地域和年齡的交叉分析、性別的交易頻率的交叉分析,復雜的會涉及許多復雜的模型,因此本次分析應用的基礎數(shù)據(jù)達到96億條,數(shù)據(jù)維度35個。正是因為天弘基金大數(shù)據(jù)中心有百億級以上的數(shù)據(jù)處理能力,因此我們有能力去做更多復雜的模型,發(fā)散思維,從更多的角度去分析這些海量數(shù)據(jù),以達到最真實地分析出客戶行為路徑,并對業(yè)務給予指導。
比如在對“客戶流失”這個專題的分析上,我們除了看簡單的客戶轉(zhuǎn)出金額、轉(zhuǎn)出次數(shù)、周/月度的行為規(guī)律、提現(xiàn)和消費占比等等基礎數(shù)據(jù),還專門建立了一個客戶流失LOGIT模型,單這一個模型便使用17個指標變量,包含1個目標變量和16個候選輸入變量,使用數(shù)據(jù)有效記錄數(shù)9.6億個,在ODPS上,利用MKW LOGIT工具運行模型運行一次,約需27分鐘。
這樣的模型還有多個,從不同角度挖掘、分析,有時候還會用到人口學、社會學、心理學等知識,客戶是在生活中鮮活的個體,想要刻畫真實的全景圖,既需要海量數(shù)據(jù)的分析處理,也需要科學的方法去定義一些模型。基于鮮活個體的全樣本“大數(shù)據(jù)”,服務于基金投資和業(yè)務開展是我們不斷努力的方向。
大數(shù)據(jù)分析,帶來的流動性預測功能,已成為助力余額寶投資的絕門利器,而大數(shù)據(jù)帶來的圖說,同樣精彩絕倫。從7月7日起,《余額寶運行一周年大數(shù)據(jù)報告》系列圖說以每日一幅的速度,陸續(xù)在“天弘基金”官方微博披露,精彩還將繼續(xù)。