王天青:麻袋理財大數據平臺及金融風險控制實踐案例分析
原創由51CTO舉辦的WOT”互聯網+”時代大數據技術峰會上,來自上海市凱岸信息科技有限公司的麻袋理財***架構師王天青做了以《麻袋理財大數據平臺及金融風險控制實踐案例分析》為主題的演講。本文章是把本次分享干貨亮點的整理成文字形式,呈獻廣大的用戶:
今天很高興也很榮幸,能夠在這里跟大家分享一下。我們公司成立的時間也不長,我們在大數據方向上做了一些實踐,以及有一些簡單的案例,今天拿出來跟大家做一個拋磚引玉。
麻袋理財來自中信集團,主要是做互聯網消費金融,其實它連接了兩個P,一個P是借款人,另外一個P是出借人,有錢的人把錢借給缺錢的人,這中間有很大的學問。當然借款人也不一定是一個個人,也可能是一個企業。麻袋理財是我們線上理財的平臺,CTCF是我們線下跟這些借款人打交道的公司。
簡單講一下行業背景。P2P大家已經有所了解了,從2013年、2014年蠻荒時代,到今年已經逐步走向正規的時候了。現在人民銀行會同銀監會、證監會、保監會等10部委聯合印發《關于促進互聯網金融健康發展的指導意見》。其中有四條很重要,***條是要鼓勵創新,第二要防范風險,第三條要趨利避害,第四條是健康發展。
互聯網金融起步也有一定時間,防范風險是各個公司的命根子。比如像銀行他們已經有很長的基礎,有一定的品牌溢價。銀行因為有政府背書,但是萬一如果有一個互聯網金融的公司出現網站打不開,大家***個疑問就是是不是跑路了。
我們跟業務部門同事的討論,對行業的風險做了一個簡單的分類。***是信息安全,這跟傳統的信息安全基本是類似的。第二是運營風險,第三是欺詐風險,第四是信用風險。
從技術角度來看。***個是數據種類,我們是想獲得很多很多的數據,但是我們不是銀行,要跟他們合作拿到的數據是非常少的。第二我們也是試圖從各個渠道拿一些數據,但是這些數據之間的關聯度是比較小的。再一個從數據的特質來講,每一類的數據價值密度比較低,因為它并不是一個真正意義上的真性數據、貼名單數據,必須要綜合利用。再一個是類型比較復雜,比如它有結構化的數據,數據庫的方式,也有半結構化文本的方式。***在數據分析上,需要你有些時候做實時分析、實時判斷。
講到底我們說的大數據理念有三個V,一個是量非常大,第二是種類非常多,第三是速度很快,產生的數據量很大、很快。在大數據的生命周期里,***步我們要獲取更多的數據,這個數據可能是我們跟第三方合作拿到一部分數據,另一方面數據是用戶提供給我們。第二個我們要把這些數據都存儲起來,其實每一樣的數據都會有歷史版本的,包括用戶的基本信息,這些數據我們都需要存儲下來。第三個我們要利用數據挖掘算法,對這些數據做分析,矩列分析,關聯分析等等。第四是優化,因為機器算法分析的結果并不一定有用,看看哪些東西是我們需要做調整的。***是產生價值。
麻袋理財有線上業務和線下業務,線上業務是在云上,線下業務是在IDC里面,我們用的這套虛擬化的平臺,當然現在也用了docker。核心的數據都在我們的IDC里面,云上有一些應用訪問的數據,都會到云上,***同步到我們的IDC里面。
針對實時數據,我們利用了卡夫卡和斯巴克這兩個工具做這個工作。首先我們會收集所有的應用狀態、性能。我們會把一些重要的關鍵數據,比如用戶登陸的時間、用戶提現的時間等做一個整理到卡夫卡這邊。我們也用ERP做全文檢索,***實際的數據都放在HDMS上。
我們在IDC里面部署了這個大數據的平臺,底下是HBFS,做一些交互性的數據。
數據分成外部數據和內部數據,外部數據就是用戶提的賬單數據,還有一部分社交數據,還有一些征信數據,這些數據***匯總到HBFS里面。然后我們有內部的系統,內部系統包括信貸系統、賬務系統、催收系統,都會有自己的數據庫,這些數據定期的可以通過Saoop把數據同步到我們的HBFS里面。當然我們還會做一些數據的清洗和匯總。
***是有兩大應用場景,***種是做傳統的DI,另一個是用Tez做一個報表的展現。上面我們做深度分析和挖掘,主要用一個SAS這個軟件,另外我們也用R/Python做,Python有一個數據挖掘的庫,我們會直接用它。***得到這個結果形成可以被應用到業務系統的規則,來驅動業務系統的升級。這個大概是這么一個流程。HBFS承載了我們所有的數據,這個就是我們現在所說的實時分析和P處理、歷史分析,都能支持的一個平臺。
***所有做的事情是要解決三大哲學問題,你是誰,你來自什么地方,你要去哪里。
總之,風險控制是互聯網金融成敗的必要條件,它不是充分條件,是一個必要條件。在互聯網的背景下,數據呈現了多樣化、海量、需要實時處理,一旦損失或者風險發生,就為時已晚,你必須要在風險發生之前做出判斷。因此建立大數據平臺是互聯網金融必須的技術手段,用傳統的方式達不到這個效果。