東方金信CTO石棋玲:淺析大數據風險分析與控制應用
原創【51CTO.com原創稿件】隨著移動互聯網時代的來臨,從電子商務到互聯網金融,人們在網絡上產生的數據越來越多,大數據已經成為當前金融機構加強風險控制的重要補充手段,大數據技術的應用也越來越廣泛。
在銀行風控管理中,通過大數據圖形分析與流處理技術,能夠對歷史數據、一段時間窗口的信息流和觸發計算的事件進行快速統計,并且與模型匹配,在毫秒級別內進行響應作出判斷;大數據能夠處理非結構化數據,能夠整合圖像、語音、文本、網頁、JSON、XML 等非結構化數據,轉化成結構化字段等。
在實際應用方面,許多銀行基于Hadoop打造了面向全行的開放共享大數據平臺,并且推出了金融貸款產品和個人消費貸款產品;也有銀行利用大數據分析進行精準營銷,比如,對客戶的購物、上網習慣等進行精準細分,推出針對某類用戶的銀行卡等等。政府、金融等不同領域大數據項目,底層是否相通?哪些領域需要做特別定制化?
如下內容是東方金信聯合創始人、CTO石棋玲博士針對大數據風險分析與控制應用的詳盡分析,希望能給大家帶來一些新思路。
大數據風險分析的國內外發展現狀
國內:從技術趨勢發展來說,整個IT行業已經跨過了功能完善的時期,已經從功能建設時期轉為數據建設時期,整個行業開始轉型,所以云計算和大數據必然成為國家發展的一個重要布局。目前大數據在國內發展迅速,在數字經濟面前,數據成為社會進步的***驅動力,是推動社會發展的重要因素,大數據技術成為國家戰略已經是一個趨勢。
在風險分析方面,國內處于一個迅速發展的階段,個人業務包括個人征信、芝麻信用;銀行應用,各大行推出的風險評估產品都數據風險分析的案例。但是國內的數據和國外特別是歐美國家相比,數據質量還是參差不齊的,相較于歐美國家很早就開放數據接口,發布數據開放標準,中國的數據標準和接口起步都比較晚,給大數據風險分析也帶來一定的困難。
國外:當前,許多國家的政府和國際組織都認識到了大數據的重要作用,紛紛將開發利用大數據作為奪取新一輪競爭制高點的重要抓手,實施大數據戰略。
美國政府將大數據視為強化美國競爭力的關鍵因素之一,把大數據研究和生產計劃提高到國家戰略層面。其他國家也在相繼布局,迎頭趕上。
在風險分析方面,因為歐美有著較早數據體系、完善的法律法規和行業指導規范,他們的數據使用也是比較規范的,這也使得在所謂的大數據風控方面,西方國家已經有了很多數據應用。在技術方面,有大量的公司專注于做技術底層,基礎建設這一層;有些純技術公司做上層應用開放,統計分析軟件的;甚至還有大量機構和公司專注于開源技術系統搭建,所以國外在技術上也是相對成熟的。
大數據風險分析國內外發展歷程對比
國內外的大數據基本都是以下四個階段發展的:學術研究--政府推動—大數據價值—數據技術—風險分析與控制應用
最初,大數據概念被提出,隨著2011年麥肯錫正式定義了大數據的概念,大家對大數據也有了越來越多的學術研究。隨著美國德國等國家相繼實行大數據戰略,中國工信部也把信息處理技術作為四項關鍵技術創新工程之一,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析等大數據重要組成部分。慢慢地,大家對大數據能產生的價值有了越來越深的了解,銀行、政府、互聯網巨頭紛紛發布機器學習產品,目前,大數據技術(hadoop、機器學習、人工智能等)已經被廣泛使用。隨著大數據技術的不斷成熟,大數據已經成為當前金融機構加強風險控制的重要補充手段,大數據技術的應用也越來越廣泛。
大數據風險分析的未來趨勢
但隨著互聯網技術不斷發展,整個社會大力提速,數據的標準的建立,傳統的風險分析方式已逐漸不能支撐機構的業務擴展;而大數據對多維度、大量數據的智能處理,批量標準化的執行流程,更能貼合信息發展時代風控業務的發展要求,未來大數據風險分析將會更多的應用在各行各業,越來越精確的分析行業存在的風險,防患于未然。
大數據風險分析的應用領域
從各個行業對大數據調研的參與程度其實已經可以反映出各行業對大數據的關注程度,比如:能源/制造行業對于市場行情的數據更為敏感,歷史的商品行情對于未來的產品設計、風險評估以及市場導向都有較強的參考意義;而隨著政府與公共事業的服務意識的強加與轉變,以及更智慧的執政與管理理念的帶動,對于數據的管理與分析的需求也在日益加強;在金融與保險行業,則是傳統的數據量大戶,而在新時代更好更快的發現客戶金融習慣,將是金融與保險行業未來競爭必須要做的事情,此外,大數據分析也能為金融和保險行業分析出潛在的危險,提前做好防范。
大數據風險管理
大數據風風險管理當前熱點技術有:預測分析、NoSQL數據庫、流式分析、內存數據結構、分布式存儲系統、數據可視化、數據整合、數據預處理、數據校驗、機器學習等。
從技術角度看,傳統企業和外企的差異:
1)在美國或者說全球大數據市場已經有非常多的公司,領域內的分布更加細化,分工更加明確。今天中國的大數據市場,到目前為止,還沒有分工的那么明確,細分領域相對還沒那么多。
2)數據的部分,整個中國的數據環境和西方的非常不一樣。在以前,中國對數據的使用并不多。而在西方國家,尤其是發達國家,比如德國,在十年前就開放數據接口,發布數據開放標準,在1977年就已經頒布了本國聯邦數據保護法律。因為西方國家比較完善的法律法規和行業指導規范,他們的數據使用也是比較規范的,這也使得在所謂的大數據到來之前,西方國家已經有了很多數據應用,比如在金融領域的風控與征信。
3)從技術角度來講,中國公司跟西方公司區別也很大。西方的公司在技術領域里是用技術的分層來去分析的,有些公司專注于做技術底層,基礎建設這一層;有些純技術公司做上層應用開放,統計分析軟件的;甚至還有大量機構和公司專注于開源技術系統搭建。在中國,大家通常做一家科技公司,更多的***件事情先是復制美國的某一個公司或者復制美國的某一個業務,這樣的話很容易被資本市場認可。這也導致中國沒有***層的核心技術公司,至少在早期是沒有的。包括今天,大家都覺得中國的純技術公司也有,但是很少,比如說東方金信。
通過算法控制風險的流程以及***挑戰的環節
金融領域中有兩大風險,一種是歷史風險,一種是未來風險。
歷史風險是從企業或者個人的歷史數據判斷客戶過去的表現;未來風險,是各式各樣未來具有不確定性的因素造成損失的風險。對這兩種風險,大數據的識別能力并不相同。“畫歷史易知未來難”,就歷史風險而言,大數據可以使得歷史畫像越來越清晰。通過不斷拓寬歷史信息的收集整理,再利用大數據神經網絡技術、深度學習技術,個人或企業的畫像逐步逼近個人或企業真實的歷史表現是可能的。從理論上講,隨著數據信息量增大、計算機算力提升、深度學習能力不斷提高,對個人和企業的畫像會越來越清晰,逐步逼近真實情況。
但對于未來風險,依據大數據得到的未來畫像,其可靠性卻不容樂觀。歷史是靜態的信息,在刻畫歷史畫像時,變量為空,就可以不予考慮,憑借有值變量即可刻畫客戶。即使我們有1000個數據采集變量,對一個客戶來說,可能只需幾百個,甚至幾十個有值變量即可刻畫歷史畫像。而對于未來畫像的刻畫,需要考慮的變量則要要多出很多。
在集群規模方面,隨著科技發展,智能硬件的迭代更新,產生的數據成指數級增長,數據量的增長也要求集群處理數據的能力不斷變高,集群規模與數據量之間的平衡、如何靈活擴展,也是公司發展實際存在的挑戰;此外,如何從龐大的數據中甄別有價值的數據,并從這些數據中挖掘到更深層次有用的信息也是需要技術人員考慮的問題。
案例深度解析 -- 某省政務大數據平臺風險管理
客戶需求痛點:政務大數據是一個極其復雜的系統工程,傳統的數據統計、分析方式已經不能夠支撐這一系列復雜的工程,政府業務流程的復雜度要遠遠超過金融和運營商,原來的大數據大多都圍繞一個主線,產生周邊的大數據營銷、大數據風險、大數據管理等,而在政務大數據中,業務會涉及幾十個部門,同時也涉及多個行業,如何把眾多復雜的數據變成有用的價值,為民服務,是目前的一個挑戰。
解決方案:首先,大數據技術會把數據從各個業務系統整合起來,實現了數據模型與分類;其次,這種數據整合將推動傳統業務升級,并協助政府各個委辦局去高效完成新的業務。整個過程涉及多個環節,包括數據共享平臺、交換平臺和大數據計算平臺等,它們都起到非常關鍵的作用。目前,政府也在大力推廣數據的互聯互通,多次發文來推動數據建設和發展,使大數據產業快速地在政府行業做大。
底層技術架構
基于海盒大數據平臺,支持強大的可擴展能力,可以隨數據量增長而平滑擴容;可以實現更靈活的分布式資源管理能力;基于Hadoop流處理技術,提供實時數據分布式處理能力。
數據統一采集、存儲、整合、共享?;跀祿该髟L問模塊提供數據統一訪問管理,實現應用與數據解耦,同時增強數據安全管控能力,提升用戶隱私保護能力。
整合數據挖掘模型,構建運營商統一的商業洞察與網絡洞察組建或模型庫,提供統一的能力服務,快速部署應用。
涉及關鍵技術
某省政務大數據公共服務平臺主要由數據源層、數據采集層、數據處理層、數據中心層、大數據基礎支撐層、數據服務層、數據開放層、數據應用層八部分組成,并制定相應數據標準、應用規范及數據安全管理體系。利用海盒大數據平臺對數據進行統一收集、存儲和管理,
對數據進行分析挖掘、高效檢索、實時分析、即席查詢等步驟,建立起整個政務平臺。
問題與優化
政務大數據是一個極其復雜的系統工程,在了解客戶業務流程和痛點的前提下,不僅僅要有傳統的IT技能,更要擁有強大的數據基礎技能。此外,政務大數據存在孤島效應,必須打破原有信息孤島,實現了數據的互聯互通,數據價值才可以全面釋放。因此東方金信通過建立多層次的資源池的方法,實現數據的匯聚,充分挖掘數據價值。
經驗總結
通過某省政務大數據平臺項目,可以深刻感受到政府行業大規模的使用大數據技術是近兩年才剛剛開始,雖然政府業務流程的復雜度要遠遠超過金融和運營商,而且政務大數據中的業務會涉及幾十個部門,同時也涉及多個行業,但潛藏在其中的潛力也是巨大的,帶來挑戰的的同時也給我我們帶來了機遇,我們應在一次次的項目中積累經驗,不斷強大自己,抓住這其中的機遇。
【簡介】石棋玲博士,畢業于美國中佛羅里達大學,是國內最早開展高強度超級圖形方法大規模風險分析的數據科學家。曾就職美國銀行總部,開發許多算法控制風險、打擊欺詐?,F為北京東方金信科技有限公司聯合創始人、CTO。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】