淺談大數據風控平臺的功能需求
本文轉載自微信公眾號「數倉寶貝庫」,作者鄭江。轉載本文請聯系數倉寶貝庫公眾號。
大數據風控業務的開展依賴智能風控平臺,智能風控平臺的技術基礎是大數據技術,智能風控系統技術架構也是以大數據系統技術架構為基礎演進而來的。
智能風控系統技術架構主要分為訪問層、展現層、系統層、大數據平臺四部分,其中大數據平臺又分為接入層、清洗層、計算層、數據層四部分。本文主要介紹大數據風控平臺。
智能風控系統技術架構圖
大數據平臺是智能風控系統技術架構的持久層,但又超越了傳統的持久層功能,是以持久層為基礎進行了技術應用的豐富。持久層又叫數據訪問層,是指把數據永久地保存在存儲設備中,它直接與數據庫交互。
大數據平臺的創建不僅服務于智能風控體系,還服務于業務的其他場景,例如業務的營銷場景、運營場景等。考慮到智能風控系統技術架構的數據還會服務其他業務場景,因此在初期搭建規劃的時候應該考慮數據層的通用性、易用性、非耦合性等;并且伴隨互聯網業務的快速增長以及大數據技術的廣泛運用,傳統持久層的設計也不再局限于數據庫以及數據的交互,而是以持久層為基礎升級革新為大數據平臺,統籌管理、規劃數據的應用。
智能風控系統技術架構的大數據平臺劃分為接入層、清洗層、計算層、數據層四部分,這里只著重介紹接入層、清洗層、數據層的技術應用。
01接入層
接入層負責智能風控平臺的內部接入,包括大數據平臺以及系統層的系統產品的數據接入,通常接入的數據有結構化數據和非結構化數據兩類,常用的技術應用有MQ、HTTP、HTTPS、FTP等,具體的技術介紹如下。
- MQ(Message Queue,消息隊列)是基礎數據結構中“先進先出”的數據結構,一般用來解決應用解耦、異步消息、流量削峰等問題,是一種能夠實現高性能、高可用、可伸縮和最終一致性的架構。
- HTTP(Hyper Text Marked Language,超文本標記語言)是一種標識性語言,包括一系列標簽,通過這些標簽可以將網絡上的文檔格式統一,使分散的網絡資源連接為一個邏輯整體。
- HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer)是以安全為目標的HTTP通道,在HTTP的基礎上加入SSL層通過傳輸加密和身份認證保證了傳輸過程的安全性,被廣泛用于萬維網上安全敏感的通信,例如交易支付等方面。
- FTP(File Transfer Protocol,文件傳輸協議)是在網絡上進行文件傳輸的一套標準協議,用于將文件傳輸到主機或與主機交換文件。FTP可以使用用戶名和密碼進行身份驗證,匿名FTP允許用戶從互聯網訪問文件、程序和其他數據,而無須用戶ID或密碼。
02清洗層
清洗層是數據清洗處理層,負責智能風控平臺接入數據的清洗處理。清洗處理后的數據再被推送到計算層、系統層和數據層。通常大數據平臺清洗層使用的技術應用有Kafka、ETL,具體的技術介紹如下。
- Kafka是由Apache軟件基金會開發的一個開源流處理平臺,由Scala和Java編寫。Kafka是一種高吞吐量的分布式發布訂閱消息系統,可以處理消費者在網站中的所有動作流數據。但大部分研發人員都會把kafka當作一個分布式消息隊列,利用它的高性能、持久化、多副本備份、橫向擴展等能力。生產者向隊列里寫消息,消費者從隊列里取消息進行業務邏輯運算。
- ETL(Extract-Transform-Load)是用來描述將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程。ETL是構建數據倉庫的重要一環,用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據模型,將數據加載到數據倉庫中。雖然ETL一詞常用在數據倉庫,但其對象并不限于數據倉庫。
03數據層
數據層是數據的載體層,大數據技術的基礎是數據,因此大數據平臺的基礎是數據層。大數據平臺的數據層為智能風控平臺提供系統產品使用的數據,而智能風控平臺系統產品產生的數據會回傳到大數據平臺的數據層,兩個平臺的數據相互循環迭代,數據量不斷增加。數據層實際就是數據庫,數據庫根據數據存儲方式分為關系型數據庫、非關系型數據庫,同時隨著知識圖譜技術的發展和應用,圖數據庫也被用到智能風控平臺中。
大數據平臺常用的數據庫有MySQL、MongoDB、HBase、Giraph、SSD等,具體的技術介紹如下。
- MySQL是一個關系型數據庫管理系統,由瑞典MySQL AB公司開發,屬于Oracle旗下產品。MySQL是最流行的關系型數據庫管理系統之一,在Web應用方面,MySQL是最好的關系數據庫管理系統應用軟件之一。
- MongoDB是一個基于分布式文件存儲的數據庫,由C++語言編寫,旨在為Web應用提供可擴展的高性能數據存儲解決方案。
- HBase(Hadoop Database)是一個分布式的、面向列的開源數據庫,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PC設備上搭建起大規模結構化存儲集群。
- Giraph是一個迭代的圖計算系統,是基于Hadoop建立的上層應用。
- SSD(Solid State Disk或Solid State Drive,固態驅動器),俗稱固態硬盤,用于數據庫等文件的存儲。
智能風控系統技術架構中用戶通過訪問層觸發訪問請求命令,由展現層承載訪問請求命令并且傳輸請求命令到系統層,再由系統層根據請求命令獲取大數據平臺的數據,然后將數據傳輸到計算層進行分析計算,計算結果返回到系統層進行功能邏輯處理,最后輸出系統層的服務結果到展現層或者以接口的形式提供給外部系統。整個智能風控平臺通過智能風控系統技術高效、穩定運轉,數據在智能風控平臺中循環流轉、迭代。
智能風控的核心技術是大數據風控技術,智能風控系統技術架構的設計應該以大數據平臺為基礎,充分融入大數據系統技術架構。
本書摘編自《智能風控平臺:架構、設計與實現》,經出版方授權發布。