WOT講師劉黎春:互聯網征信是新藍海
原創對科技行業來說,可能幾年就是一個分水嶺,因為互聯網總是能創造無限可能。過去幾年,云計算剛剛落地,大數據也開始由概念轉向應用領域。而借助大數據支撐的互聯網征信無疑是最具前景的應用領域之一。51CTO專訪【WOT2015"互聯網+"時代大數據技術峰會】特邀講師騰訊數據挖掘高級工程師劉黎春分享社交數據在互聯網征信領域的探索。
劉黎春,騰訊數據挖掘高級工程師,社交網絡事業群數據挖掘團隊負責人,第一代QQ音樂推薦系統架構師,騰訊客戶生命周期管理體系搭建者。多年致力于數據挖掘技術與業務結合,在大數據分析和挖掘、互聯網征信等領域有著豐富的實戰經驗和項目管理心得。目前專注于互聯網征信、用戶基礎畫像、推薦系統和文本挖掘。
互聯網征信是新藍海
劉黎春認為互聯網征信是一個新型方向,不同于傳統征信行業,大數據征信并沒有形成一套完整的體系,不論在國內或國外,其發展還是處于早期階段,但是整個行業進展速度很快。他提到,多家大型互聯網公司已經獲得了征信的牌照,一些互聯網金融機構也正在建立自己的征信體系。在他看來,互聯網征信相比傳統征信的地位更重要,“在傳統的金融體系里,央行個人征信系統已收錄8.7億自然人,其中只有3億多有信用記錄、信用評分,也就是說還有5億多人沒有信用評分。
社交數據與電商數據
劉黎春介紹,當前騰訊社交數據的主要來源包括:QQ、QQ群、QQ音樂、QQ空間等幾塊較大的業務。他認為社交數據相比電商數據在征信領域有兩大優勢:第一,社交網絡涉及很多關系鏈、拓撲的信息,可以通過關系網絡對某個用戶信息做擴散或者修正,這種情況在一些電商場景下是不太好實現的。他舉例說:“比如用戶年齡信息,可能用戶填寫的年齡不是其真實年齡,但我們會拿到我們能確定真實用戶作為種子,通過關系鏈來擴散到其他用戶,來對比獲得其真實年齡,整個可信度還是比較高的。如果用戶填50歲,但是他朋友圈交往圈都是在25到30之間,那我們會對其真實年齡做一個校正。”
另外一個,他提到,關系鏈拓撲的數據在風控里是難以模擬的數據,比如惡意用戶想仿造一個關系鏈拓撲是比較困難的,這樣就可以很好地起到了用戶甄別的功能。
如何解決數據時效性問題?
我們知道,數據是有其時效性的。那么過時的數據是否會對現有的模型產生干擾呢?劉黎春告訴筆者模型建完后,數據一般是半年前的,屆時會拿現在的數據做一個前后的對比,看前后是否發生太大的變化,其中有一個指標來查看每一個用到的變量、特征,如果模型出現較大變化,一般來說會把變量去掉。在構造變量時,也會考慮這個特征將來是否會發生較大的變化。
互聯網征信的難點
談及當前互聯網征信遇到的難點,劉黎春認為,相比傳統征信行業,互聯網征信不如傳統金融結構清晰。“比如傳統征信有很多行業標準,用戶哪些數據需要保存下來,哪些數據需要上傳到系統都是有明確規定的,但互聯網相對沒有這么清晰,對于挖掘來說有很多非結構化的圖片或數據。”另外,他提到,傳統征信有央行保證,很多銀行都把數據報到央行去,相比之下,各個互聯網征信機構還是用自己掌握的數據做事情,很難有非常完整的用戶信息。比如騰訊和別的公司在數據互通方面就存在難點。
WOT2015更多訪談