成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據新算法在個人信用風險評估模型中使用效果的評估

大數據 算法
中國人民銀行征信中心聯合北京至信普林科技有限公司,選取了五種大數據新算法,分別為支持向量機(SVM)、決策樹、隨機森林、自適應提升(AdaBoost)和梯度提升決策樹(GBDT),全面評估和比較上述五種算法在個人信用風險評估模型中的效果,包括穩定性、準確性與可解釋性,以進一步理解相關算法在評分上的優勢與短板。

 上世紀80年代,美國費埃哲公司基于邏輯回歸算法構建了費埃哲信用評分體系,并成為美國信用評分市場的巨頭。然而,隨著大數據建模技術的日新月異,許多新算法、新技術層出不窮。本項目選取了五種大數據新算法,包括支持向量機(SVM)、決策樹、隨機森林、自適應提升(AdaBoost)和梯度提升決策樹(GBDT),在中國人民銀行征信中心的大規模樣本上進行了個人風險評估模型的構建,并從三方面進行評估。首先,從模型的準確性和可解釋性方面綜合對比各算法構建的模型在個人信用風險評估中的效果。之后使用時點外測試樣本,對各算法構建的模型的外部時點穩定性進行了評估。

[[176174]]

項目背景

目前,中國人民銀行征信中心的信用報告數字解讀體系參考了美國個人消費信用評估公司費埃哲開發的費埃哲信用評分體系。費埃哲信用評分體系構建于上世紀80年代,其核心算法是邏輯回歸。隨著統計分析和大數據建模技術的進步,算法的發展日新月異,形成了包括決策樹、隨機森林、神經網絡分析與自適應提升(AdaBoost)等在內的許多新算法新技術,而這些大數據新算法在目前征信中心的數據集上的準確性、穩定性與可解釋性仍有待驗證評估。

為此,中國人民銀行征信中心聯合北京至信普林科技有限公司,選取了五種大數據新算法,分別為支持向量機(SVM)、決策樹、隨機森林、自適應提升(AdaBoost)和梯度提升決策樹(GBDT),全面評估和比較上述五種算法在個人信用風險評估模型中的效果,包括穩定性、準確性與可解釋性,以進一步理解相關算法在評分上的優勢與短板。對新型評分模型的探索與試驗有助于為征信中心積累模型算法經驗,與國際領先的建模方法接軌,同時以新穎的信用評估模型作為戰略儲備,為打造我國自有的信用評分體系積累經驗。

算法介紹

支持向量機(Support Vector Machine,SVM)是一種分類學習算法。支持向量機(SVM)的基本模型是定義在特征空間上的間隔最大的線性分類器。線性支持向量機與邏輯回歸類似,都是給每一個變量賦予一個權重因子,最終變量的加權和作為預測的依據。同時支持向量機(SVM)可以使用核函數將變量映射到高維空間,從而提升模型效果。然而這種方法的主要缺點是訓練速度慢,難以直接運用到大規模數據,因此本項目僅對線性支持向量機進行了測試。

決策樹(Decision Tree)是一種基本的分類與回歸方法。決策樹模型呈樹形結構,可以認為“是否”判斷規則(if-then)的集合,也可以看作定義在特征空間與類空間上的條件概率分布。其主要優點是訓練速度快,預測速度也很快。相對于線性模型,決策樹還可以處理非線性數據。此外,決策樹模型可解釋性非常強,對于數據的適應能力也很強;其缺點則是單棵決策樹容易過擬合。

隨機森林(Random Forest)由多棵決策樹組成,每棵決策樹擅長特定人群、重點關注特定變量,然后一起決策,作出最終判斷。隨機森林在構建每棵決策樹時,通過樣本和變量兩個維度進行隨機抽樣。隨機森林的優點是訓練速度快,可以很好地進行并行化,能夠處理大規模數據。

自適應提升(Adaptive Boosting,AdaBoost)核心思想是利用同一訓練樣本的不同加權版本,訓練一組弱分類器(Weak Learner),然后把這些弱分類器以加權的形式集成起來,形成一個最終的強分類器(Strong Learner)。在每一步迭代過程中,被當前弱分類器分錯的樣本的權重會相應得到提高,被當前弱分類器分對的樣本的權重則會相應降低。弱分類器的權重則根據當前分類器的加權錯誤率來確定。自適應提升(AdaBoost)的優點是不容易產生過擬合,預測效果好。

梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)與自適應提升(AdaBoost)在很多方面類似,也是子模型之間相互協作,不同的是后一個子模型對前一個模型的失誤進行修正。梯度提升決策樹(GBDT)模型預測的時候,對于輸入的一個樣本實例,首先會賦予一個初值,然后會遍歷每一棵決策樹,每棵樹都會對預測值進行調整修正,最后得到預測的結果。

邏輯回歸適合處理線性數據,而實際問題往往是非線性的,特別是在信用風險評估場景下。支持向量機(SVM)能夠通過核函數等方法處理非線性數據,然而在樣本量大時訓練速度太慢。決策樹能夠處理非線性數據,但是單棵決策樹對數據十分敏感,容易產生過擬合問題。隨機森林通過采樣來減小計算量,同時能夠利用并行方式進行模型訓練,因而適合處理大規模高維數據。自適應提升(AdaBoost)和梯度提升決策樹(GBDT)在基本決策樹模型的基礎上,通過數據權重變換等方式,能夠將一個弱模型變成強模型,同時能夠有效避免過擬合問題。

建模流程

本次研究使用的數據集為征信中心數據庫存儲的1265萬人的個人征信數據,具體包括2010年7月31日時間點的貸款記錄、貸記卡記錄、準貸記卡記錄、特殊交易記錄和查詢記錄。采用自2010年7月31日至2012年7月31日之間個人違約情況的記錄定義表現變量,表現變量取值范圍為0(未逾期)和1(逾期90天以上)。

項目建模的流程如下:(1)首先對原始數據進行分析,研究原始數據各字段的含義并分析數據質量;(2)基于分析結果,確定刻畫個人信用的七大類統計指標, 包括歷史還款信息、帳戶類型和數量、正在使用和已結清帳戶信息、信用時長、新開帳戶信息、查詢信息和特殊交易信息;(3)對部分連續型指標采用單變量決策樹的方法進行分欄處理;(4)利用大數據算法構建個人信用風險評估模型;(5)對各算法構建的模型效果進行評估和分析。

本項目中數據的分析、處理與建模等均是基于派森(Python) 環境。

效果評估

本項目主要從準確性,穩定性,可解釋性三個方面來評估模型。其中準確性指標包括感受性曲線下面積(ROC_AUC)和區分度指標(Kolmogorov-Smirnov,KS),穩定性指標主要參考群體穩定指數(Population Shift Index,PSI)。可解釋性可通過指標重要度來進行評估,其中指標重要度用于衡量各個解釋變量對算法預測結果影響的程度。感受性曲線下面積(ROC_AUC)、區分度指標(KS)和群體穩定指數(PSI)的具體含義如下:

感受性曲線下面積(ROC_AUC)

感受性曲線下面積(ROC_AUC)是一個從整體上評價模型準確性的指標,是感受性曲線(ROC)與橫軸之間的面積。相比于其他評價指標,感受性曲線(ROC)具有一定的穩定性,它不會因為正負樣本分布的變化而產生不同的曲線。感受性曲線(ROC)通過真陽率(True Positive Rate, TPR)和假陽率(False Positive Rate, FPR)兩個指標進行繪制。感受性曲線(ROC)示意如圖1所示。感受性曲線下面積(ROC_AUC)取值范圍為[0,1],取值越大,代表模型整體準確性越好。

區分度指標(KS)

區分度指標(KS)是度量具體模型下正常樣本和違約樣本分布的最大差距,首先按照樣本的信用分數或預測違約率從小到大進行排序,然后計算每一個分數或違約率下好壞樣本的累計占比。正常和違約樣本的累計占比差值的最大值即為區分度指標(KS)。區分度指標(KS)的示意如圖2所示。區分度指標(KS)小于0.2代表模型準確性差,超過0.75則代表模型準確性高。

群體穩定指數(PSI)

模型是在特定時間點開發的,是否對外部樣本有效需要經過穩定性測試。群體穩定指數(Population Stability Index,PSI)是最常用的模型穩定性評價指標。群體穩定指數(PSI)的計算公式為:

其中預期占比(Expected%)和實際占比(Actual%)分別表示在模型訓練樣本和測試樣本中,對應分數段或違約率段內的人群占比。一般而言,群體穩定指數(PSI)小于0.1代表模型穩定性高,群體穩定指數(PSI)大于0.1小于0.25代表模型穩定性中等,群體穩定指數(PSI)大于0.25代表模型穩定性較差。

2010年樣本測試。我們首先在2010年樣本上進行建模,評估各模型的準確性與可解釋性。2010年樣本是指2010年表現變量取值為0(未逾期)和1(逾期90天以上)的人群,樣本大小約為1000萬。選取樣本的70%作為訓練樣本構建模型,30%作為測試樣本評估模型效果。各模型的感受性曲線下面積(ROC_AUC)和區分度指標(KS)分別如圖3所示和圖4所示。

從上述結果可以看出,集成算法(隨機森林,梯度提升決策樹,自適應提升)建立的模型表現更好,感受性曲線下面積(ROC_AUC)指標達到0.95以上。支持向量機(SVM)的準確性表現最差,這與數據樣本大,在項目環境下無法使用核函數有關。決策樹表現一般,感受性曲線下面積(ROC_AUC)指標分別為0.9477。具體地,如果以區分度指標(KS)作為衡量標準,自適應提升(AdaBoost)表現最好,區分度指標(KS)達到0.7803。其他模型的表現排序為:隨機森林>梯度提升決策樹(GBDT)>決策樹>支持向量機(SVM)。

在可解釋性方面,通過各算法計算指標重要度以幫助對結果進行解讀。綜合考慮所有模型生成的指標重要度而得出的綜合排序如表1所示。

從各模型指標重要度綜合排序來看,對個人信用評估影響最大的因素分別是:逾期情況、正常還款比例、免擔保貸款、授信額度使用率、信用年限等。可見,影響大數據新算法預測結果的都是可解釋性較高的統計指標。與傳統的邏輯回歸模型相比,大數據算法不需要太多的變量選擇和變量評估工作,能夠在模型的構建過程中自動選取重要的變量,并對變量的重要性進行自動評估。

外部時點樣本測試。為了評估模型在外部時點樣本上的表現,我們對大數據新算法模型在外部時點樣本上進行了測試。其中外部時點樣本選取截至2011年3月31日時間點的紀錄,樣本總人數約為1300萬。使用2010年訓練樣本所訓練的模型在外部時點樣本上進行測試,分析比較其在外部時點樣本上的準確性和穩定性。

各模型的性能評價指標如圖5與表2所示,其中2010年表示模型在2010年測試樣本上的表現,2011年表示模型在2011年測試樣本上的表現。

對比模型在2010年及2011年樣本上的預測結果,在準確性方面,決策樹、隨機森林、自適應提升(AdaBoost)的感受性曲線下面積(ROC_AUC)有所下降,而梯度提升決策樹(GBDT)的感受性曲線下面積(ROC_AUC)有所提升;決策樹、自適應提升(AdaBoost)的區分度指標(KS)有所下降,而邏輯回歸、隨機森林、梯度提升決策樹(GBDT)和支持向量機(SVM)的區分度指標(KS)有所提升。整體來說,準確性方面各模型在2011年測試樣本上的表現與在2010年測試樣本上的表現無明顯差異,表現穩定。從群體穩定指數(PSI)來看,自適應提升(AdaBoost)和支持向量機(SVM)穩定性最好(PSI<0.1),而決策樹與梯度提升決策樹(GBDT)的穩定性次之(0.10.25)。

總結:

為了評估大數據新算法在個人信用風險評估模型中使用效果,中國人民銀行征信中心聯合北京至信普林科技有限公司,從準確性、穩定性和可解釋性三個方面對主流的大數據算法的模型構建效果進行了綜合評估。項目選取了五種大數據新算法,包括決策樹、隨機森林、自適應提升(AdaBoost)、梯度提升決策樹(GBDT)和支持向量機(SVM),在千萬級別的大規模樣本中進行個人風險評估模型的構建和分析。

在2010年1000萬樣本上的分析結果表明,自適應提升(AdaBoost)、梯度提升決策樹(GBDT)和隨機森林三種集成算法準確性表現最佳,決策樹準確性次之,支持向量機(SVM)的準確性最差。同時,對外部時點樣本的分析結果表明,自適應提升(AdaBoost)和支持向量機(SVM)穩定性高,決策樹、梯度提升決策樹(GBDT)穩定性中,隨機森林穩定性低。在可解釋性方面,大數據新算法都能夠對統計指標的重要度作出評估,統計指標綜合排序靠前的統計指標的解釋性較好。綜合來看,部分大數據算法(如自適應提升)在準確性和穩定性上均表現優異,可以作為我國新一代信用風險評估模型的戰略儲備。

大數據算法是模型構建的工具,其結果不是絕對的,如何根據數據特征和算法特性構建合適的模型也是非常關鍵的。在實際模型開發過程中,需要業務專家和數據科學團隊在數據邏輯的理解和建模指標的選取上緊密合作。此外,數據科學團隊需要對算法的核心原理有著深刻的理解,并且具備快速的算法實現能力,強大的大規模數據處理能力,才能充分利用大數據算法開發出高性能的信用風險評估模型。

責任編輯:武曉燕 來源: 《中國征信》雜志
相關推薦

2021-08-27 16:50:54

大數據個人信用

2018-08-08 15:07:54

天創信用

2010-06-19 14:44:08

2024-01-05 08:36:01

2021-12-01 13:56:37

數據中心數據中心架構數據中心網絡

2021-10-20 13:39:01

數據庫數據庫安全技術

2020-06-29 08:10:44

物聯網安全技術

2015-07-27 08:55:52

數據信用

2018-04-26 14:11:44

2021-09-03 14:36:01

數據安全風險評估網絡安全

2011-06-23 16:03:53

數據安全加密

2022-08-04 13:45:55

安全數據風險評估隱私

2010-09-07 16:09:29

2023-09-12 11:36:15

攜程模型

2024-08-12 18:22:56

2022-08-03 11:00:58

機器學習算法數據

2021-08-31 16:05:19

數據安全數據風險網絡安全

2025-01-10 10:30:00

大模型統計評估

2021-10-12 19:02:28

信息系統風險評估網絡安全
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久久久久久久久丰满 | 中文字幕蜜臀av | 亚洲网站免费看 | 免费看a | 国产一级在线观看 | 黄色免费av | 久久婷婷色 | 97偷拍视频 | 亚洲一区二区免费 | 亚洲视频网 | 91国内精品 | 日韩中文字幕在线免费 | 嫩草视频在线免费观看 | 五月槐花香 | 日韩欧美第一页 | 国产在线精品一区 | 欧美另类视频 | 欧美日韩a| 亚洲精品一区二区网址 | 亚洲欧美日韩电影 | 午夜久久久久久久久久一区二区 | 99久久婷婷国产综合精品电影 | 亚洲精品久 | 亚洲综合色丁香婷婷六月图片 | 日韩精品视频中文字幕 | 美女三区| 日韩欧美中文在线 | 婷婷免费视频 | 天天综合日日夜夜 | 日本在线免费视频 | 精品av | 久久综合九色综合欧美狠狠 | 国产小u女发育末成年 | 亚洲国产aⅴ成人精品无吗 国产精品永久在线观看 | 欧美另类视频 | 欧美高清视频一区 | 国产一区亚洲 | 亚洲免费视频一区 | 成人午夜在线观看 | 国产免费色 | 人人射人人插 |