成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

【NCTS峰會回顧】融360艾輝:AI模型測試探秘

開發 前端 人工智能
2019年10月26日,由Testin主辦的第二屆NCTS中國云測試行業峰會在京召開,此次峰會以“AI+未來”為主題,匯聚來自國內外測試領域的知名專家學者、領先企業決策者、高層技術管理者、媒體從業者等,共同探討高端云測試技術。

 2019年10月26日,由Testin主辦的第二屆NCTS中國云測試行業峰會在京召開,此次峰會以“AI+未來”為主題,匯聚來自國內外測試領域的知名專家學者、領先企業決策者、高層技術管理者、媒體從業者等,共同探討高端云測試技術,幫助測試從業者了解最前沿行業趨勢,及最新的行業實踐。

[[283753]]

會上,融360高級技術經理艾輝做《AI模型測試探秘》主題演講。艾輝分享了AI在金融科技的應用場景并指出,AI在金融行業的商業場景變現領域做的相對成熟,這主要得益于數據的質量,以及數據的豐富度,它們對模型的效果起著極其重要的作用。

以下為艾輝演講實錄:

很高興和大家分享我們在過去一段時間里基于AI模型評估的測試實踐。簡短的做一下自我介紹,先后從事云計算云存儲、跨境電商、O2O外賣、金融風控業務的質量保障與工程效率。

首先給大家介紹當下AI的主要應用場景。AI在金融領域的落地主要包括:物流、廣告推薦、個性化推薦、倉儲、無人駕駛等等。目前看來,AI在金融行業的商業場景變現領域做的相對成熟,這主要得益于數據的質量,以及數據的豐富度,它們對模型的效果起著極其重要的作用。AI在金融科技領域的主要場景包括:智能營銷、智能欺詐、智能風控、理賠、支付場景指紋識別、人臉識別等等。

進一步解釋一下AI的基礎概念和交叉關系。通常來說,我們是模擬智能應用,機器學習只是AI的一個分支,如果是機器學習加圖像識別,就是視覺領域的應用;如果是機器學習加語音識別,就是自然語言處理。假如說機器學習和其它稀奇古怪的應用結合,就是數據挖掘。

機器學習,就是我們在計算機協助下,統計學假設檢驗與分布函數搜索所謂的神經元,拿一個向量去點乘上一個向量,再把結果放進一個事先定好的變換函數。深度學習是做好幾層的神經元網絡,再換幾個學習算法。關于機器學習的分類,金融領域還是偏向于監督學習,我們做一些分類問題,也就是偏預測。分類和回歸比較直觀的區分,如果做一個定性的預測,比如今天是陰天、晴天還是多云,它就是一個分類的問題;如果是我們預測明天是10-15度,還是0-5度,這就是回歸問題。在金融風控領域,大部分是基于邏輯回歸的模型方法來做訓練的,主要使用信用評分卡。神經網絡、深度學習等在金融風控領域應用,目應沒有太多。要做好風控并不一定需要用最復雜的模型來做訓練和預測。

前面說了那么多,大家會問機器學習在金融風控的應用有什么差異?金融風控的體系里存在一些特殊的東西,比如,談到金融風控中的信貸風控,一般會聊到貸前、貸中、貸后。我們用的最多的是評分卡模型,評分卡模型應該有200、300年歷史了,在機器學習應用沒有如今這么發達的時候就已經在用了,尤其是在美國。什么是評分卡?信用評分卡用的就是邏輯回歸的分類,預測好人壞人的概率,在0和1之間,基于這個概率映射到一個分數,如:1-100分,即信用評分。我們放貸可不可以放,看風險概率,用歷史的數據去為未來一段時間的違約進行預測。它的評分越高代表越是安全,評分卡的穩定性和預測能力很強,我們常用的是邏輯回歸。

我們用信用評分只是風控量化的工具,代表著信用風險。

剛開始接觸AI相關業務的時候,我們遇到了很多挑戰。之前對于整個數據、特征、模型,沒有太深入的專項測試,如數據及特征效果有質量問題,會導致模型發生衰減和偏移,最直接的結果是,本應該把一個壞人給攔住,但是沒有攔住,給他放貸了,就可能導致壞賬,產生不良資產。

具體來看一下在數據質量方面我們做了哪些工作。主要考慮數據的完整性、一致性、及時性、準確性等等。想重點強調的是,在數據質量分析的維度上做了哪些事情,數據質量分析考慮的維度更豐富一點,比如數據的干擾分析,分析單列數據對應的準確性,分析單表數據,跨表數據,跨列數據。我們對數據整個特征分布,還有離散情況做了評估,上面的離群點,能夠基于這個離群點發現數據異常的問題。

數據的完整性,從關系型數據庫到數倉,數據有沒有比較大的丟失。一致性,看對應的口徑是不是一致的。準確性、及時性,很有可能前天晚上跑批失敗了,如果沒有監控可能導致對第二天的數據造成很大的影響,比較多的是離線任務,包括在線任務及時情況的監測。

既然數據有了這些問題,一定要做數據的修正。比如說數據確實缺失太多,沒有做填充處理,到特征來沒法用的,模型更沒有辦法用,還有重復的記錄要刪除。對于定性的數據和定量的數據,處理是不一樣的,我們會基于特征進一步解釋。

數據分析方法,看整個數據各表之間有什么關聯性,做血緣基數分析。看數據是不是存在大的問題,做數據波動分析。評估某一個字段是否有問題,做值域分析、分布分析,也可以發現一些問題。評估數據是否一致,做一致性的對比diff來發現這些問題。

在項目中通過數據分析的血緣基數分析,直觀發現的情況:A表的登陸賬戶比B表少了7000萬,A、B存在600萬的數據不一致。這種問題如果不做數量質量分析,基于模型問題倒推分析,影響很大。

再看一下值域的分析,分析最大值,最小值,比如說有一個字段,年齡是150歲,這可能超乎尋常了。包括看數據的分布,時間內最大值,最小值,還有異常的占比。中文異常的占比,特別是中文入庫的字符格式。還有分布的分析,金額的占比,區間的域值,還有各種碼值。

我們再簡單看一下數據測試要點,我們在日常測試中做數據質量測試,就是按照這些來做的,金融的數據質量的要求很苛刻,可以說相對于互聯網廣告的數據更苛刻一點。比如說小明同學搜索的時候,給他推薦了一個女裝,可能不太重要。但是因為數據質量問題導致信貸風險,可能會導致直接的金融損失,所以金融數據的質量要求是很高的。

再簡單說一下數據質量平臺設計,我這里放了一個架構圖,整個數據質量平臺關鍵核心的一點,對數據質量的規則引擎是怎么做的,數據質量把對應各種數據的對比,通過配制一些規則,定制開發,對應的報表或者觸發告警,是基于自定義去寫。還是基于其他的開源工具,有很多規則引擎的方案,比如Drools,原理大多相似。

關于特征模型的測試,我先是講數據,再講特征,再講模型,為什么?我們在做模型訓練的時候就是這樣的流程和套路。我們聊到模型,做模型訓練的時候有80%的任務在做特征工程,20%在做模型的訓練。我們做一些名詞的科普,過擬合和欠擬合,過擬合就是模型過于復雜學習到額外的數據屬性,欠擬合就是沒有捕捉數據特征。

到底什么是建模?建模與馴獸的相似點,我們做馴獸,比如給猴子輸出口令,讓它調整動作,直到這個過程預期和實際是一致的,從這個類比來看,我們建模和馴獸就是這樣一個循環訓練的過程。

我們反復聊到數據特征,到底數據和特征有什么區別?左側是一個數據,右邊是特征,把對應做了一些轉換,180天內成功打車的筆數,180天內成功打車最小值,我們將數據轉化為機器能夠學習的屬性,發現規律性的信息。機器學習大部分是解決預測的問題,用X去預測Y,這個X代表的是特征,不是數據,因為直接給模型灌最原始的數據,不能很好的把數據的規律和信息get到。但是特征是有價值的屬性,這些特征是能夠做模型的訓練和擬合的。行業里面有行話,數據特征決定了機器學習的上限,我們所有模型只是逼近這個上限而已。如果你的數據,特征質量很差,再好的模型,訓練效果也會打折扣。

從特征挖掘到模型建立,這個過程是我們在日常測試開發中需要頻繁去關注的,我來簡單解釋一下。前面的這一塊數據采集,數據分析,數據清洗,大部分是數倉來做,有的是特征挖掘也會做,前面是做數據的分析和入庫。當數據清洗做完之后開始做特征挖掘,圖中所有的特征,特征挖掘的過程,在數倉中挑出跟業務強相關比較好的數據,建立特征工程。發現了很多問題,比如缺失值特別多,要做一些填充,比如定量數據,可以基于平均數,中位數去填充。如果是一些定內的數據,直接轉為NaN之類的。做完確認值之后,還要做定量特征值二化。還會做一些定型特征的啞編碼,比如我們做疾病的預測,得某某疾病的概率高、中、低,就可以放到模型里,因為很多特征的標準是不一的,包括特征的選擇和降維,我們要由高維降到低維,更好的吸收數據。

具體在信用卡評分模型中用到的關鍵指標,我們主要參考的是幾點,一個是KS,風險區分能力,就是判斷好用戶和壞用戶的差值,差值越大,就說明模型的效果越好,因為區分度高,可以區分張三是好人,李四是壞人。然后是卡方,樣本偏離程度。PSI,這是模型穩定性很關鍵的指標,模型的預測值與實際值偏差大小的指標.PSI越小有說明模型是越穩定的,一般認為PSI小于0.1時候模型穩定性很高,0.1-0.25一般,大于0.25模型穩定性差,建議重做。IV(信息價值),這是我們模型在挑特征的時候很關注的一點,特征對于模型預測能力的貢獻度,我們要挑對模型預測能力貢獻度度強的特征,比如有100個特征,有年齡、學歷、收入,籍貫等,其中年齡、學歷、收入的特征對于信用貸風控模型貢獻度強,籍貫特征是一般的。

具體特征測試要點分為幾部分,一般特征有特征計算邏輯,還有特征調度,特征上線。對于特征計算,除了計算的時長,還會關心整個特征的分區,編碼,以及異常處理。我重點想強調的是特征的回溯,回溯對于信用評分模型效果很關鍵。信貸風控,是用用戶過去的時間窗,比如前一個月的數據去預測他未來的借貸風險,如果說用他最近的信貸數據去預測明天,或者說用今天預測今天,特征效果可能會比較高,但是它是虛高的,所以都有時間窗的概念,基于歷史來預測未來。還有Shuffle亂序,有的模型對特征的排序性是有相關性的,如果有問題,模型效果也會有波動。還有特征調度異常的處理,還有特征上線,各種的一致,在線離線覆蓋率,特征值等等,這個一致性是很關鍵的。我們基于特征也做各種專項的分析,大部分都在做一些特征指標類,特征分布,特征大小等等。

模型該怎么測?我們對模型測試有這么幾個點可以關注,一個是蛻變,我們直接去構造輸入看輸出,可能很難發現問題,模型測試的是Oracle問題(未知問題),沒有明確的標準,如果變換輸入看輸出的變化環境是否相對應,是能夠發現模型的問題,比如把一些標簽亂序,屬性亂序,增加無信息的屬性,看看對模型輸出的問題。還有要看特征工程處理的情況。整個模型工程測試大部分都是偏白盒的,不像服務端可以暴露接口。還有小樣本實驗,這很有效,看看整個信用評分的分布情況,是否符合正態分布。

關于模型效果的評估設計,我們要控制算法版本為評測流程唯一變量。

模型的監控、模型的上線,監控的重要性和工程類的服務一樣重要,模型會隨著時間衰退,我們需要做各種監控,有關鍵指標,還有對覆蓋率,準確率的監控。提取還款的樣本,樣本打標簽,請求線上模型,計算KS。做金融風控的模型測試,比做互聯網2 C的廣告推薦模型等要相對困難,對于大部分互金平臺來說信貸還款表現樣本較難獲取。

模型測試的痛點都有哪些?第一是難,門檻很高,我們傳統工程測試的方法不能完全的復用,而且是很抽象的,模型是黑盒的,想定位一個問題,模型的效果不好,排查鏈路很長,發現原來是某某數據丟失了。它是強數據相關的,數據的特征質量決定了模型效果的上限,我們經常在聊做模型的評估,這里有一個很重要的一個環節,我們需要先把數據和特征質量給覆蓋住,這是一個很重要的源頭,80%的工作在特征工程。然后是慢,有的傳統公司,像金融企業的,一個模型迭代可能半個月,一個月,甚至是兩個月,因為要反復實驗,還有環境的變化,客群的變化。它是一個不確定的問題,因為沒法基于一個分數或者什么指標完全評估這個模型好還是壞,上線才剛剛開始。所以,綜合的用各個數據指標來進行評估。

AI產品質量體系應該怎么做?分為線上和線下:線下三個模塊,模型質量、數據質量、工程質量。線上做各種模型效果的監控,特征的監控,一致性監控的,覆蓋率的還有業務表現的監控等。我們希望把線上線下模型的測試做得更專業和高效,還是需要做自動化,工具平臺化,比如說把模型的評估做到可視化,充分參考已有開源的平臺做的模型評估模塊的功能,把數據分析,質量分析,基于統計的維度做可視化的展示和度量,讓整個模型部署過程自動發布。。

最后,在AI時代,測試開發怎么做技術的儲備和轉型呢?如果要做AI的學習,從高數基礎到機器學習是需要一個過程的,我們內部也在開展機器學習小組,課程安排一共18節課。再有是數據分析和挖掘,剛才說的特征挖掘,大部分是用數據挖掘的技術,做數據質量分析本質上就是做數據分析,大量相關的理論和工具都需要熟練的用到。如果做機器學習,通過看一些視頻教材,大概就知道是怎么回事了。在我左邊的深度學習,強化學習,復雜度就更高了,右邊的一、二、三,對于我們做模型的質量保證這塊入門就夠了。如果大家覺得看書比較煩瑣,可以去B站看一下,B站有很多比較好的視頻資源。PPT里也給出了詳細的AI學習路線圖,感興趣的同學可以參考學習。

以上就是我今天和大家分享的關于模型評測的全部內容,希望能給大家一些收獲及啟發。對于AI模型評估測試,目前各個公司團隊都在摸索中前進,希望在前行的路上和各位同行朋友更多交流學習。

 

責任編輯:張燕妮 來源: 51CTO
相關推薦

2019-11-26 17:56:21

開發AI360搜索

2019-11-26 17:38:15

人工智能AI開發者

2019-12-05 16:17:59

云計算行業科技

2019-11-26 18:00:59

系統運維架構

2019-12-05 16:23:15

開發技能代碼

2019-12-05 16:15:32

云計算行業科技

2019-12-13 11:58:21

AI 數據人工智能

2019-11-26 17:44:16

AI 數據人工智能

2019-12-05 16:25:26

開發技能代碼

2019-12-05 16:01:24

云計算行業科技

2019-11-26 17:58:47

系統運維架構

2019-10-26 22:43:42

AI移動開發測試

2019-11-26 17:41:59

AI 數據人工智能

2019-11-26 17:54:14

開發技能移動應用

2019-12-13 11:54:06

AI 數據人工智能

2019-12-13 11:51:34

技術AI云計算

2019-11-26 17:46:26

AI 數據人工智能

2019-12-05 16:20:59

云計算行業科技

2019-12-13 11:56:50

AI 數據人工智能

2016-09-21 15:35:45

Javascript單元測試
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天爽天天干 | 福利视频网| 久久久国产一区二区三区四区小说 | 国产一级在线 | 欧美日韩亚洲视频 | 欧美日产国产成人免费图片 | 欧美区日韩区 | 亚洲成人精品影院 | 国产视频三级 | 久久九九99| 亚洲性爰| 亚洲欧洲一区 | 美人の美乳で授乳プレイ | 日日射夜夜骑 | 亚洲三区在线观看 | 成人综合久久 | 一区不卡在线观看 | 日韩成人精品一区二区三区 | 在线一级片 | 日日操日日干 | 亚洲精品国产成人 | 6080yy精品一区二区三区 | 欧美日韩亚洲一区 | www.亚洲成人网 | 精品国产欧美 | 久久免费小视频 | 我想看一级黄色毛片 | 成年人黄色小视频 | 成人在线视频免费观看 | 精品视频久久久 | 一区二区三区欧美 | 日韩av在线一区二区 | 精品国产欧美一区二区三区不卡 | 国产综合久久 | 中文字幕二区 | 国产在线一区二 | 国产第一亚洲 | 国产在线视频一区 | 久久激情视频 | 国产精品久久久久久久久久妞妞 | 欧洲视频一区 |