成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于沉淀數據的尾部流量建模方法

大數據
在當前的市場情況下,市場上的機構都面臨著信貸市場的規模增長開始進入存量階段,流量的價格日益昂貴的問題。

導讀:本文將介紹 360 數科在基于沉淀數據的尾部流量建模方法的實踐。分享分為四部分,第一部分介紹尾部流量和沉淀數據的特點,第二部分介紹尾部流量在低通過率的情況下如何進行樣本擴容,第三部分討論如何根據沉淀數據時效性進行分群,第四部分介紹頭部優質客戶的排序優化。

具體如下:

  • 尾部流量及沉淀數據的特點
  • 低通過率下的樣本擴容
  • 沉淀數據時效性分群
  • 頭部優質客戶排序優化

在分享以上四部分內容之前,結合過往經驗,首先簡單介紹風控建模的四板斧:特征挖掘、樣本分群、標簽優化及算法提升。如果前四種方法都不能有效地提升模型效果,第五板斧是大數據建模。當數據維度從 100 萬、200 萬提升到 500 萬級別的時候(甚至更大級別),大數據建模可以有效地提升整個模型的效果以及穩定性,這是在業務非常成熟、流量非常大的情況下才能實現,對于尾部流量以及非常小規模的起始階段,這種方法并不適用。

?尾部流量及沉淀數據的特點

在當前的市場情況下,市場上的機構都面臨著信貸市場的規模增長開始進入存量階段,流量的價格日益昂貴的問題。在 2015-2016 年,市場上各家機構主要專注于頭部客戶以及中部客戶的經營,但是目前機構正在嘗試將之前舍棄的尾部流量進行相應的經營和撈回。所以我們目前的工作是針對這一部分尾部的客戶搭建相應的風控模型,盡可能地撈回有效的客戶。這一部分尾部客戶的經營存在一些難點:
  • 第一是風險過高;
  • 第二是如果我們用市場上的一些多頭類的數據做策略,很容易命中這類客戶并拒絕掉。
  • 第三是即使客戶的授信通過了,實際能給到的件均也是偏低的。并且,尾部客戶的人行征信數據和其他的數據缺失嚴重。

但是我們仍然要挖掘尾部客戶的原因主要是:

  • 一是流量的獲取成本非常高。
  • 二是我們的風控能力在不斷的提升,根據之前的一些風險下探的測試跟探索,我們有信心以及有能力可以運營一部分的尾量客戶。
  • 三是經營一部分資質較少的新客戶,以低額和較低的成本在平臺上為他們增信。
  • 四是對一些沉睡的老客戶進行促活。

平臺的尾部客戶的主要來源包括:在其他產品上面的管制禁申戶、低額的新戶、授信的拒量、睡眠戶、資金方的交易拒絕戶,策略評判高風險的客群。

圖片


沉淀數據是產品中積累的歷史存量數據,我們需要測算客戶經營的成本和盈虧平衡點,數據成本是成本中較為重要的組成部分,因為資金成本和盈利目標是既定的,目前可以壓縮的只有數據成本。在低通過率的情況下,如果調用相同的三方資信,尾量客戶的數據成本會比頭部客戶的成本更高一些,因為調取查詢十個尾部客戶的資信數據可能只有一個客戶能通過,十個客戶的成本全都需要分攤在這一個客戶上。

所以在這種情況下,我們平臺剛開始的時候并沒有大量的接入三方數據,主要是依靠這些客戶在其他子產品上的歷史數據來進行相關的策略分析以及建模工作。沒有大量接入三方數據的另一個原因是平臺剛啟動的時候,三方資信的接入需要花費大量的時間,但是相信在未來斷直連的情況下,接入速度會有較大的提升。

關于我們所用的沉淀數據,也就是歷史數據,主要包括四個方向,授信階段的數據,交易申請階段的數據,貸中調額階段的數據,貸后的數據。這四部分數據相關的衍生變量以及邏輯,市場上各大機構都有一套自己的方法論,關于變量的衍生以及特征挖掘,本次分享不會具體展開。

圖片

?低通過率情況下的樣本擴容

在尾量數據撈回較低的通過率情況下,我們有表現的樣本非常少。如何通過樣本的擴容來實現數量級上面的擴張,使模型的表現以及穩定性有所提升,主要有三種方法。

圖片


  • 第一個方法是共生融合標簽的使用

我們的平臺相當于是一個子產品平臺,在集團下面有其他產品,我們可以在獲取同一個用戶在其他產品上的風險表現,將同期的風險表現進行融合。以上圖為例,一個用戶進入到子產品的授信節點,發起授信申請以后,我們會看到用戶在授信之后的一個月內是否發起動支申請。假設用戶動支成功,會產生一張借據,我們觀察用戶在 3 個月加 1 個月,即四個月的表現,是否有 30 天的逾期,作為這個子產品的風險Y標簽。這樣的情況下,我們能夠獲取的樣本非常的少,因為首先授信是否通過,會產生一部分損失;授信通過以后,在一個月內用戶是否會發起交易,又產生一部分損失;在發起交易以后,它的交易能否被通過又是第三部分的損失。所以這一套流程下來,我們能夠獲取的 Y 樣本非常的少。

通過融合的方法,可以將數據量擴展 3 到 4 倍。融合的具體做法是,獲取用戶在其他產品上面的同期的風險表現。比如在授信節點之后,以 M0 為例,再到相同的M4,我們獲取他在其他產品上所有的借據每一期的 Due Time ,只要這些 Due Time 落在這個區間之內,我們都開始獲取他的相關風險表現,每一期是否有逾期 30 天,只要在這個區間內有逾期 30 天,我們都認為用戶在其他產品上的風險表現為命中,然后將這兩個標簽融合在一起,就獲得了最終的用戶的風險標簽。

上圖中的融合標簽交叉情況矩陣會更清楚地顯示所有可能的情況。在子產品 1 上面,用戶可能會有三種狀態,一個是“好人”,一個是“壞人”,一個是沒有表現。在子產品 2 上面,也會有三種情況,也是“好人”、“壞人”、沒有表現。上圖只列舉了兩種產品的情況,也可以是三到四個產品不斷地累加,形成一個大的矩陣。僅看這兩個產品的情況下,用戶會有九種情況。圖中的數字 1 代表“壞人”,0 代表“好人”,三個標記為 0 的方格代表“好人”,五個標記為1的方格代表“壞人”,還有一個情況是用戶都沒有表現。所以實際情況下,我們可以獲取這八個格子的風險表現,作為這個用戶的風險表現,而舍棄最終在兩邊都沒有風險表現的人。這種方法在擴展樣本的同時也加入了拒絕推斷。因為對于在子產品 1 上面沒有風險表現的情況下,可以通過子產品 2 作為用戶的風險表現的補充,作為有效的拒絕推斷。在選擇子產品的時候,如果有很多選項的情況下,還需要分析用戶在其他子產品的風險表現的 Y 與用戶在需要分析的這個產品的風險表現的 Y ,兩者的相關性有多高。以我們的實踐經驗來看,大概會有 75% 的可能性是相類似的風險表現。

  • 第二個方法是放松壞人定義的方法

在 0 和 1 的二分類模型中其實很難界定 29 天逾期和 30 天逾期,到底哪個定義為“好人”哪個定義為“壞人”。所以當遇到樣本量非常不足的情況時,其實可以適當地放松標準,把 29 天或 28 天逾期的樣本也容納進整個樣本區間內。具體的分界線在哪里也需要做相應的分析。一般我們可能比較常見滾動率在 m0、m1、m2、m3 的矩陣,其實可以也把它遷移到這個分析里面來看用戶從第一天逾期到逾期 30 天以及更多更長時間的情況的滾動率。如果滾動率保持在 90 % 以上,那可以放寬相應的時間界限的標準,以獲得更大的樣本的容量。

  • 第三個方法是長短期指標的選擇

建模時常用的Y 標簽是一期的、三期的、六期的風險標簽。我們嘗試過同時使用同樣的月份樣本,用一期、 三期、 六期的數據做相應的模型,輸入項也相同的情況下,六期的模型在三期的風險標簽上的識別度會優于以三期為 Y 建模的效果。如果我們選用 6 個月作為訓練樣本,以六期為風險標簽的話,在 Ever 的口徑下,六期的壞的樣本會比三期的更多一些。

?沉淀數據時效性分群

可以從客戶經營的角度和數據的角度來理解數據沉淀數據時效性分群。

從客戶經營的角度來說,是對活躍戶和非活躍戶的分群建模。從數據的角度來說,是對數據的時效性進行分群。我們的客群是在其他產品有過授信或者交易申請記錄的客群,所以我們會以 T0,相當于是在我們客群進行授信申請的時間節點,再往前倒推 30 天,看用戶在其他產品上面是否有相關的授信或者是交易申請的操作。如果有的話我們認為他是比較活躍的用戶,用戶的數據在 T0 節點和往前推 30 天的節點獲取的數據是比較新的,我們把它命名為 Trade 1。在 30 天到 90 天內的用戶,命名為 Trade 2 ,到 90 天以上的是 Trade3。Trade1、Trade 2 和 Trade3 一般是在貸中環節進行區分,就是距離首筆交易的時間間隔的概念,我們相當于是借用了這個概念。

圖片


我們為什么要這么做呢?上圖是我們在整體樣本上面建的 Benchmark Model,Trade 1、Trade 2、 Trade 3 樣本上這些模型和整體樣本之間其實并沒有非常明顯的區分,較難分辨模型在哪一些子客群上的表現效果更好。而且如果仔細觀察,會發現 Trade 2 的效果反而會比 Trade3 更好,并且好于 Trade 1,明明 Trade 1 是最新的數據,反而它的效果是更差的。所以這就是我們為什么希望通過時效性維度來進行劃分客群。

當我們以時效性分群以后,我們再來評估模型的表現。以 Trade 1 模型為例,就是在 30 天內在其他產品上有操作過的客群數據來搭建的模型。下圖中的左圖是僅僅在 Trade 1 客群上面進行建模的效果比較,紅色線是我們新建的此客群的模型,藍色的三條線是在全部樣本上面建的幾個 Benchmark Model,效果上會有比較明顯的提升。但是這個提升其實并不能說明問題,因為這可能是因為這個模型是采用活躍樣本搭建的,樣本數據的時效性更近,所以模型的效果會更好。

這個提升到底有多少是來自于模型自身的提升,有多少是來自于樣本的分群,不能很明確的分析出來。當我們用同樣的模型在排除了 Trade 1 樣本的數據上驗證發現,即將 Trade 2 和 Trade 3 樣本合在一起打分以后再進行比較,會發現模型即使用的輸入項是比較舊的數據,但是它的效果依然可以超過其他的三個 Benchmark Models,這說明這樣的分群建模是非常有效的,而且可以間接地理解為這個 效果提升 是來自于模型的提升(見下圖中的右圖)。

圖片

低通過率頭部優質客戶排序優化

頭部優質客戶的排序優化對我們來說是最具有挑戰性的問題。因為建模樣本與最終策略使用的通過樣本相比可能有一個非常大的差距,特別是在一個實際通過率可能只有 10% 到 20% 的低通過率的產品上。

對前 10% 的客群,排序性的優化是非常重要的。因為經常會出現一個問題,模型在建模的樣本上面效果非常的好,一旦在策略上使用之后,實際上線的效果會有非常大幅度的下降。這是因為原先建模樣本可能是百分百通過,但是模型在實際上線之后,整個通過率大概只有 10% 到 20% 的區間。傳統的KS 評估或者AUC評估其實相當于是僅對10檔中的前 2 檔進行了評估,在這種情況下,模型的表現下降也是可以理解的,因為我們并沒有針對前幾檔進行相關的優化,所以后續我們開始研究如何對 Top Capture Rate 進行優化,除了傳統指標 KS、AUC 外,還會看前兩檔最好的客群的 Bad Rate 以及一些相關的指標來優化它相關的排序性。

下面介紹幾種比較常用的方法。

  • 第一種方法是頭部樣本的疊加模型

首先對全樣本進行建模,獲得 Model1,作為基礎模型。基礎模型產生樣本排序,顏色從深到淺(見下圖),我們以這個模型的排序進行取樣,取我們業務關注的那一部分的樣本,比如說前 20% 或者前 30%。取樣之后,再在子樣本上面搭建 Model 2, 再把 Model 1 和 Model 2 進行融合,獲得最終的模型。這種方法比較簡單直觀。模型 1 的全局最優,并不一定是 Top 20 或者 Top 30 的樣本的局部最優,所以我們在局部樣本上再找一個最優,兩個進行合并,獲得結果。但是這個方法在不同場景下,模型的效果不同(不一定能帶來正向增益),仍然需要在具體的問題上面去具體分析,做相關的試驗。

圖片


  • 第二種方法是權重法

這種方法不僅僅用于頭部客群的一個排序優化,其實在很多場景里面都可以使用。第一步同樣是對全量樣本建模,Model1,獲得排序。排序之后,對關注的特定的排序區間的客群進行增加權重,增加權重的方法很多。首先是直接在樣本里面復制這一部分客群,將復制的客群加入樣本,至于增加幾倍,需要通過測試獲取最好的效果,然后在調整后的樣本上面再進行訓練,獲取 Model2。

這個方法還有一種適用場景,在授信客群上面建模,客群會有一定的漂移情況。比如用六個月的數據,前四個月與最近兩個月的數據相比,可能發現最近兩個月的樣本會有比較明顯的偏移。如果整體進行建模的話,我們會發現模型可能在前四個月的效果上面效果很好。但是在最近兩個月的樣本上面,它的效果并不是特別好。在這種情況下,我們可以適當的對最近兩個月的客群樣本進行加權,使得模型偏向于著重學習最近兩個月的樣本,同時又能保證足夠的樣本,使得模型在長期來看比較穩定。因為在實際的操作中會發現有的時候客群的偏移只是暫時的,可能兩三個月之后客群又回來了,整個模型的效果 KS、AUC 又上升了。

圖片


  • 最后一種方法是修改算法的目標函數和評價函數,對模型打分頭部錯判壞樣本加大懲罰。這里共有三個公式。?

?公式一是 a-balanced 交叉熵,在普通的交叉熵的基礎上加入 Alpha 增加相應的權重,來調整好壞樣本的不平衡。其實可以完全僅使用這一條公式來對目標函數和評價函數進行修改。我們試驗發現這個公式可以對頭部 5% 的客群有很明顯的風險的壓降。

公式二是 Focal Loss,不僅能夠對好壞樣本進行平衡,還能對容易學習和不容易學習的樣本進行權重的修改。如果模型預測的概率偏向于 0.5 時,說明是比較難學習的樣本,通過調整 Gamma 系數,公式會對此樣本加重學習的權重。如果模型預測的概率是 0.95,說明它是傾向于 1 的命中的樣本,那么公式會降低對它的學習力度。

公式三是將公式一和公式二融合起來,形成更為復雜的 Focal Loss 函數。?

我們需要對 Alpha 系數和 Gamma 系數進行整體的分析,而不能單純地說 Alpha 系數是用來平衡好壞樣本,Gamma 系數是平衡容易學習和不容易學習的樣本的參數,應該把它們作為一個整體進行超參的分析和調參的工作,這種方法可以對模型的排序性有較大的調整和提升。

圖片

問答環節

Q1:請問除了直接復制樣本量,還有沒有其他的方法增加樣品權重?

A1:增加樣本權重的方法還挺多的。一是 XGB 模型里面有 scale_pos_weight系數可以進行調整。二是在整理樣本的時候,可以在樣本的 Matrix 中增加一列,對每一個樣本賦予相應的權重。三是修改損失函數,比如說對頭部 20% 的樣本增加權重。

Q2:關于共生融合風險標簽,用戶樣本擴容相當于是對比如說某子產品在授信 30 天內,發生支用的新客在 mob 4 上三十天逾期擴充成了某子產品授信后,該用戶在所有產品上均視為逾期 30 天,這樣理解對嗎?

A2:可以這么理解,但是在的時候可能需要做一些前期的分析工作,并不是盲目的把不同的產品合并在一起。首先需要分析產品的結構是否是類似的,還需要分析在這個子產品上歷史的數據。比如用戶在子產品 1 上的表現變壞了,那么在其它子產品上同期變壞的重合度有多高,我們之前的分析是大概 75% 左右的重合度,如果用戶在這個子產品上的表現變壞,在另外一個產品上的同期表現也很有可能變壞,我們就覺得這個產品可以進行融合。

Q3:請問在分群建模后還有必要融合嗎?

A3:如果按時效性分群的話,還是可以進行 Y 標簽的融合,因為這是兩個維度。如果是普通分群的情況的話,需要進行斟酌,因為分群本來就是為了讓樣本更加的純潔,引入的噪聲更少。

Q4:對于客群偏移還有沒有什么方法來進行處理。

A4:我們首先會做客群偏移的分析。從模型的角度來說,第一最直觀的就是模型分的偏移,還有特征輸入項的偏移,我們會做相應的監控。然后通過客群偏移的監控如果確實論證發現客群產生偏移,我們會加重偏移后的客群在整個建模樣本里面的權重,以增加算法對他的學習能力。

第二,因為客群的偏移是時間的維度,它是不可復制也不可預測的。所以在這種情況下,有一種方法是比如產品時間比較長,那我們可以把偏移后的客群跟歷史的客群進行分析,找到歷史上類似的時間段進行擴容。

Q5:尾部客群在實際的業務當中的貢獻能夠占到多少?在未來的預期當中,這部分客群貢獻的占比會持續擴大嗎?

A5:所謂的尾部客群并不一定說風險非常高。對公司來說,經營頭部的產品通過調額就可以提升整體的 GMV,所以它并沒有花很大的時間來精耕尾部客群,但是我們其實是可以將尾部客群的風險控制在相對較低的水平,甚至跟整體大盤持平的情況。而且在當前流量昂貴的情況下,我們需要挖掘歷史沉淀數據,盡少的增加成本的支出來獲得 GMV,增加公司的整體收入。且與其說是尾部客群經營,實際上更可以說是我們在對自己風控整體能力的一個壓力測試(經濟下行)。并且未來可以反哺給主流量運營。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2020-10-10 06:53:18

數據建模數據庫

2016-01-11 16:59:48

暢享網

2024-09-24 19:11:38

2022-08-01 11:30:27

數據建模

2017-02-05 14:59:18

MongoDB數據建模數據庫

2025-04-10 11:47:41

2009-02-05 10:13:00

局域網流量控制數據流量

2010-06-29 17:27:49

UML建模方法

2011-11-25 10:19:37

云計算SQL Azure數據建模

2022-05-27 11:27:31

技術架構ROI

2023-11-08 00:23:08

網關API

2010-05-26 16:44:27

Linux流量監控

2014-01-06 10:44:17

Angular數據

2010-06-04 10:49:58

Linux流量控制

2022-10-27 09:50:41

數據倉開發

2024-06-12 13:46:41

2013-11-19 16:40:03

RiverbedAWSGovCloud流量管理

2022-08-05 19:55:20

學術科研鴻蒙

2011-03-25 16:15:42

SQL Server

2023-11-23 16:59:37

數據倉庫建模
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人精品久久 | 欧美片网站免费 | 亚洲国产成人精品在线 | 国产做a爱片久久毛片 | 欧美午夜视频 | 成人av在线播放 | 日韩高清中文字幕 | 天堂免费看片 | 欧美精品二区 | 亚洲v日韩v综合v精品v | www.97zyz.com | 狠狠爱综合 | 在线一区观看 | 欧美区日韩区 | 中文字幕韩在线第一页 | 久久久国产亚洲精品 | 在线观看涩涩视频 | 二区av | 久久国产精品视频 | 日韩欧美在线播放 | 涩色视频在线观看 | 午夜视频在线观看网址 | 天天操天天射综合 | 亚洲一区在线观看视频 | 免费视频一区二区 | 一级毛片成人免费看a | 人人玩人人添人人澡欧美 | 久久久久久国产 | 亚洲成av人片在线观看 | 精品视频网 | 日韩欧美国产不卡 | 日韩成人在线一区 | 国产区一区 | 亚洲一区在线播放 | 精品毛片 | 国产免费一区二区三区 | 亚洲视频免费在线看 | 91精品国产综合久久久久 | 成人午夜在线 | 国产在线视频一区二区 | 少妇av片 |