成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

螞蟻營銷推薦場景上的因果糾偏方法

人工智能 算法
本文將分享螞蟻營銷推薦場景上的因果糾偏方法。下面介紹螞蟻團隊基于數據融合糾偏的工作,目前已經發表在 SIGIR2023 的 Industry Track 上。工作的思路是通過無偏數據來做數據增廣,指導模型的糾偏。

一、因果糾偏的背景

1、偏差的產生

推薦系統里根據收集的數據來訓練推薦模型,給用戶推薦一個合適的 item,當用戶與這個 item 產生交互后,數據又會被收集用于繼續訓練模型,從而形成一個閉環。但是這個閉環當中可能會存在各種各樣的影響因素,因此會產生誤差。誤差的主要原因就是訓練模型時使用的大多是觀測數據,而不是一個理想的訓練數據,會受到曝光策略、用戶選擇等等因素的影響。偏差的本質就是對于經驗風險估計的期望和真實理想風險估計的期望之間的差異。

圖片

2、常見的偏差

推薦營銷系統里面比較常見的偏差主要有以下三種:

  • 選擇性偏差:是由于用戶根據自己的偏好主動選擇交互的 item 造成的。
  • 曝光性偏差:推薦的 item 通常只是整體 item 候選池里的一個子集,用戶選擇時只能與系統推薦的 item 進行交互,導致了觀測數據產生偏差。
  • 流行性偏差:一些熱門的 item 在訓練數據中的占比高導致模型會學到這個表現,就會更多推薦熱門的 item,造成馬太效應。

還有其它一些偏差,例如位置偏差、一致性偏差等。

3、因果糾偏

圖片

下面通過一個例子來理解偏差對建模過程造成的影響。眾所周知,抽煙容易導致肺癌,且抽煙的人容易出現黃手指,因為抽煙這個共因的存在,導致我們認定黃手指與肺癌之間產生了關聯。但是我們不能說因為有黃手指所以會患肺癌,這之間是沒有因果關系的。由于抽煙這個共因的存在,導致了這兩者之間的虛假關聯,這個共因也叫混雜因子(confounder)。這里的因果關系是一個 what if 的問題,假設其它條件不變的情況下改變了 a 會導致 y 發生改變,就說明 a 跟 y 之間存在因果關系。

如何避免這種問題呢? 一種比較常見的方法就是引入無偏的數據,通過使用無偏的數據來幫助模型學習無偏的表征;另外一種方法是從因果圖的角度出發,通過后期對觀測數據進行調整來進行糾偏。因果糾偏就是通過因果的手段對數據或者模型進行處理,去除偏差的影響。

4、因果圖

圖片

因果圖是一個有向無環圖,用來刻畫場景中各個節點之間的因果關系。因果圖主要由三個結構組成:鏈式結構、分叉結構和對撞結構。

  • 鏈式結構:給定 C,A、B 是獨立的。
  • 分叉結構:給定 C,A 變化,B 不會隨之變化。
  • 對撞結構:在沒有 C 的情況下,不能觀察到 A、B 是獨立的;但是觀察到 C 后,A 跟 B 是不獨立的。

后門路徑以及后門準則可以參照上圖的例子“感染新冠肺炎 X 與 Z 以及死亡率 Y 之間的關系”。后門路徑就是鏈接 X 到 Y,但是從 Z 出發最終指向了 Y 的路徑。與上一個實例類似,感染新冠肺炎與死亡率之間并不是一個純粹的因果關系,感染新冠肺炎會受到年齡的影響,老齡人群感染新冠肺炎的概率更高,而老齡人群死亡率也更高。但如果我們有足夠多的數據能夠將 X、Y 之間的后門路徑全部阻斷,即給定了 Z,X 與 Y 就是獨立的關系,那么就可以建模真正的因果關系了。

二、基于數據融合的糾偏

1、數據融合糾偏模型介紹

下面介紹螞蟻團隊基于數據融合糾偏的工作,目前已經發表在 SIGIR2023 的 Industry Track 上。工作的思路是通過無偏數據來做數據增廣,指導模型的糾偏。

圖片

無偏數據整體跟有偏數據的分布不相同,有偏數據會集中在整個樣本空間的某部分區域,缺失的樣本會集中在有偏數據相對較少的部分區域,所以增廣的樣本如果是靠近無偏區域比較多的區域,那無偏數據會發揮更多的作用;如果增廣樣本靠近有偏數據的區域,那有偏數據就會發揮更多的作用。對此這篇論文設計了 MDI 的模型,可以更好地利用無偏和有偏數據來做數據增廣。

圖片

上圖中展示了算法的框架圖,MDI 模型是通過元學習的方法,在無偏數據上調整樣本的權重以及加權的系數。首先,MDI 模型訓練有兩個階段:

  • 階段一:利用無偏數據訓練無偏的 teacher 模型 fu。
  • 階段二:使用原學習的方法來更新示意圖里的其它結構。

通過優化 L(fd) 的經營損失來訓練融合去偏模型 fd,最終的 Lose 損失主要有兩項,一個是 L-IPS,一個是 L-IMP。L-IPS 是我們利用原始樣本來進行優化的一個 IPS 模塊;R-UI 是利用任意模型來求導傾向性分數(判斷樣本屬于無偏樣本的概率或屬于有偏樣本的概率);第二項的 L-IMP 是預設的增廣模塊的權重,R-UI 是預設的增廣模塊生成的尾標;P-UI 與 1—P-UI 是無偏的 Teacher 模型和融合模型在當前樣本的傾向分數;fp 就是用來學傾向性分數的一個函數,通過學習 fp 自適應結合無偏數據的 Teacher 模型與當前的有偏數據訓練的模型,共同為增廣樣本生成偽標記;通過這種方法來學習更復雜的 pattern 信息,fp 通過 Meta learning 的方式求解。

下面是算法完整的訓練流程:

  • 在無偏數據上預訓練 fu。
  • 拷貝 fd 的參數到 fd(u,i),并在有偏+增廣數據上更新參數。
  • 在增廣數據上更新 fp 的參數。
  • 在有偏+增廣數據上基于更新后的 fp 正式更新 fd。
  • 重復 2-4,直至模型收斂。

圖片

2、數據融合糾偏模型的實驗


圖片

我們在 Yahoo R3 和 Coat 這兩個公開數據集上進行了評估。Yahoo R3 通過收集 15000+ 用戶對 1000 首歌曲的打分,一共收集了 31 萬+有偏數據以及 5400 條無偏數據。Coat 數據集是通過 290 個用戶對三百件衣服的打分收集了 6900+ 條有偏數據和 4600+ 條無偏數據。兩個數據集用戶的打分都在 1 到 5 之間,有偏的數據來自于平臺的數據用戶,無偏的樣本通過隨機給用戶選擇打分的形式來收集。

除了兩個公開的數據集,螞蟻還使用了來自業界實際場景的一個數據集,為了模擬無偏數據樣本非常少的情況,我們把全部的有偏數據和 10% 的無偏數據用來訓練,保留 10% 的無偏數據作為驗證,剩下 80% 作為測試集。

我們使用的 Baseline 對比的方法主要是以下幾種:第一個方法是分別利用無偏數據、單有偏數據和直接數據融合訓練的模型;第二個方法是通過少部分無偏數據,設計了一個正則性的表征約束有偏數據、無偏數據表征的相似度來進行糾偏的操作;第三個方法是逆概率權重的方法,傾向性分數的一個逆概率。Double robust 也是一個比較常見的糾偏的方法;Propensity free double robust 是一個數據增廣的方法,它先用無偏的樣本學習一個增廣的模型,然后通過增廣的樣本幫助整個模型進行糾偏;Auto debias 也會用到一些無偏的數據做增廣來幫助模型糾偏。

圖片

我們使用了 MSE 和 MAE 這兩個指標來評估表現。如圖所示,我們提出的 MDI 方法,在 Coat 以及 Product 兩個數據集上,兩個指標都有比較好的表現。

在 Yahoo R3 數據集上,我們提出的方法在 MAE 上的表現指標最好,在 MSE 除了 IPS 以外的方法表現是最好的。三種數據增廣的方法,PFDR、Auto Debias 以及我們提出的 MDI,在多數情況下表現的都會更好,但是由于 PFDR 是提前利用無偏數據訓練增廣模型,會嚴重依賴于無偏數據的質量,因此它在 Coat 模型上就只有 464 條無偏訓練數據樣本,當無偏樣本比較少的時候,它的增廣模塊就會比較差,數據表現也會相對差一些。

圖片

AutoDebias 在不同數據上的表現與 PFDR 正好相反。由于 MDI 設計了同時利用無偏數據以及有偏數據的增廣方法,所以具有更強的數據增廣模塊,因此它在無偏數據比較少或者無偏數據比較充足這兩種情況下都可以獲得比較好的效果。

我們在兩個公開數據集上也評估了這些模型在不同比例的無偏數據下的表現,分別使用了 50% 到 40% 的無偏數據以及全部的有偏數據來用于訓練,其它邏輯與前面 10% 的無偏數據做驗證,剩下的數據做測試,這個設定與前面的實驗一樣。

上圖展示了采用不同方法在不同比例的無偏數據下的 MAE 的表現,橫坐標表示無偏數據的比例,縱坐標表示各個方法在無偏數據上的效果,可以看到隨著無偏數據比例的增加 AutoDebias、IPS 以及 DoubleRubus 的 MAE 沒有明顯的下降過程。但是不按 Debias 的方式,直接利用原始數據融合來學習的方法則會有比較明顯的下降,這是因為無偏數據的樣本比例越高,我們整體的數據質量就越好,所以模型可以學到更好的表現。

當 Yahoo R3 的數據使用超過 30% 的無偏數據來訓練的時候,這種方式甚至超過了除 MDI 以外其它所有的糾偏方法。但 MDI 的方式相對來說可以獲得更好的表現,這也可以證明 MDI 方法在不同規模的無偏數據下都有比較魯棒的結果。

圖片

同時我們也進行了消融實驗,在三個數據集上分別驗證增廣模塊當中各個部分的設置是否有效。

λ=0 的設置表示直接去除了增廣模塊;Pu,i = 1 表示只利用無偏數據建模增廣數據模塊;Pu,i = 0 表示只利用有偏以及增廣的融合數據建模增廣數據模塊。

上圖中展示了消融實驗的結果,可以看到 MDI 方法在三個數據集上都取得了比較好的效果,說明增廣模塊是有必要的。

無論是在公開數據集上,還是實際業務場景的數據集上,我們提出的融合無偏和有偏數據的增廣方法相比之前已有的數據融合方案都有著更好的效果,同時通過參數敏感性實驗以及消融實驗也驗證了 MDI 的魯棒性。

三、基于后門調整的糾偏

下面來介紹下團隊的另外一個工作:基于后門調整糾偏。這一工作也已發表在了 SIGIR2023 的 Industry Track 上。后門調整糾偏應用的場景就是營銷推薦的場景,如下圖所示,用戶與優惠券或者用戶與任意廣告、item 的交互是不受任何干預的,有均等的可能去任意交互,每張券也有均等的可能會曝光給任意用戶。

圖片

但在實際的業務場景當中,為了保護或者幫助一些小商戶提升流量,以及保證全局的用戶參與體驗,通常會設置一系列的策略約束,這種情況就會導致一部分用戶會更多的曝光某些優惠券,另一部分用戶會更多的曝光另外一張優惠券,這種干預就是前文中提到的 confounder。

圖片

這種干預在電商營銷場景里會產生什么問題呢?如上圖所示,為了簡化,我們將用戶簡單地分為高參與意愿和低參與意愿兩類,將優惠券簡單地分為大折扣和小折扣兩類。圖中柱狀圖的高低表示了對應樣本的全局占比,柱狀圖越高,說明對應樣本在整體訓練數據當中占比越多。圖中所展示的小折扣的優惠券以及高參與意愿用戶樣本占據了大多數,會導致模型學到圖中所示的分布,模型會認為高參與意愿用戶更喜歡小折扣的優惠券。但實際上面對同樣的使用門檻,用戶肯定會傾向于折扣更高的優惠券,這樣才會更省錢。圖中模型對于實際的轉化概率是小折扣優惠券低于大折扣優惠券的,但是模型對于某一個樣本的預估反而會認為小折扣優惠券核銷概率更高,所以模型也會推薦這個打分對應的優惠券,這就形成了一個悖論。

圖片

從因果圖的視角分析這個悖論產生的原因,在當前的場景下應用非糾偏的推薦模型,其因果圖構造如上圖所示,U 表示用戶的表征,I 表示 item 的表征。D 和 K 分別是用戶視角與權益視角的歷史交互情況,T 表示當前業務設置的一些規則約束,T 是沒辦法直接量化的,但是我們可以通過 D 和 K 來間接地看出它對用戶和 item 的影響。y 表示用戶與 item 的交互,結果就是 item 是否被點擊、被核銷等。

因果圖所代表的條件概率公式如圖右上所示,公式推導遵循貝葉斯概率公式。在給定 U 和 I 的條件下,最終求導 P|Y ui 并不是只與 U 和 I 相關,因為 U 會受到 du 的影響,也就是 p 給定 u 的時候 p(du)的概率也是存在的。給定 I 的時候同理,I 也會受到 ki 的影響,這個情況產生的原因是因為 D 和 K 的存在導致了場景當中存在后門路徑。也就是不從 U 出發,但是最終指向 y 的路徑(U-D-T-Y 或者 I-K-T-Y 路徑)這種后門路徑會表示一個虛假觀念,也就是 U 不僅可以通過 T 影響 y,也可以通過 D 影響 y。

調整的方法是將 D 到 U 的路徑人為切斷,這樣 U 只能通過 U-T-Y 跟 U-Y直接影響y,這種方式可以去除虛假關聯,從而建模真正的因果關系。后門調整是對觀測數據做do-calculus,然后使用do算子聚合所有D以及所有K的情況表現,避免U和I受到D和K的影響。通過這種方式建模一個真正的因果關系。這個公式的推導近似估計形式如下圖所示。

圖片

4a 和前面 3b 形式是一樣的,而 4b 是做了樣本空間的近似。因為理論上來講 D 和 K 的樣本空間是無限的,只能通過收集到的數據(樣本空間的 D 和 K 取一個大小)來做近似。4c 和 4d 都是期望的近似的推導,通過這種方式最終只需額外建模一個無偏表征 T。T 是通過遍歷所有情況下用戶跟 item 的表征概率分布和,額外建模無偏表征 T,來幫助模型得到最終的無偏數據估計。

圖片

實驗采用了兩個開源的數據集,天池和 84.51(優惠券)數據集。通過采樣的方式模擬這種規則策略對整體數據的影響。同時,使用了某個真實的電商營銷活動場景所產生的數據,共同評測算法的好壞。對比了一些主流的糾偏方法,比如 IPW 是通過逆概率加權做糾偏;Unawareness 是通過去除偏差特征來緩解偏差的影響;FairCo 是通過引入誤差項約束表征來獲得相對無偏的估計;MACR 是通過多任務的框架分別估計用戶的一致性以及 item 的流行程度,在預測階段減去一致性跟流行度這種方式來實現無偏估計;PDA 是通過因果干預,對損失項做調整的方式去除流行性偏差的影響;DecRS 也是借助后門調整去除信息偏差,但是它只針對用戶視角的偏差進行糾正。

圖片

實驗的評估指標是 AUC,因為營銷推進場景對于推薦優惠券或者推薦候選的商品只有一個,所以本質上是二分類的問題,因此采用 AUC 來評估比較合適。對比了 DNN 和 MMOE 不同架構下的表現,可以看出,我們提出的 DMBR 模型相比于原始無糾偏方式以及其它糾偏方式都有著更好的效果。同時 Ds_A 跟 Ds_B 在模擬數據集上比真實的業務數據集上得到了更高的提升效果,這是因為真實業務數據集的數據會更復雜,不僅會受到規則策略的影響,還可能會受到其它因素的影響。

圖片

目前模型已在某電商營銷活動場景上線,上圖展示了線上的效果,對比基線模型,DMBR 模型在核銷率以及核銷量上都有一定的提升。

四、在螞蟻的應用

因果糾偏的方法,在螞蟻主要應用在存在規則或者存在策略約束的場景,比如廣告場景,可能會設置約束不同廣告的投放人群,一些針對寵物的廣告,會更多地投放給有寵物的用戶。電商營銷的場景,會設置一些策略來保證小商家的流量,避免所有流量都被大商家消耗。以及保證用戶活動參與體驗,因為活動的整體預算有限,有一些薅羊毛的用戶反復參與活動,就會占用掉大量的資源,導致其他用戶的活動參與體驗較差。諸如此類的場景中,都有對因果糾偏的應用。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2020-12-01 10:54:52

天衍實驗室系統推薦

2023-05-04 07:23:04

因果推斷貝葉斯因果網絡

2024-09-11 19:36:24

2024-04-12 07:40:37

因果推斷推薦模型推薦系統

2024-02-05 08:41:08

因果推斷快手短視頻應用

2023-05-04 08:28:30

因果推斷方法算法

2024-10-21 08:43:16

2023-11-14 07:21:44

大數據流式圖計算

2013-09-22 10:26:06

大數據大數據團隊

2024-03-15 07:21:33

數據倉庫數據建模數據分析

2022-09-19 09:53:37

機器學習實踐

2024-11-19 08:34:15

2022-12-27 08:19:25

2021-12-16 08:00:00

推薦系統MovieMat數據

2011-04-29 14:30:23

2016-06-02 17:18:50

金網獎

2011-07-26 14:10:10

2022-03-16 09:33:13

模型算法智能

2011-05-16 14:46:19

測試用例

2024-07-15 08:59:52

機器學習弱監督建模人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 看真人视频一级毛片 | 日本免费黄色一级片 | 九九热在线观看 | 国产一区二区三区欧美 | 密室大逃脱第六季大神版在线观看 | 一级毛片免费看 | 免费精品久久久久久中文字幕 | 91美女在线 | 久久久久国产精品人 | 欧美一级在线 | 毛片av免费看 | 国产区在线观看 | 精品久久久久久久人人人人传媒 | 91视频网址 | 久久不卡区 | 日韩一区二区福利视频 | 国产精品久久久久久久久久了 | 精品久久国产 | 黄视频网址 | 日韩视频在线免费观看 | 人人干人人草 | 91免费在线看 | 久久精品视频在线观看 | 男女视频在线观看 | 伊人色综合久久久天天蜜桃 | 亚洲天堂一区二区 | 国产精品国产三级国产aⅴ无密码 | 日韩一区二区精品 | 午夜av电影院 | 欧美久久天堂 | 日韩国产中文字幕 | 国产视频福利一区 | 91在线精品一区二区 | 91免费在线视频 | 91精品国产高清一区二区三区 | 男女羞羞视频大全 | www四虎影视 | 精品1区2区| 欧美精品一区二区三区视频 | 欧美亚洲视频在线观看 | 久久夜视频 |