成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

圖機器學習在螞蟻集團推薦業務中的應用

人工智能 新聞
推薦網絡中UI邊的記錄是非常少的,我們的關注點也是低活目標的推薦。

本文將介紹圖機器學習在螞蟻推薦系統中的應用。在螞蟻的實際業務中,有大量的額外信息,比如知識圖譜、其他業務的用戶行為等,這些信息通常對推薦業務很有幫助,我們利用圖算法連接這些信息和推薦系統,來增強用戶興趣的表達。全文主要圍繞以下幾方面內容展開:

  • 背景
  • 基于圖譜的推薦
  • 基于社交和文本的推薦
  • 基于跨域的推薦

01 背景

圖片

支付寶除了最主要的支付功能外還有大量的推薦場景,包括腰封推薦、基金推薦和消費券推薦等等。支付寶域內的推薦相比于其他推薦最大的區別是用戶的行為稀疏,活躍度較低,很多用戶打開支付寶只是為了支付,不會關注其他東西。所以推薦網絡中UI邊的記錄是非常少的,我們的關注點也是低活目標的推薦。比如為了提升DAU,可能只會給低活用戶在腰封投放內容,正常用戶是看不到的;基金推薦板塊我們更關注的是那些沒有理財或理財持倉金額較低的用戶,引導他們買一些基金進行交易;消費券的推薦也是為了促進低活用戶的線下消費。

圖片

?低活用戶歷史行為序列信息很少,一些直接根據UI歷史行為序列來推薦的方法可能不太適用于我們的場景。因此我們引入了下面三個場景信息來增強支付寶域內的UI關系信息:

  • 社交網絡的UU關系
  • II圖譜關系
  • 其他場景的UI關系

通過社交網絡的UU關系可以獲取低活用戶好友的點擊偏好,根據同質性就可以推斷出該用戶的點擊偏好,物品與物品之間的圖譜關系可以發現、擴展用戶對相似物品的喜好信息,最后跨域場景下的用戶行為對當前場景的推薦任務也有很大幫助。

02基于圖譜的推薦

很多推薦場景中用戶的行為是稀疏的,尤其是在對新用戶進行刻畫時,可利用的行為信息很少,所以通常要引入很多輔助信息,比如attribute、contexts、images等等,我們這里引入的是knowledge graph—知識圖譜。

1. 現存挑戰

圖片

?知識圖譜是一個大而全的歷史專家知識,有助于我們的算法推薦,但是還存在兩個問題:

一是圖譜本身可能并不是為了這個業務而設計的,所以里面包含很多無用信息,訓練過程也非常耗時。一個常用的解決辦法是只保留圖譜中能關聯上我們商品的邊,把其他邊都刪掉,但這又可能會造成一些信息損失,因為其他邊也是有用的。

二是圖譜用做輔助信息時,沒辦法將用戶的偏好聚合到圖譜內部的邊上。如上圖所示,用戶1喜歡電影1和電影2的原因可能是因為它們有同一個主演,而用戶2喜歡電影2和電影3的原因是它們的類型相同。如果只用普通的圖模型的UI、II關系來建模,只能得到用戶和電影的相關性,而沒辦法將用戶的這些潛在意圖聚合到圖譜中。

所以我們后面主要解決圖譜蒸餾和圖譜精煉這兩個問題。

2. 現有方法

 基于Embedding的模型

基于Embedding的方法先通過圖譜表征學習的方法把圖譜中的節點轉化為一個Embedding,然后將Embedding直接接入到UI模型中。這類方法提前學習了圖譜中的相關性,并把其轉為一個Embedding,所以很難再衡量用戶與知識邊的相似性,沒有解決圖譜蒸餾和圖譜精煉的問題。

② 基于Path的模型

基于Path的方法根據圖譜中的知識邊把圖譜分解為多條meta-path,但是構建meta-path 的過程需要很多專家知識,同時也沒有體現出用戶對知識邊的偏好。

 基于GCN的模型

基于GCN 的方法通過UI和II關系建模,一般通過attention的方法根據不同類型的邊取不同的權重,但邊的權重只和邊兩端的節點表征相關,與目標節點的表征無關。

3. 解決方案

圖片

?我們提出的模型主要分為4個部分,首先通過圖譜表征學習得到圖譜表征,利用知識依賴傳播來學習、聚合得到不同邊的重要性,然后通過一個蒸餾模塊對圖譜中的邊采樣、去噪,再加入條件注意力做圖譜精煉,最后做一個雙塔模型得到結果。

下面介紹每一部分的具體細節:

 圖譜表征學習層

圖片

我們這里使用的是傳統的TransH圖譜表征模型,因為我們的圖譜中有很多many-to-one和one-to-many的邊。通過TransH把每一個節點都映射到邊對應的空間中,在這個空間上衡量兩個邊的相似性。

 圖譜表征學習層

圖片

學習完圖譜邊的表征后,在鄰居內聚合圖譜邊的表征,再通過求不同的邊空間的cos距離作為點的加權聚合圖譜點的表征。因為圖譜中的邊的噪聲很大,所以我們會做一個額外的采樣,根據我們學到的權重在目標子圖上進行采樣,目標子圖就是用戶和商品的二階子圖合在一起,經過采樣得到更小的子圖。

 圖譜表征學習層

圖片

得到子圖之后,我們做一個條件注意力,在給定用戶和商品的情況下衡量邊的重要性。邊的重要性可以分為兩部分,一部分是這個邊本身很重要,另一部分是用戶很關注這個邊。邊本身的重要性已經在上一步中的知識依賴注意力中學習了,不用再做額外訓練,用戶對邊的重要性是通過將所有目標集合的表征和邊兩端點的表征拼接做一個注意力得到條件注意力,再根據條件注意力做點的聚合。

④ 雙塔模型 

圖片

?最后做一個雙塔模型衡量pairwise loss,用類Adam方法同時優化圖譜表征學習loss和推薦系統的目標loss,我們的算法復雜度與點和邊的數量呈線性關系。

4. 實驗結果

 實驗數據集和基準模型選擇 

圖片

?我們選取了一些推薦系統加知識圖譜的數據集和我們業務的基金推薦數據集,baseline主要有基于正則的CKE方法,基于矩陣分解的NMF方法,基于Path的異構圖的方法RippleNet和基于GCN的KGAT。

②注意力可視化 

圖片

?左邊的Knowledge attention中,每條邊上的數值只和兩端節點相關,在右上角的U532i1678上的值很小,后面就不容易采樣到這條邊。右邊的兩個圖用戶都是U0,但商品不一樣,整個圖的權重就完全不同。在預測U0-i2466以及U0-i780的相關性時,兩個圖最右一條路的權重就完全不同,并且U0-i2466的最右一條路徑的權重更大一些,因為在預測U0-i2466的相關性時最右邊的一條路要更重要一些。

模型評價

圖片

?我們在Top-K推薦和CTR點擊任務上衡量了模型效果,相比于baseline模型都有很大提升,在線上做基金推薦A/B testing實驗也帶來效果的提升。最后我們做了消融實驗,結果顯示去掉條件注意力或知識注意力模型效果都會下降,證明了我們所做改進的有效性。

03基于社交和文本的推薦

我們這里的基于社交和文本的推薦不是一個傳統意義上的推薦場景,主要是為了幫助運營理解用戶意圖,給用戶創造一些新內容、新廣告來引導用戶增長。比如腰封推薦的封面如何設計,運營只有在充分理解用戶意圖后才能設計出符合用戶心理預期的內容。

1. 現存挑戰

圖片

一個自然的方法就是使用Topic Model來衡量用戶到意圖,意圖到商品的分布,把用戶當做一個文檔,商品當做一個單詞分解出用戶意圖。但實際上用戶的點擊是稀疏的,尤其是我們的目標客戶是低活用戶時,并且商品的點擊服從長尾分布,也很難獲取用戶的興趣和意圖。

2. 解決方案 

圖片

?首先我們將UU關系和UI關系都加入到GNN中來學習,衡量用戶的點擊行為,然后我們對學習到的用戶—意圖先驗分布做一個近似,傳統的Topic Model的先驗分布是一個狄利克雷分布,我們這里用的是一個Logistic Normal的分布,它和狄利克雷分布長得很像,可以通過一些重參數化的工作使得這個分布的學習是可導的。

圖片

?學習完用戶與用戶之間的關系后,下一步學習語料間的關系。上圖中有一個小程序,里面有一段文本描述,利用skip-gram模型計算item與正、負樣本的相似度,得到單詞的相似度,并通過一個DNN將單詞的相似度映射為用戶意圖表征,最后通過KL散度約束分布調整為我們想要的形式。

3. 實驗結果

我們的數據集是用戶的連續7天的點擊數據,其中包括大約50萬用戶,9206件商品和2億用戶歷史點擊行為,社交網絡中包括700萬條邊,每個用戶平均有14-15個鄰居節點。

圖片

我們分別做了離線和在線實驗測試,離線實驗衡量了不同數量Topic下的用戶間的相似性和語義間的相似性。在線實驗通過我們的模型預測出的用戶意圖反饋給運營,運營根據用戶意圖設計描述文本和展示頁面做線上推薦。整體模型的實驗鏈路可能比較長,因為運營中間會產出一些素材,線上A/B實驗的目標分為兩部分,一部分是運營根據我們的模型反饋設計素材,一部分是利用歷史專家經驗做產出。實驗結果顯示我們的模型在離線、在線實驗中都相較于之前有了很大提升。

04基于跨域的推薦

圖片

?我們的推薦目標是低活用戶,他們可能沒有標簽,沒有特征,甚至從來沒有使用過支付寶。上圖中我們首先分析了用戶之間的相似性,其中與藍色代表陌生人的行為相似性,紅色代表與朋友的行為相似性,結果顯示關系更接近的朋友行為重疊度更高,所以我們可以使用用戶的好友行為信息作為用戶信息的一個補充。然后我們分析了活躍用戶和不活躍用戶的好友數量,發現活躍用戶的好友數量是遠多于不活躍用戶的,所以我們想能不能把活躍用戶的點擊信息遷移到其不活躍的好友信息上來輔助推薦。

圖片

?所以我們模型的一個核心思想就是對齊活躍用戶和不活躍用戶的特征空間,因為不活躍用戶在很多特征上都是缺失的,所以他和活躍用戶的特征空間本質上是不一樣的。這里我們使用GNN學習用戶的表征,將用戶的表征映射到一個共同空間。如上圖所示,CD-GNN的結構上層是我們想預測的一個活躍用戶,下層是我們想預測的一個不活躍用戶,他們經過兩個GNN的學習再通過一個領域不變層映射到一個共享的表征上,最后對活躍用戶和非活躍用戶都做一個label的預測。

圖片

具體來說,圖模型包括Social網絡和User-Page網絡,對兩個網絡做不同的聚合,通過Domain Invariant Layer將活躍用戶和非活躍用戶映射到同一空間,最終的loss=Source loss+Target loss-Domain invariant loss。線上的A/B實驗效果顯示我們的模型相較于GCN在CTR上提升很大,在行為稀疏的情況下我們的模型仍然能取得一個好的效果。

圖片

?上面是我們團隊近期發表的一些成果,我講的主要是上面3篇的工作。

05互動問答

Q1:CD-GNN層的參數是不是共享的?

A1:不是共享的,因為活躍用戶的一些特征,比如ID特征是遠多于不活躍用戶的,兩者的特征分布并不一致,所以這里我們沒有做共享 。

Q2:跨域推薦的問題中不活躍用戶的Target Label數量很少,導致模型對不活躍用戶的Target Embedding學習很差,這類問題應該怎么考慮?

A2:可以用一些pre-trained方法來提前增加一些表征信息,或者把缺失的特征通過一些方法補充上。可以邊做圖模型邊做特征的補充,把鄰居的特征也補充過來,而不是只簡單把鄰居特征聚合,其中再添加類似于特征重構的loss可能會幫助解決這個問題。

Q3:第一個基于圖譜的方法是在精排場景落地的?里面的GNN一般做到幾階?

A3:我們的基金推薦板塊給用戶曝光的只有5個基金,不像其他場景下推薦出一個列表,底下可能有幾百條信息,用戶可以一眼看到這5個基金,重排的影響不是很大。我們模型的結果直接接到線上,是一個精排模型。一般就做到兩階GNN,三階在一些任務上的提升不是很大,并且線上的時延太長了。

責任編輯:張燕妮 來源: DataFunTalk
相關推薦

2023-09-07 20:31:48

外灘大會螞蟻集團圖學習系統

2019-06-06 08:52:00

2022-03-18 17:53:14

機器學習物聯網工業物聯網

2022-04-18 11:36:43

機器學習制造業人工智能

2017-04-14 08:33:47

2021-07-21 11:25:17

機器學習?AI人工智能

2017-08-14 17:00:21

機器學習電商應用

2021-04-13 09:00:00

機器學習鐵路技術

2020-02-27 14:47:11

人工智能機器學習故障檢測

2021-11-01 21:36:02

人工智能AI機器學習

2022-12-30 15:35:30

智慧醫療人工智能

2023-08-22 15:37:45

深度學習人工智能

2024-10-21 08:43:16

2021-10-26 14:44:28

人工智能AI深度學習

2020-08-10 11:15:07

機器學習ML人工智能

2021-07-29 09:55:40

人工智能AI深度學習

2020-11-02 10:15:54

螞蟻集團IPO投資者

2022-02-21 16:05:26

機器學習優勢Python

2024-02-05 09:30:10

推薦算法深度學習內容過濾

2022-03-02 09:11:09

機器學習網絡
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲天堂一区二区 | 美女视频一区二区三区 | 国产日韩欧美在线播放 | 国产高清精品在线 | 久久青 | av中文字幕在线播放 | 欧美一二三区 | 国产精品日本一区二区在线播放 | 51ⅴ精品国产91久久久久久 | 久久99深爱久久99精品 | 天天操天天射天天 | 国产久视频 | 欧美日韩国产一区二区三区不卡 | 91久久久www播放日本观看 | 97超在线视频 | 国产精品av久久久久久毛片 | 亚洲国产成人精品久久 | 欧美视频在线播放 | 久草资源在线视频 | 成人国产精品 | 天堂免费看片 | 久久国产日本 | a级毛片毛片免费观看久潮喷 | 美女爽到呻吟久久久久 | 亚洲高清视频在线观看 | 日日夜夜草 | 成人在线视频免费看 | 国产久 | 一片毛片| 狠狠色香婷婷久久亚洲精品 | 国产日韩亚洲欧美 | 国产在线精品一区 | 成人午夜免费福利视频 | 久久久精品 | 国产精品免费一区二区 | 黄色免费网址大全 | 一区二区视频 | 欧美日韩成人网 | 91一区| 久久久久久久久久久丰满 | 欧美黄色片 |