成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態對齊在小紅書推薦的研究及應用

人工智能
由于多模態模型與推薦模型在訓練過程中存在步調不一致問題,導致聯合訓練被推薦信號主導,從而丟失大量多模態信息。AlignRec 通過分階段對齊的方式,設計了三種針對性的優化損失函數,使得聯合訓練能夠同時兼顧多模態信息和推薦信息。

在 CIKM 2024 上,小紅書中臺算法團隊提出了一種創新的聯合訓練框架 AlignRec,用于對齊多模態表征學習模型和個性化推薦模型。本文指出,由于多模態模型與推薦模型在訓練過程中存在步調不一致問題,導致聯合訓練被推薦信號主導,從而丟失大量多模態信息。AlignRec 通過分階段對齊的方式,設計了三種針對性的優化損失函數,使得聯合訓練能夠同時兼顧多模態信息和推薦信息。實驗結果表明,AlignRec 在多個數據集上的性能超過了現有的 SOTA(state-of-the-art)模型。此外,AlignRec 還提供了在當前廣泛使用的公開數據集亞馬遜上的預處理特征,這些特征的效果顯著優于現有的開源特征。

01背景

最近多模態是個非常熱門的話題,尤其是在大模型以及 AIGC 領域,多模態基建和技術是走向未來商業化的奠基石。在過去的多模態大模型研究方向上,模態的“對齊”已經被驗證非常重要,分布的不一致損害不同模態的理解,我們此次要討論的核心問題是多模態在推薦中的對齊問題;

在具體介紹論文工作之前,我們先來介紹下我們過去在推薦和電商中的實踐工作:

推薦實踐

圖片

上述方法是我們對 BM3論文進行改進 上線的方案,該方案實際上做的是通過損失函數來實現“對齊”工作。我們的對模型的期望也是保留個性化的同時,能夠對齊行為和多模態的空間,進一步增加長尾的個性化分發能力。先說效果:

該模型實驗在推薦發現頁取得時長、曝光、點擊等核心指標收益,除此之外,在長尾分發上,0 粉作者筆記點擊和曝光獲得大幅增長,整個召回路增加了全局可分發筆記數 6%,分發筆記集中在 1k-5k 的筆記曝光集合;同時,我們的方法也被復用在了電商場景,分發長尾同時,獲得 DGMV 等核心指標收益。

很顯然,從上述可以看出,“對齊”的效果立竿見影,在業界應用上我們已經取得實質性進展,但本質上這樣的設計方案依然并沒有完全解決多模態推薦問題,因為我們的多模態模型和推薦模型是相對割裂的,等同于直接拿表征來使用,這樣的設計打通了應用范式,卻無法判斷多模態模型本身能力對效果的上限,對于選擇合適多模態表征存在一定的難度。但如果我們引入文本/圖等 Encoder(Transformer)等進行聯合訓練,會引入如下的問題:

  • 在大規模的數據下,分布式訓練引入圖文 Encoder 會造成資源和性能問題,尤其是注重高時效性的 Streaming Data;
  • 訓練步調不一致,往往多模態模型需要大量數據甚至多個 Epoch 才能收斂,但推薦模型通常采取單輪訓練,這也導致多模態模型訓練不充分;

所以我們設計聯合訓練模型,通過設計分階段對齊的方式和中間指標評估,解決上述聯合訓練問題,并且引入了三種針對性的優化損失函數,使得聯合訓練能夠同時兼顧多模態信息和推薦信息,解決聯合訓練中的“對齊”問題,提升效果上限。

下面我們從相關工作,核心挑戰,模型設計介紹整體工作。

02相關工作

圖片

我們在這里通過 (a), (b), (c) 描述了在過往的學術界目前多模態推薦方向的相關工作,總結主要的發展路徑:

  • 圖(a),直接利用,比如把 embedding,多模態特征作為信號輸入網絡;
  • 圖(b),利用圖等方式聚合,希望能得到更豐富的多模態信息表達,這本質上也是增加多模態側信息的召回率;
  • 圖(c),聯合優化,把模態損失和行為損失共同優化,但這忽略了本身筆記側的多模態學習。

在工業界,現階段推薦系統主要還是依賴于 ID 特征的學習, 大多數多模態推薦把多模態信息作為 sideinfo 去輔助 ID 特征的學習。但是, 多模態之間以及 ID 模型與多模態之間都存在著語義鴻溝, 直接使用甚至可能適得其反。

核心挑戰

為了貼合業界實際,設計一款有效的多模態與推薦聯合訓練模型會遇到如下的挑戰:


  • 挑戰1: 如何對齊多模態表征。包括內容模態之間(如圖文)的對齊,以及內容模態與 ID 模態之間的對齊;
  • 挑戰2: 如何平衡好內容模態和 ID 模態之間的學習速度問題。內容模態可能需要超大規模的數據和時間去訓練, 而 ID 模態的學習更新可能只需要幾個 epoch。
  • 挑戰3: 如何評估多模態特征對推薦系統的影響。引入不合適的多模態信息可能需要更多的精力去做糾正, 甚至可能影響推薦系統的性能。

03設計方案

我們所提出的方法命名為 AlignRec,整體框架如下圖所示, 主要包含3個模塊: Multimodal Encoder Module, Aggregation Module, 以及 Fusion Module, 下面分別進行介紹。

圖片

Multimodal Encoder Module

圖片


??????????是一個預訓練的模塊, 它以物品的多個內容模態為輸入,實現物品側視覺模態  和文本模態  的對齊, 最后統一輸出多模態表征  :  

具體地, 我們使用 BEiT3 作為骨干網絡, 通過 mask-then-predict 策略進行訓練, 包括 mask-image-modeling (MIM) 和 mask-language-modeling (MLM), 分別 mask 掉一定比例的圖/文 token, 再嘗試訓練恢復還原出正確的 token, 這兩個任務分別對應著不同的 Loss


圖片


再將兩者的 Loss 進行相加得到預訓練階段的 Loss

圖片

在應用時, 取 CLS token 作為物品側統一的多模態表征。

對于 Open DataSource 我們并不會加入顯式的行為信息,確保多模態模型的能力和合理性,但在業界實際使用時,我們通常會加入協同信號;

Aggregation Module

這個模塊以 ID 模態和前面統一的內容模態為輸入,構建異構圖,基于 GCN(作者使用 LightGCN)做多層聚合,從而輸出 User 和 Item 的 ID 模態,User 的多模態表征,Item 的多模態表征。

圖片


圖片

流程上總計分為三個步驟:

  • User 側和 Item 側的 ID 模態,通過圖聚合的方式,得到 User 和 Item 的表征,分別表示為  和  
  • 物品側的多模態表征,內容模態表征經過一個 MLP 進行映射,再做 Element-wise 乘積與 ID Embed 進行融合, 得到融合了內容先驗知識的內容表征,之后基于統一的內容模態表征, 構造物品側的相似矩陣,每個物品取與它最相似的 10 個 Item 做聚合, 得到物品側的多模態表征輸出,表示為 
  • 用戶側的多模態表征,對于 User 側,通過聚合用戶歷史交互過的 Item 得到用戶側的多模態表征,表示為  ;

訓練細節上,我們使用 InfoNCE 對齊內容模態表征和 ID 模態表征,讓同 Item 的內容模態表征與 ID 模態表征更接近,不同 Item 的內容模態表征及 ID 模態表征的距離更疏遠。但如果不加任何約束,   可能會盲目地趨近于表征  ,引起模態表征坍塌。為了規避這個問題,我們增加了正則項約束:

圖片

圖片

Fusion Module

這個模塊的作用在于融合 ID 模態表征和多模態表征, 從而得到 User 側表征和 Item 側表征, 用于召回的 topK 向量檢索

圖片

將相應的表征進行相加:

圖片

在得到 User 側和 Item 側的表征之后,我們增加了個 User 側和 Item 側的對齊,具體地,我們對用戶表征  以及交互 Item 對應的表征  作了相似度約束。

圖片

統一訓練

推薦任務會使用 BPR 計算損失:

圖片

圖片

圖片

前面挑戰 2 提到, 內容模態和 ID 模態的學習速度有很大差異, 因此, 會先在預訓練階段對齊不同內容模態, 得到統一的內容模態表征輸出。而在后續的 End2End 訓練階段, 則加權融合推薦任務的損失, 正則化損失, 以及前面多個對齊目標損失, 得到最終的訓練損失。

中間評估指標

為了更準確評估多模態特征在推薦系統中的適用性及應用效果, 我們提出了 3 種中間評估方案:

Zero-Shot推薦

用于評估基于用戶歷史交互行為, 多模態特征能否反映出用戶興趣, 包括 3 個步驟:

  • 按時間順序對用戶歷史交互行為排序, 取最后一個行為作為Target Item,其余作為用戶歷史行為交互  
  • 基于用戶歷史行為交互,計算用戶的多模態表征:

圖片

計算  與 Target Item 的相似度, 判斷是否在TopK中出現

Item-CF推薦

用于評估只使用多模態特征, 基于協同過濾的方法進行物品推薦的能力

  • 計算每對 Item 的I tem-CF 分數;
  • 為每個 Item j , 選擇最高 Item-CF 分數所對應的Item i 作為 Target Item;
  • 使用多模態表征計算 Item j 與候選集里其它 Item 的相似度得分, 判斷 Item i 是否在 TopK 里。

Mask Modality推薦

按一定比例 mask 視覺模態或文本模態, 衡量最終推薦效果差異, 從而評估不同內容模態的重要度。

04實驗結論

在不同數據集上與各 baseline 模型做對比,在目前的多模態公開數據集表現上達到 SOTA:

圖片

Pretraining 的模型在論文所提各中間評估指標上均超越 CLIP 的表現:

圖片

在開源數據集上生產的多模態特征與開源多模態特征對比效果上,AlignRec 的性能明顯提升:

圖片

下面的表格也展示了不同模塊的消融效果:

圖片

我們也列出了各個超參數對效果影響:

圖片

最后,我們也對比了長尾的效果:圖片

05總結

我們的貢獻可以被總結為三點:

  • 我們一直在探索對齊問題,并且通過小紅書推薦實踐,設計了可復用的多模態召回范式,已經拿到了線上AB收益;
  • 提出AlignRec聯合訓練方式,深入解決對齊問題,提出分階段對齊的模式和中間指標評估方式;
  • 最后,我們對Amazon的數據集整體的多模態數據源進行升級,為后續研究打下基礎。

06作者簡介

  • 幻翎
    小紅書算法工程師,主要研究方向:通用推薦模型算法,多模態算法研究和應用。
  • 圖森
    小紅書算法工程師,主要研究方向:通用多模態算法,大模型算法研究。
  • 特圖
    小紅書基礎模型團隊負責人,主要研究方向:多模態大模型 x 內容分發技術。
  • 大輔
    小紅書應用模型團隊負責人,主要研究方向:通用推廣搜模型算法,多模態和大模型技術的研究和應用。
責任編輯:龐桂玉 來源: 小紅書技術REDtech
相關推薦

2022-08-11 13:37:41

多模態算法多模態網絡

2022-05-10 08:27:15

小紅書FlinkK8s

2024-05-21 07:54:30

視頻多模態語義檢索算法

2025-02-13 09:40:00

2024-05-22 16:01:32

2021-10-18 11:54:46

2024-03-19 13:29:19

2024-10-28 08:55:19

2024-09-10 09:36:26

2024-10-29 11:54:25

2010-08-06 10:16:55

RIP協議Linux

2023-11-27 18:17:19

2024-10-23 20:09:47

2022-11-03 14:48:29

機器學習元宇宙

2023-09-20 08:37:33

語音翻譯同傳翻譯

2023-05-17 07:29:37

DNN 模型AI

2024-11-04 13:30:00

模型AI

2023-04-13 15:25:14

模型

2024-12-30 00:01:00

多模態大模型Python

2023-10-07 07:24:58

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩欧美在线播放 | 国产视频中文字幕 | 亚洲精品一区二区 | 国产精品日韩一区二区 | 中文字幕在线播放第一页 | 免费观看一级特黄欧美大片 | 国精久久| 欧美一区二区三区免费电影 | 日韩欧美第一页 | 日韩一二三区视频 | 四虎影院在线播放 | 欧美成人一区二区 | 中国黄色在线视频 | 99久久久无码国产精品 | 综合久 | 中文字幕一级 | 日韩三级 | 正在播放国产精品 | 99久久国产精 | 精品乱子伦一区二区三区 | 亚洲免费视频网址 | 91视频在线观看免费 | 国产精品美女久久久久aⅴ国产馆 | 91麻豆精品国产91久久久更新资源速度超快 | 日本网站免费在线观看 | 国产精品免费视频一区 | 国产日韩精品一区 | 欧美日韩视频在线 | 91aiai| 欧美一级视频 | 精品久久av | 久久久久久久久久爱 | 欧美一级免费 | 国产欧美一区二区三区日本久久久 | 一区二区在线不卡 | 亚洲三级在线 | 国产精品一区在线 | 国产亚洲精品久久久久动 | 一区二区三区日本 | 久久精品亚洲成在人线av网址 | 精品国产欧美一区二区 |