多模態對齊在小紅書推薦的研究及應用

2024-09-25 16:08:52

由于多模態模型與推薦模型在訓練過程中存在步調不一致問題，導致聯合訓練被推薦信號主導，從而丟失大量多模態信息。AlignRec 通過分階段對齊的方式，設計了三種針對性的優化損失函數，使得聯合訓練能夠同時兼顧多模態信息和推薦信息。

在 CIKM 2024 上，小紅書中臺算法團隊提出了一種創新的聯合訓練框架 AlignRec，用于對齊多模態表征學習模型和個性化推薦模型。本文指出，由于多模態模型與推薦模型在訓練過程中存在步調不一致問題，導致聯合訓練被推薦信號主導，從而丟失大量多模態信息。AlignRec 通過分階段對齊的方式，設計了三種針對性的優化損失函數，使得聯合訓練能夠同時兼顧多模態信息和推薦信息。實驗結果表明，AlignRec 在多個數據集上的性能超過了現有的 SOTA（state-of-the-art）模型。此外，AlignRec 還提供了在當前廣泛使用的公開數據集亞馬遜上的預處理特征，這些特征的效果顯著優于現有的開源特征。

01背景

最近多模態是個非常熱門的話題，尤其是在大模型以及 AIGC 領域，多模態基建和技術是走向未來商業化的奠基石。在過去的多模態大模型研究方向上，模態的“對齊”已經被驗證非常重要，分布的不一致損害不同模態的理解，我們此次要討論的核心問題是多模態在推薦中的對齊問題；

在具體介紹論文工作之前，我們先來介紹下我們過去在推薦和電商中的實踐工作：

02相關工作

我們在這里通過 (a), (b), (c) 描述了在過往的學術界目前多模態推薦方向的相關工作，總結主要的發展路徑：

圖(a)，直接利用，比如把 embedding，多模態特征作為信號輸入網絡；
圖(b)，利用圖等方式聚合，希望能得到更豐富的多模態信息表達，這本質上也是增加多模態側信息的召回率；
圖(c)，聯合優化，把模態損失和行為損失共同優化，但這忽略了本身筆記側的多模態學習。

在工業界，現階段推薦系統主要還是依賴于 ID 特征的學習, 大多數多模態推薦把多模態信息作為 sideinfo 去輔助 ID 特征的學習。但是, 多模態之間以及 ID 模型與多模態之間都存在著語義鴻溝, 直接使用甚至可能適得其反。

核心挑戰

為了貼合業界實際，設計一款有效的多模態與推薦聯合訓練模型會遇到如下的挑戰：

挑戰1: 如何對齊多模態表征。包括內容模態之間（如圖文）的對齊，以及內容模態與 ID 模態之間的對齊；
挑戰2: 如何平衡好內容模態和 ID 模態之間的學習速度問題。內容模態可能需要超大規模的數據和時間去訓練, 而 ID 模態的學習更新可能只需要幾個 epoch。
挑戰3: 如何評估多模態特征對推薦系統的影響。引入不合適的多模態信息可能需要更多的精力去做糾正, 甚至可能影響推薦系統的性能。

03設計方案

我們所提出的方法命名為 AlignRec，整體框架如下圖所示, 主要包含3個模塊: Multimodal Encoder Module, Aggregation Module, 以及 Fusion Module, 下面分別進行介紹。

Multimodal Encoder Module

??????????是一個預訓練的模塊, 它以物品的多個內容模態為輸入,實現物品側視覺模態和文本模態的對齊, 最后統一輸出多模態表征：

具體地, 我們使用 BEiT3 作為骨干網絡, 通過 mask-then-predict 策略進行訓練, 包括 mask-image-modeling (MIM) 和 mask-language-modeling (MLM), 分別 mask 掉一定比例的圖/文 token, 再嘗試訓練恢復還原出正確的 token, 這兩個任務分別對應著不同的 Loss

再將兩者的 Loss 進行相加得到預訓練階段的 Loss

在應用時, 取 CLS token 作為物品側統一的多模態表征。

對于 Open DataSource 我們并不會加入顯式的行為信息，確保多模態模型的能力和合理性，但在業界實際使用時，我們通常會加入協同信號；

Aggregation Module

這個模塊以 ID 模態和前面統一的內容模態為輸入，構建異構圖，基于 GCN（作者使用 LightGCN）做多層聚合，從而輸出 User 和 Item 的 ID 模態，User 的多模態表征，Item 的多模態表征。

流程上總計分為三個步驟：

User 側和 Item 側的 ID 模態，通過圖聚合的方式，得到 User 和 Item 的表征，分別表示為和；
物品側的多模態表征，內容模態表征經過一個 MLP 進行映射，再做 Element-wise 乘積與 ID Embed 進行融合, 得到融合了內容先驗知識的內容表征，之后基于統一的內容模態表征, 構造物品側的相似矩陣，每個物品取與它最相似的 10 個 Item 做聚合, 得到物品側的多模態表征輸出，表示為；
用戶側的多模態表征，對于 User 側，通過聚合用戶歷史交互過的 Item 得到用戶側的多模態表征，表示為；