圖神經網絡加持,突破傳統推薦系統局限!北大港大聯合提出SelfGNN:有效降低信息過載與數據噪聲影響
順序推薦通過模擬用戶的時間和順序交互模式有效地解決了信息過載問題,為了克服監督信號的局限性,一些方法在推薦系統中采用了自監督學習技術。
然而,仍有兩個關鍵挑戰尚未解決。
首先,現有的順序模型主要集中于長期建模個別交互序列,忽視了不同用戶行為之間寶貴的短期合作關系。
其次,現實世界的數據通常包含噪聲,特別是在用戶的短期行為中,這可能源于臨時意圖或誤點擊,這種噪聲對圖模型和序列模型的準確性產生負面影響,進一步復雜化了建模過程。
為了克服上述難題,北京大學、香港大學的研究人員提出了一種名為 Self-Supervised Graph Neural Network(SelfGNN)的全新框架,用于序列推薦。
論文鏈接:https://arxiv.org/abs/2405.20878
代碼鏈接:https://github.com/HKUDS/SelfGNN
SelfGNN能夠捕捉多粒度的用戶行為模式:基于圖神經網絡(GNN)對時間片段內的交互行為建模,考慮了短期的高階協同關系;基于序列模型對用戶跨時間片段的行為進行關聯學習,捕捉長期的時序變化模式。
此外,研究人員提出了一種個性化自增強學習方法,通過對比長短期用戶行為模式來降低數據噪音的影響,從而增強模型的穩健性。
模型方法
圖1 推薦數據中的階段性的協同關系
圖2 SelfGNN的整體框架示意圖
短期交互模型編碼
通過這種方式,SelfGNN不僅捕獲了協同信號,還包含了短期時間信息。
雙粒度長期行為建模
SelfGNN通過間隔級別(interval-level)融合和實例級別(instance-level)行為建模在雙粒度級別捕獲長期用戶和項商品表示。
從兩個不同的層次進行長期特征學習,能夠使得兩個層次互相補償,增加可學習的信息。
Interval-level序列建模
Instance-level序列建模
多視角融合和預測
在預將實例級和間隔級方法得到的多層次用戶特征進行融合,并最終做出如下預測:
損失函數為:
個性化自監督去噪
為了緩解用戶序列行為數據中普遍存在的數據稀疏性和數據噪聲問題,SelfGNN通過一個個性化去噪自監督學習任務進行了進一步增強。
這里的“噪聲”指的是暫時性的意圖或誤點擊。他們不能被視為長期用戶興趣或新近興趣點的預測。
具體而言,SelfGNN的自監督任務專注于使用長期行為模式過濾短期非固有用戶偏好。
這個設計基于以下觀察:用戶的行為可能受到短期隨機興趣的驅動,例如,一個不喜歡徒步旅行的用戶也可能因為一次性活動購買徒步鞋和能量飲料。這種噪聲行為數據可能會干擾用戶長期真實興趣的建模。
此外,為了準確識別這些噪聲的短期行為,根據不同用戶的興趣多樣性對去噪SSL任務進行了個性化,如圖3所示。
圖3 個性化自監督去噪的示意圖
通過這些相似度評分,SelfGNN對齊了短期和長期視角之間的評分差異。采用自監督目標函數:
通過將SSL任務與主要推薦任務結合,得到最終的損失函數如下:
實驗
總體效果
和多個不同類型的推薦方法對比,SelfGNN由于其長短期興趣學習能力和自監督的能力得到了更好的推薦效果。
在論文中,SelfGNN也提供了消融實驗對各個結構的有效性進行了分析。
噪聲實驗
為了評估SelfGNN在噪聲問題上的魯棒性,通過隨機替換所有用戶的實際交互項的不同百分比為隨機生成的虛假項,并使用這些損壞的序列作為輸入重新訓練模型。
實驗結果顯示了SelfGNN在處理數據噪聲方面的潛力。
圖4 在不同噪聲場景下的性能下降情況
在較為稀疏的Amazon數據集中,雖然SURGE在少量噪聲下表現良好,但在面對20%的噪聲時,其性能迅速下降。
另一方面,與其他模型相比,SelfGNN受噪聲影響較小。即使在20%的噪聲下,它在沒有噪聲的情況下也能達到72%的HR@10和73%的NDCG@10。
在相對密集的Movielens數據集中,模型在20%的噪聲情況下達到了相對79%的HR@10和78%的NDCG@10。
在噪聲問題的魯棒性歸因于SelfGNN在個性化自監督學習中通過長期特征來減輕短期圖中的噪聲的能力。
SelfGNN的長期表示是通過間隔級別GRU注意機制結合短期特征獲得的,這使得最終的長期用戶興趣表示在短期噪聲減少時受益于去噪效果。
案例研究
利用具體的數據實例來研究自監督學習去噪的效果。
如圖5所示,隨機選擇了一個用戶(id為6128)和該用戶的一部分行為序列,以及另一個與用戶(id為6128)具有至少20個共同交互項的用戶(id為824)。
圖5 商品(書籍)的得分、標題和類別
通過觀察,可以看到商品(id為6282)的得分在包含自監督學習后從0.8239下降到0.3686。這表明模型識別該物品為需要減弱的噪聲交互。
論文中從兩個方面證明這種行為可能是噪聲行為:
首先,書籍商品(id為6282)的類別是「Mystery」,這與用戶關注的其他物品的類別(「Action & Adventure」)不同。作為一個與用戶(id為6128)共享許多相似興趣的用戶,用戶(id為824)并未關注商品(id為6282)。
其次,從商品的編碼熱圖中可以明顯看出,商品 (id為6282) 在多個維度上表現出與其他物品不同的特征。與沒有使用自監督學習的情況相比,同一用戶連續交互的物品特征表現出更大的差異性,這證明了自監督學習范式減輕了由圖神經網絡引起的平滑問題。
為了驗證在所有用戶序列中,類似于商品(id為6282)的其他噪聲物品是否相對于其各自序列中的正常物品表現出顯著的特征差異,進行了一個統計實驗。
論文中計算了在有和沒有自監督學習范式下,用戶(id為6128)的行為序列中商品(id為6282) 與其他商品之間的特征嵌入的平均余弦相似度。
然后,同樣計算了在其他用戶序列中滿足噪聲條件的商品與該商品所在序列的其余商品之間的平均余弦相似度。
統計結果如下表所示,結果表明在自監督學習模型(w-SAL)中,噪聲物品與其他物品之間的平均余弦相似度顯著低于沒有自監督學習的模型(w/o-SAL)中的對應值。
SelfGNN展示了準確識別和減弱可能為噪聲的交互行為的能力。
總結與未來工作
SelfGNN使用圖神經網絡的用戶序列學習,并提出了一種新穎的個性化自監督學習范式來增強魯棒性。
SelfGNN通過結合周期性協同信息和行為序列依賴性,學習了更好的興趣表示,并通過自增強學習根據個體用戶的穩定性特征自適應地減弱短期噪聲。
在未來的研究中,首先,可以計劃探索自適應動態短期圖劃分技術,以更好地捕捉不同數據的短期特征。其次,SelfGNN的個性化自監督學習范式不局限于圖神經網絡的序列推薦框架中,它可以被推廣、應用到更多的結構和場景中來完成良好的去噪效果。