模型小，還高效！港大最新推薦系統(tǒng)EasyRec：零樣本文本推薦能力超越OpenAI、Bert

作者：新智元 2024-08-28 14:20:00

EasyRec利用語言模型的語義理解能力和協(xié)同過濾技術(shù)，提升了在零樣本學(xué)習(xí)場景下的推薦性能。通過整合用戶和物品的文本描述，EasyRec能夠生成高質(zhì)量的語義嵌入，實(shí)現(xiàn)個(gè)性化且適應(yīng)性強(qiáng)的推薦。

在推薦系統(tǒng)的領(lǐng)域中，深度神經(jīng)網(wǎng)絡(luò)（DNNs）已經(jīng)成為一種強(qiáng)大的工具，它們通過學(xué)習(xí)用戶和商品之間的復(fù)雜交互，為協(xié)同過濾（CF）提供了新的視角。

協(xié)同過濾是一種利用用戶之間的相似性或商品之間的相似性來推薦未交互過的商品的方法。

深度學(xué)習(xí)方法，特別是圖神經(jīng)網(wǎng)絡(luò)，通過捕捉用戶-商品交互數(shù)據(jù)中的高階特征和模式，極大地提升了推薦質(zhì)量。

然而，盡管深度協(xié)同過濾模型在某些方面取得了顯著進(jìn)展，它們在實(shí)際應(yīng)用中仍面臨著一些挑戰(zhàn)。

一個(gè)主要的問題是現(xiàn)有方法對用戶和商品的唯一標(biāo)識符（ID）的依賴。這種依賴限制了模型在處理新用戶或新商品時(shí)的性能，因?yàn)閷τ谶@些新的用戶和商品，沒有足夠的歷史數(shù)據(jù)來訓(xùn)練模型。

此外，當(dāng)用戶或商品發(fā)生變化時(shí)，如新商品的引入或用戶偏好的轉(zhuǎn)移，現(xiàn)有模型可能難以適應(yīng)這些變化，導(dǎo)致推薦效果下降。這種依賴性也導(dǎo)致了另一個(gè)問題，即所謂的「零樣本學(xué)習(xí)」場景，其中模型需要在沒有先前交互數(shù)據(jù)的情況下提供推薦。

在這些情況下，由于缺乏用戶或商品的標(biāo)識符，傳統(tǒng)的協(xié)同過濾方法往往難以生成準(zhǔn)確的推薦。

為了解決這些問題，研究者們開始探索將語言模型（LMs）的泛化能力運(yùn)用到推薦系統(tǒng)中。

語言模型，已經(jīng)在自然語言處理領(lǐng)域展現(xiàn)出了強(qiáng)大的語義理解能力，這一類模型通過將文本編碼成特征向量的方式，獲取了一個(gè)具有特定意義的統(tǒng)一特征分布空間，這類文本向量不但有利于下游任務(wù)的使用，同時(shí)面對新的文本數(shù)據(jù)也能過有效的編碼如該空間。

這一基本思想可以使得在沒有用戶和商品ID的情況下，提供更準(zhǔn)確的推薦。

論文地址：http://arxiv.org/abs/2408.08821

開源代碼：https://github.com/HKUDS/EasyRec

EasyRec的提出正是基于這樣的背景和動(dòng)機(jī)，旨在通過結(jié)合語言模型的語義理解能力和協(xié)同過濾的協(xié)同信號，來克服現(xiàn)有方法的局限性，訓(xùn)練一個(gè)簡單易用并且專門用于推薦系統(tǒng)的語言模型，提高其在零樣本學(xué)習(xí)場景下的推薦性能。

通過EasyRec，作者希望提供一個(gè)更加靈活、適應(yīng)性強(qiáng)的推薦系統(tǒng)，它可以更好地理解和預(yù)測用戶的偏好，即使在面對新用戶或新商品時(shí)也能提供準(zhǔn)確的推薦。

基本知識

在深入了解模型之前，我們需要掌握推薦系統(tǒng)中的一些基本概念和表示方法。這些基礎(chǔ)知識將幫助我們構(gòu)建對工作原理的理解。

在推薦系統(tǒng)中，定義用戶集合U和物品集合I。對于每個(gè)用戶，定義Nu為該用戶交互過的物品集合。

類似地，對于每個(gè)物品，Ni表示與該物品交互過的用戶集合。

用戶-物品的交互可以通過一個(gè)交互矩陣A來表示，其中Au,i為1表示用戶u與物品i有過交互，否則為0。

Text-based Zero-Shot Recommendation

零樣本推薦是解決新用戶或新物品缺乏交互數(shù)據(jù)的問題的關(guān)鍵技術(shù)。對于新用戶和新物品，由于缺乏足夠的交互訓(xùn)練數(shù)據(jù)，系統(tǒng)很難提供精準(zhǔn)的個(gè)性化推薦。

那么，如何解決這個(gè)問題呢？

這篇文章提出了一種基于文本的創(chuàng)新的方法：通過利用用戶和物品的文本畫像，借助強(qiáng)大的語言模型來構(gòu)建語義表示，從而實(shí)現(xiàn)基于文本的推薦。通過使用強(qiáng)大的語言模型，這種方法能夠在沒有任何先驗(yàn)交互數(shù)據(jù)的情況下，仍然提供高質(zhì)量的推薦。

具體來說，定義用戶u和物品i的文本描述Pu和Pi，它們分別被編碼為向量和。

這里，表示語言模型，用于將文本轉(zhuǎn)換為向量表示。

用戶u和物品i之間的交互概率p_u,i可以通過它們各自的文本嵌入e_u和e_i之間的余弦相似度來計(jì)算，即。

然后，我們可以向用戶推薦相似度得分最高的前k個(gè)未交互的物品，從而生成個(gè)性化推薦集。

Text-enhanced Collaborative Filtering

協(xié)同過濾 (CF) 是一種廣泛使用的推薦系統(tǒng)方法，它利用用戶和物品之間的協(xié)同關(guān)系。

現(xiàn)有的CF范式可以通過整合編碼的語義表示來增強(qiáng)。通常，交互概率p_u,i是基于交互數(shù)據(jù)計(jì)算的，即。

基于文本增強(qiáng)的協(xié)同過濾在此基礎(chǔ)上，通過整合e_u/i由語言模型編碼的文本特征作為補(bǔ)充表示來構(gòu)建。此整合旨在進(jìn)一步提高傳統(tǒng)基于ID的協(xié)同過濾框架的推薦性能。

EasyRec

什么樣的用戶/商品文本信息是好的？

在現(xiàn)實(shí)世界的推薦系統(tǒng)數(shù)據(jù)集中，大概率只有與商品相關(guān)的原始文本數(shù)據(jù)可用，例如商品標(biāo)題和類別。同時(shí)由于隱私問題，通常很難收集全面的用戶信息。

此外，直接利用這些原始的文本信息可能會(huì)忽略對準(zhǔn)確用戶行為建模和偏好理解至關(guān)重要的協(xié)作關(guān)系。

為了解決這些限制，可以利用大型語言模型來基于協(xié)同信息，總結(jié)和生成用戶/商品的文本畫像作為語言模型可以利用文本數(shù)據(jù)。這樣，就可以在統(tǒng)一的文本畫像中捕獲物品的語義和協(xié)作方面。

具體來說，對于商品畫像而言，我們希望其能夠描述這一商品的基本信息以及它會(huì)吸引什么樣的用戶群體；而對于用戶畫像而言，我們希望其能夠基于該用戶的歷史交互數(shù)據(jù)以及它對不同商品的評價(jià)來總結(jié)出該用戶會(huì)喜歡什么樣類型的商品。

基于此作者利用了協(xié)同的畫像生成策略，通過采樣交互數(shù)據(jù)結(jié)合原始的文本信息構(gòu)建輸入，讓大語言模型實(shí)現(xiàn)畫像的生成。具體的細(xì)節(jié)歡迎閱讀論文和開源代碼進(jìn)行了解。

利用描述用戶/商品交互偏好的文本畫像作為語言模型編碼的輸入文本具有以下優(yōu)勢：

（i）有效保留協(xié)同信息

協(xié)同畫像方法不僅限于原始文本內(nèi)容，還捕捉了用戶/物品特征及其交互模式的語義。

通過使用面向推薦的語言模型將這些豐富的畫像編碼到共享特征空間中，已交互的用戶和物品的嵌入被拉近。

這使得推薦系統(tǒng)能夠更好地識別相關(guān)匹配對象，即使是對「零樣本」用戶和物品（那些沒有先前交互的對象）也適用，而這些情況在實(shí)際場景中非常普遍。

系統(tǒng)可以利用文本畫像中編碼的協(xié)同信號來做出更好的推薦，彌合這些冷啟動(dòng)情況的差距。

（ii）快速適應(yīng)動(dòng)態(tài)場景

基于這類畫像訓(xùn)練的語言模型可以使推薦系統(tǒng)能夠有效應(yīng)對用戶偏好和交互模式的時(shí)間變化。

其主要優(yōu)勢在于，通過簡單地更新文本用戶畫像即可無縫反映用戶興趣和行為的變化。

這種靈活響應(yīng)能力使得新方法非常適合部署在用戶興趣隨時(shí)間演變的動(dòng)態(tài)環(huán)境中的推薦系統(tǒng)。

模型設(shè)計(jì)和訓(xùn)練

作者采用多層雙向Transformer架構(gòu)，例如BERT，作為EasyRec的核心模型。

這種架構(gòu)具有兩大顯著優(yōu)勢：

其一，高效編碼，由于它專注于生成有效的文本表示，僅包含編碼器的設(shè)計(jì)使得推薦系統(tǒng)的推理速度得到顯著提升；

其二，靈活適應(yīng)，通過優(yōu)化學(xué)習(xí)來調(diào)整預(yù)訓(xùn)練的Transformer模型，以更好地適應(yīng)特定的推薦任務(wù)需求。

具體來說，作者將用戶或商品的文本描述視為由多個(gè)詞匯組成的文本段落。

在處理這些文本時(shí)，首先在詞序列的起始位置插入一個(gè)特殊標(biāo)記[CLS]。緊接著，分詞層會(huì)將這段輸入文本編碼為初始嵌入，并注入位置信息，這些嵌入隨后被送入Transformer層進(jìn)行處理。

在此過程中，語言模型會(huì)對序列中的每個(gè)詞匯進(jìn)行編碼，生成其最終的嵌入表示。而這一切的關(guān)鍵在于自注意力機(jī)制，它確保每個(gè)詞匯都能從整個(gè)序列中汲取信息，從而獲得全面的上下文理解。

最終，選取與[CLS]標(biāo)記對應(yīng)的首個(gè)嵌入，作為整個(gè)用戶資料的代表性嵌入。這個(gè)嵌入會(huì)經(jīng)過多層感知機(jī)的進(jìn)一步處理，形成最終的編碼表示。

通過為用戶和商品生成這樣的文本嵌入，可以利用余弦相似度來衡量他們之間交互的可能性，并以此為基礎(chǔ)進(jìn)行推薦。

在模型訓(xùn)練方面，作者比較了傳統(tǒng)的BPR Loss訓(xùn)練方法，因其受限于負(fù)樣本數(shù)量，難以全面優(yōu)化多個(gè)編碼特征向量。

相反，作者采用了對比學(xué)習(xí)方法，這種方法能夠更全面地優(yōu)化整個(gè)編碼特征空間。

也就是從用戶與商品的交互數(shù)據(jù)中抽樣，將有過交互的用戶和商品文本特征拉近，同時(shí)將同一抽樣數(shù)據(jù)中的其他用戶或商品特征作為負(fù)樣本進(jìn)行排斥。

此外，作者還引入了文本掩碼-重構(gòu)損失，以提高模型對語義的理解能力及其泛化性能。

文本畫像的多樣性增強(qiáng)

為了進(jìn)一步增強(qiáng)模型對于未知用戶和物品的泛化能力，作者采用了畫像多樣化增強(qiáng)的策略。

雖然使用單一的文本畫像來描述每個(gè)用戶和商品具有簡便性，但這種方式限制了表示的多樣性，可能會(huì)對模型的性能和泛化能力造成不利影響。

為了應(yīng)對這一問題，作者提出了一種創(chuàng)新的方法，通過對現(xiàn)有的用戶和商品畫像進(jìn)行增強(qiáng)，讓每個(gè)實(shí)體都能通過多個(gè)畫像文本來展現(xiàn)其獨(dú)特的交互偏好。

這些經(jīng)過增強(qiáng)的畫像能夠深入捕捉到諸如用戶的個(gè)性化互動(dòng)偏好或商品的多樣化特征等核心語義。

在實(shí)施增強(qiáng)時(shí)，作者借鑒了自我指導(dǎo)機(jī)制，并借助大型語言模型（LLMs）的力量，在保持原始意義的基礎(chǔ)上重新闡述用戶/商品的文本描述。這種策略能夠從一個(gè)輸入生成出多個(gè)語義相近但措辭各異的畫像。

通過反復(fù)進(jìn)行這樣的重述過程，作者成功地創(chuàng)建了一系列多樣化的增強(qiáng)畫像，從而顯著擴(kuò)充了可用的訓(xùn)練數(shù)據(jù)。

此方法不僅增加了模型的訓(xùn)練數(shù)據(jù)量，更重要的是確保了數(shù)據(jù)的豐富多樣性。這樣，當(dāng)模型面對未知的用戶和物品時(shí)，它能夠基于更加全面和多樣的數(shù)據(jù)做出更為準(zhǔn)確的預(yù)測。

通過引入這些結(jié)構(gòu)化且語義豐富的多樣化資料，模型將在各類應(yīng)用場景中展現(xiàn)出更加卓越的性能。

實(shí)驗(yàn)驗(yàn)證

數(shù)據(jù)集

作者利用Amazon Review Data中不同類別的數(shù)據(jù)（例如藝術(shù)、體育等等）構(gòu)建了訓(xùn)練數(shù)據(jù)集以及部分?jǐn)?shù)據(jù)集，同時(shí)引入了Steam和Yelp數(shù)據(jù)集作為跨平臺的測試數(shù)據(jù)集。

為了有效驗(yàn)證模型在零樣本環(huán)境下的性能，作者將訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集進(jìn)行劃分，使得他們是完全不同的數(shù)據(jù)，沒有任何用戶和商品上的交集。

關(guān)于數(shù)據(jù)集的細(xì)節(jié)歡迎大家通過閱讀論文和開源代碼進(jìn)行獲取和了解。

零樣本文本推薦能力

作者在三個(gè)不屬于訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集（Sports，Steam和Yelp）上面，利用全排序的方法測試了模型實(shí)現(xiàn)基于文本的零樣本推薦能力。

為了有效的比較模型的性能，作者將不同的語言模型作為了baseline，其中包括了通用的語言模型（BERT，RoBERTa等），利用與深度檢索的語言模型（SimCSE，GTR，BGE等）以及推薦相關(guān)的語言模型（BLaIR），同時(shí)也與OpenAI提供的兩款語言模型（v3-Small和v3-Large）進(jìn)行對比。

從結(jié)果中可以看出，EasyRec有效在零樣本推薦能力上超越了上述的所有語言模型，高效地實(shí)現(xiàn)了用戶畫像文本和商品畫像文本之間的對齊，從而實(shí)現(xiàn)精準(zhǔn)的推薦。

同時(shí)作者訓(xùn)練了三個(gè)版本的模型（從Small到Large），模型的性能體現(xiàn)出了有效的Scaling Laws，這也側(cè)面說明了將含有用戶/商品交互偏好的文本畫像作為文本數(shù)據(jù)，并且基于協(xié)同信號進(jìn)行語言模型訓(xùn)練這一實(shí)踐路徑的有效性。

基于文本增強(qiáng)協(xié)同過濾算法

作者同樣測試了不同的語言模型對現(xiàn)有的ID-based的協(xié)同過濾算法增強(qiáng)的效果。

其中，選用了兩個(gè)廣泛使用的模型GCCF和LightGCN作為baseline，并且利用了當(dāng)前先進(jìn)的文本增強(qiáng)框架RLMRec作為統(tǒng)一的框架進(jìn)行實(shí)驗(yàn)。

從實(shí)驗(yàn)中可以看出，EasyRec相較于baseline實(shí)現(xiàn)了有效的提升，這得益于其能夠?qū)⑽谋局畜w現(xiàn)的協(xié)同信息有效的編碼入文本特征中，從而獲得了高質(zhì)量的協(xié)同文本特征并且有利于下游的文本增強(qiáng)框架使用，從而提高模型的推薦性能。

快速捕獲用戶的動(dòng)態(tài)偏好

正如前文中提到的，EasyRec的一個(gè)關(guān)鍵優(yōu)勢在于其能夠有效適應(yīng)用戶偏好和行為動(dòng)態(tài)隨時(shí)間的變化。

為了評估這一能力，作者在Amazon的體育用品數(shù)據(jù)集上創(chuàng)建了兩個(gè)反映偏好變化的用戶資料，并檢查了EasyRec推薦的物品。

如圖所示，原始用戶資料顯示該用戶喜歡打籃球。然而，用戶的偏好后來轉(zhuǎn)變?yōu)閷τ斡镜呐d趣。