Agent4Rec來(lái)了！大模型智能體構(gòu)成推薦系統(tǒng)模擬器，模擬真實(shí)用戶交互行為

作者：機(jī)器之心 2023-11-15 13:18:50

來(lái)自新加坡國(guó)立大學(xué) NExT++ 實(shí)驗(yàn)室團(tuán)隊(duì)構(gòu)建了 Agent4Rec，一個(gè)由 1000 名 agents 構(gòu)成的電影推薦系統(tǒng)模擬器。

一直以來(lái)，推薦系統(tǒng)領(lǐng)域面臨模型線上線下效果差距大的痛點(diǎn)問(wèn)題，昂貴的線上 A/B 測(cè)試成本使得廣大研究人員望而卻步，也造成學(xué)術(shù)界的推薦系統(tǒng)研究與工業(yè)界的實(shí)際應(yīng)用間的巨大割裂。隨著大語(yǔ)言模型展現(xiàn)出類人的邏輯推理和理解能力，基于大語(yǔ)言模型的智能體（Agent）能否模擬真實(shí)用戶的交互行為，從而構(gòu)建一個(gè)可靠的虛擬推薦 A/B 測(cè)試場(chǎng)景，以幫助推薦研究的應(yīng)用落地，是一個(gè)急迫、重要且極具經(jīng)濟(jì)價(jià)值的問(wèn)題。

為了回答這個(gè)問(wèn)題，來(lái)自新加坡國(guó)立大學(xué) NExT++ 實(shí)驗(yàn)室團(tuán)隊(duì)構(gòu)建了 Agent4Rec，一個(gè)由 1000 名 agents 構(gòu)成的電影推薦系統(tǒng)模擬器。這些 agent 由真實(shí)用戶初始化，由 ChatGPT-3.5 驅(qū)動(dòng)，根據(jù)用戶喜好與特質(zhì)，對(duì)封裝的不同推薦算法和其推薦的電影做出個(gè)性化反應(yīng)。這些個(gè)性化反應(yīng)模擬真實(shí)用戶在推薦系統(tǒng)中的行為，包括觀看或拒看電影，給電影評(píng)分，翻到下一頁(yè)電影推薦列表，疲倦度估計(jì)，因不滿意或疲憊退出推薦系統(tǒng)，給推薦算法進(jìn)行評(píng)價(jià)等。廣泛的實(shí)驗(yàn)評(píng)估表明，Agent4Rec 里的 agent 能大概率反映真實(shí)世界的用戶行為。

論文鏈接：https://arxiv.org/abs/2310.10108
代碼鏈接：https://github.com/LehengTHU/Agent4Rec

1.Agent4Rec 平臺(tái)構(gòu)建

Agent4Rec 中的每一個(gè)用戶，也即 agent，由 profile module、memory module、action module 構(gòu)成。作者使用 MovieLens-1m 中的真實(shí)用戶數(shù)據(jù)初始化 agent 檔案。根據(jù)用戶的歷史交互生成 agent 的電影偏好，根據(jù)用戶的歷史活躍度、從眾性和觀影多樣性生成 agent 的交互特征。

推薦系統(tǒng)將采取逐頁(yè)推薦的方式，根據(jù)特定的推薦算法向用戶推薦電影列表。仿照真實(shí)的手機(jī) APP 推薦場(chǎng)景，每頁(yè)將展示 4 部電影。每部電影的信息包括電影名、歷史評(píng)分、電影簡(jiǎn)介等。每個(gè) agent 將根據(jù)自身的電影喜好、疲憊程度以及個(gè)人記憶對(duì)推薦的電影做出反應(yīng)，如觀看或評(píng)價(jià)電影。同時(shí)，歷史推薦內(nèi)容和 agent 行為將被存儲(chǔ)在記憶中，agent 通過(guò) reflection 的方式總結(jié)對(duì)推薦系統(tǒng)的滿意度和自身的疲憊程度。Agent 在每一頁(yè)推薦結(jié)束后，都根據(jù)自身滿意度和疲倦度，選擇翻到下一頁(yè)或者退出推薦系統(tǒng)。在用戶退出系統(tǒng)之后，采訪用戶退出推薦系統(tǒng)的原因和對(duì)推薦電影的評(píng)價(jià)。

2.Agent 行為模擬真實(shí)性檢驗(yàn)

用大語(yǔ)言模型智能體模擬人類行為最關(guān)鍵的問(wèn)題，在于評(píng)估 agent 能夠多大程度的模擬用戶的真實(shí)喜好。Agent4Rec 在推薦場(chǎng)景下首次給出了一個(gè)實(shí)驗(yàn)級(jí)別的回答。

為了衡量用戶的電影喜好能否被 agent 正確捕捉，作者首先讓 agent 對(duì)用戶交互過(guò)的測(cè)試集中的電影和隨機(jī)采樣的負(fù)樣本電影進(jìn)行喜愛(ài)與否判斷。結(jié)果表明，agent 能夠捕捉約 70% 的用戶喜好。

在驗(yàn)證了 agent 的電影喜好合理性的基礎(chǔ)上，1000 個(gè) agent 被投放到逐頁(yè)推薦場(chǎng)景下，agent 可以選擇提前退出推薦系統(tǒng)，或在達(dá)到 5 頁(yè)之后強(qiáng)制退出，同時(shí) Agent 對(duì)選擇觀看的電影進(jìn)行 1 到 5 分的評(píng)分。下圖實(shí)驗(yàn)結(jié)果表明 agent 的評(píng)分與真實(shí)數(shù)據(jù)中的用戶評(píng)分呈現(xiàn)分布一致性。

為了驗(yàn)證 Agent4Rec 作為 A/B 測(cè)試平臺(tái)的可能性，作者將 5 個(gè)常見的推薦策略部署到 Agent4Rec 平臺(tái)，收集 agent 反饋（平均觀影比例、平均喜愛(ài)數(shù)、平均喜愛(ài)比例、平均退出頁(yè)數(shù)、用戶平均滿意度）。下表結(jié)果表明，基于算法的推薦系統(tǒng)（MF、MultVAE、LightGCN）表現(xiàn)大幅優(yōu)于基于策略的推薦系統(tǒng)（Random、Pop）。且總體而言，LightGCN 的表現(xiàn)優(yōu)于其他算法。這一結(jié)果證明，agent 能對(duì)不同的推薦系統(tǒng)的推薦結(jié)果進(jìn)行分辨。在未來(lái)，一個(gè)精心設(shè)計(jì)的基于大語(yǔ)言模型的推薦系統(tǒng)模擬器或許能夠充當(dāng)理想的離線 A/B 測(cè)試平臺(tái)，并給出符合企業(yè)需求的用戶評(píng)價(jià)指標(biāo)。

仿照現(xiàn)實(shí)生活中推薦系統(tǒng)會(huì)根據(jù)用戶反饋進(jìn)行更新的場(chǎng)景，作者在完成一輪推薦之后，將 agent 選擇的高分電影或未觀看的電影以正樣本加入訓(xùn)練集，重新訓(xùn)練推薦系統(tǒng)，并將重新訓(xùn)練的推薦算法再次部署到 Agent4Rec 平臺(tái)。結(jié)果表明，將 agent 選擇的高分電影對(duì)推薦系統(tǒng)進(jìn)行再訓(xùn)練，在離線指標(biāo)與模擬的 “在線” 指標(biāo)上均得到了提升。而將 agent 不喜歡的電影作為數(shù)據(jù)增強(qiáng)則在大多數(shù)情況下起到了負(fù)向的效果。這從側(cè)面說(shuō)明 agent 的行為與真實(shí)用戶行為對(duì)齊。

同時(shí)，推薦系統(tǒng)中的真實(shí)用戶往往具有不同的特質(zhì)，如活躍性、從眾性和觀影多樣性等。作者根據(jù)數(shù)據(jù)集中用戶的不同統(tǒng)計(jì)信息，將 agent 在每個(gè)特質(zhì)上分為 3 組并給出不同的用戶畫像。在模擬完成后，收集 agent 的交互次數(shù)、agent 評(píng)分與用戶歷史評(píng)分的均方誤差、agent 交互電影種類數(shù)這三個(gè)指標(biāo)，作為 agent 活躍性、從眾性、觀影多樣性特質(zhì)衡量。實(shí)驗(yàn)結(jié)果表明，在三個(gè)組間 agent 的平均表現(xiàn)符合預(yù)期，存在顯著差異。

在個(gè)體層面，agent 的表現(xiàn)也與真實(shí)用戶呈現(xiàn)一致性。以下圖中的用戶觀影多樣性為例，每個(gè)用戶的真實(shí)觀影種類數(shù)與 Agent4Rec 中的 agent 所觀看的電影種類數(shù)呈現(xiàn)一致趨勢(shì)。

作者還通過(guò)消融實(shí)驗(yàn)研究了不同特質(zhì)初始化對(duì) agent 行為起到的作用。下述實(shí)驗(yàn)結(jié)果表明，沒(méi)有個(gè)性化的特質(zhì)初始化，agent 的行為呈現(xiàn)趨同，與現(xiàn)實(shí)生活中的真實(shí)用戶行為長(zhǎng)尾分布有別。

3. 探索推薦系統(tǒng)中尚未解決的問(wèn)題

獲得一個(gè)真實(shí)的推薦系統(tǒng)模擬器，將極大地幫助推薦研究工作的推進(jìn)。鑒于 Agent4Rec 對(duì)用戶較大程度的真實(shí)行為模擬，作者探索了兩個(gè)有意思的待解決問(wèn)題。

首先，作者利用 Agent4Rec 平臺(tái)收集多維度推薦數(shù)據(jù)，探究推薦系統(tǒng)中潛在的因果關(guān)系。作者選取 5 個(gè)推薦系統(tǒng)中常見的變量：電影質(zhì)量、電影流行度、電影曝光率、電影瀏覽量、電影評(píng)分，通過(guò) DirectLiNGAM 建模一個(gè)帶權(quán)有向無(wú)環(huán)因果圖，分析這 5 個(gè)變量間的因果關(guān)系。下述因果圖的左半部分說(shuō)明，電影評(píng)分只受電影質(zhì)量與電影流行度的正向影響。因果圖的右半部分說(shuō)明電影的質(zhì)量和流行度將共同影響電影的曝光率，進(jìn)而影響電影被點(diǎn)擊次數(shù)。這反映了推薦系統(tǒng)中的的流行度偏差效應(yīng)：更流行的物品被更多曝光，進(jìn)一步導(dǎo)致物品流行度環(huán)路放大效應(yīng)。

作者還進(jìn)一步探究了推薦系統(tǒng)中信息繭房問(wèn)題。作者不斷將 agent 選擇的物品作為正樣本加入訓(xùn)練集，訓(xùn)練新的推薦算法并收集 agent 反饋。隨著模擬與重新訓(xùn)練的輪數(shù)增多，推薦系統(tǒng)對(duì)個(gè)體用戶推薦的第一大類電影的比例逐漸上升，且推薦系統(tǒng)對(duì)個(gè)體用戶推薦的平均電影種類數(shù)下降。這一現(xiàn)象表明，用戶接受的信息種類將在推薦算法的干預(yù)下越來(lái)越單一。

4. 總結(jié)與展望

本篇工作探索了基于大語(yǔ)言模型的智能體（Agent）模擬真實(shí)推薦場(chǎng)景下用戶行為的可能性。盡管大語(yǔ)言模型仍存在諸如幻覺(jué)在內(nèi)的種種問(wèn)題，但 Agent4Rec 上的多智能體仍在多個(gè)方面展現(xiàn)出了和真實(shí)用戶群體一致的行為。期待在未來(lái)，一個(gè)精心設(shè)計(jì)的基于大語(yǔ)言模型的 agent 平臺(tái)，能夠足夠真實(shí)地模擬推薦場(chǎng)景的各個(gè)維度，為學(xué)術(shù)界和工業(yè)界的研究提供更多便利。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心