Agent4Rec來(lái)了!大模型智能體構(gòu)成推薦系統(tǒng)模擬器,模擬真實(shí)用戶交互行為
一直以來(lái),推薦系統(tǒng)領(lǐng)域面臨模型線上線下效果差距大的痛點(diǎn)問(wèn)題,昂貴的線上 A/B 測(cè)試成本使得廣大研究人員望而卻步,也造成學(xué)術(shù)界的推薦系統(tǒng)研究與工業(yè)界的實(shí)際應(yīng)用間的巨大割裂。隨著大語(yǔ)言模型展現(xiàn)出類人的邏輯推理和理解能力,基于大語(yǔ)言模型的智能體(Agent)能否模擬真實(shí)用戶的交互行為,從而構(gòu)建一個(gè)可靠的虛擬推薦 A/B 測(cè)試場(chǎng)景,以幫助推薦研究的應(yīng)用落地,是一個(gè)急迫、重要且極具經(jīng)濟(jì)價(jià)值的問(wèn)題。
為了回答這個(gè)問(wèn)題,來(lái)自新加坡國(guó)立大學(xué) NExT++ 實(shí)驗(yàn)室團(tuán)隊(duì)構(gòu)建了 Agent4Rec,一個(gè)由 1000 名 agents 構(gòu)成的電影推薦系統(tǒng)模擬器。這些 agent 由真實(shí)用戶初始化,由 ChatGPT-3.5 驅(qū)動(dòng),根據(jù)用戶喜好與特質(zhì),對(duì)封裝的不同推薦算法和其推薦的電影做出個(gè)性化反應(yīng)。這些個(gè)性化反應(yīng)模擬真實(shí)用戶在推薦系統(tǒng)中的行為,包括觀看或拒看電影,給電影評(píng)分,翻到下一頁(yè)電影推薦列表,疲倦度估計(jì),因不滿意或疲憊退出推薦系統(tǒng),給推薦算法進(jìn)行評(píng)價(jià)等。廣泛的實(shí)驗(yàn)評(píng)估表明,Agent4Rec 里的 agent 能大概率反映真實(shí)世界的用戶行為。
- 論文鏈接:https://arxiv.org/abs/2310.10108
- 代碼鏈接:https://github.com/LehengTHU/Agent4Rec
1.Agent4Rec 平臺(tái)構(gòu)建
Agent4Rec 中的每一個(gè)用戶,也即 agent,由 profile module、memory module、action module 構(gòu)成。作者使用 MovieLens-1m 中的真實(shí)用戶數(shù)據(jù)初始化 agent 檔案。根據(jù)用戶的歷史交互生成 agent 的電影偏好,根據(jù)用戶的歷史活躍度、從眾性和觀影多樣性生成 agent 的交互特征。
推薦系統(tǒng)將采取逐頁(yè)推薦的方式,根據(jù)特定的推薦算法向用戶推薦電影列表。仿照真實(shí)的手機(jī) APP 推薦場(chǎng)景,每頁(yè)將展示 4 部電影。每部電影的信息包括電影名、歷史評(píng)分、電影簡(jiǎn)介等。每個(gè) agent 將根據(jù)自身的電影喜好、疲憊程度以及個(gè)人記憶對(duì)推薦的電影做出反應(yīng),如觀看或評(píng)價(jià)電影。同時(shí),歷史推薦內(nèi)容和 agent 行為將被存儲(chǔ)在記憶中,agent 通過(guò) reflection 的方式總結(jié)對(duì)推薦系統(tǒng)的滿意度和自身的疲憊程度。Agent 在每一頁(yè)推薦結(jié)束后,都根據(jù)自身滿意度和疲倦度,選擇翻到下一頁(yè)或者退出推薦系統(tǒng)。在用戶退出系統(tǒng)之后,采訪用戶退出推薦系統(tǒng)的原因和對(duì)推薦電影的評(píng)價(jià)。
2.Agent 行為模擬真實(shí)性檢驗(yàn)
用大語(yǔ)言模型智能體模擬人類行為最關(guān)鍵的問(wèn)題,在于評(píng)估 agent 能夠多大程度的模擬用戶的真實(shí)喜好。Agent4Rec 在推薦場(chǎng)景下首次給出了一個(gè)實(shí)驗(yàn)級(jí)別的回答。
為了衡量用戶的電影喜好能否被 agent 正確捕捉,作者首先讓 agent 對(duì)用戶交互過(guò)的測(cè)試集中的電影和隨機(jī)采樣的負(fù)樣本電影進(jìn)行喜愛(ài)與否判斷。結(jié)果表明,agent 能夠捕捉約 70% 的用戶喜好。
在驗(yàn)證了 agent 的電影喜好合理性的基礎(chǔ)上,1000 個(gè) agent 被投放到逐頁(yè)推薦場(chǎng)景下,agent 可以選擇提前退出推薦系統(tǒng),或在達(dá)到 5 頁(yè)之后強(qiáng)制退出,同時(shí) Agent 對(duì)選擇觀看的電影進(jìn)行 1 到 5 分的評(píng)分。下圖實(shí)驗(yàn)結(jié)果表明 agent 的評(píng)分與真實(shí)數(shù)據(jù)中的用戶評(píng)分呈現(xiàn)分布一致性。
為了驗(yàn)證 Agent4Rec 作為 A/B 測(cè)試平臺(tái)的可能性,作者將 5 個(gè)常見的推薦策略部署到 Agent4Rec 平臺(tái),收集 agent 反饋(平均觀影比例、平均喜愛(ài)數(shù)、平均喜愛(ài)比例、平均退出頁(yè)數(shù)、用戶平均滿意度)。下表結(jié)果表明,基于算法的推薦系統(tǒng)(MF、MultVAE、LightGCN)表現(xiàn)大幅優(yōu)于基于策略的推薦系統(tǒng)(Random、Pop)。且總體而言,LightGCN 的表現(xiàn)優(yōu)于其他算法。這一結(jié)果證明,agent 能對(duì)不同的推薦系統(tǒng)的推薦結(jié)果進(jìn)行分辨。在未來(lái),一個(gè)精心設(shè)計(jì)的基于大語(yǔ)言模型的推薦系統(tǒng)模擬器或許能夠充當(dāng)理想的離線 A/B 測(cè)試平臺(tái),并給出符合企業(yè)需求的用戶評(píng)價(jià)指標(biāo)。
仿照現(xiàn)實(shí)生活中推薦系統(tǒng)會(huì)根據(jù)用戶反饋進(jìn)行更新的場(chǎng)景,作者在完成一輪推薦之后,將 agent 選擇的高分電影或未觀看的電影以正樣本加入訓(xùn)練集,重新訓(xùn)練推薦系統(tǒng),并將重新訓(xùn)練的推薦算法再次部署到 Agent4Rec 平臺(tái)。結(jié)果表明,將 agent 選擇的高分電影對(duì)推薦系統(tǒng)進(jìn)行再訓(xùn)練,在離線指標(biāo)與模擬的 “在線” 指標(biāo)上均得到了提升。而將 agent 不喜歡的電影作為數(shù)據(jù)增強(qiáng)則在大多數(shù)情況下起到了負(fù)向的效果。這從側(cè)面說(shuō)明 agent 的行為與真實(shí)用戶行為對(duì)齊。
同時(shí),推薦系統(tǒng)中的真實(shí)用戶往往具有不同的特質(zhì),如活躍性、從眾性和觀影多樣性等。作者根據(jù)數(shù)據(jù)集中用戶的不同統(tǒng)計(jì)信息,將 agent 在每個(gè)特質(zhì)上分為 3 組并給出不同的用戶畫像。在模擬完成后,收集 agent 的交互次數(shù)、agent 評(píng)分與用戶歷史評(píng)分的均方誤差、agent 交互電影種類數(shù)這三個(gè)指標(biāo),作為 agent 活躍性、從眾性、觀影多樣性特質(zhì)衡量。實(shí)驗(yàn)結(jié)果表明,在三個(gè)組間 agent 的平均表現(xiàn)符合預(yù)期,存在顯著差異。
在個(gè)體層面,agent 的表現(xiàn)也與真實(shí)用戶呈現(xiàn)一致性。以下圖中的用戶觀影多樣性為例,每個(gè)用戶的真實(shí)觀影種類數(shù)與 Agent4Rec 中的 agent 所觀看的電影種類數(shù)呈現(xiàn)一致趨勢(shì)。
作者還通過(guò)消融實(shí)驗(yàn)研究了不同特質(zhì)初始化對(duì) agent 行為起到的作用。下述實(shí)驗(yàn)結(jié)果表明,沒(méi)有個(gè)性化的特質(zhì)初始化,agent 的行為呈現(xiàn)趨同,與現(xiàn)實(shí)生活中的真實(shí)用戶行為長(zhǎng)尾分布有別。
3. 探索推薦系統(tǒng)中尚未解決的問(wèn)題
獲得一個(gè)真實(shí)的推薦系統(tǒng)模擬器,將極大地幫助推薦研究工作的推進(jìn)。鑒于 Agent4Rec 對(duì)用戶較大程度的真實(shí)行為模擬,作者探索了兩個(gè)有意思的待解決問(wèn)題。
首先,作者利用 Agent4Rec 平臺(tái)收集多維度推薦數(shù)據(jù),探究推薦系統(tǒng)中潛在的因果關(guān)系。作者選取 5 個(gè)推薦系統(tǒng)中常見的變量:電影質(zhì)量、電影流行度、電影曝光率、電影瀏覽量、電影評(píng)分,通過(guò) DirectLiNGAM 建模一個(gè)帶權(quán)有向無(wú)環(huán)因果圖,分析這 5 個(gè)變量間的因果關(guān)系。下述因果圖的左半部分說(shuō)明,電影評(píng)分只受電影質(zhì)量與電影流行度的正向影響。因果圖的右半部分說(shuō)明電影的質(zhì)量和流行度將共同影響電影的曝光率,進(jìn)而影響電影被點(diǎn)擊次數(shù)。這反映了推薦系統(tǒng)中的的流行度偏差效應(yīng):更流行的物品被更多曝光,進(jìn)一步導(dǎo)致物品流行度環(huán)路放大效應(yīng)。
作者還進(jìn)一步探究了推薦系統(tǒng)中信息繭房問(wèn)題。作者不斷將 agent 選擇的物品作為正樣本加入訓(xùn)練集,訓(xùn)練新的推薦算法并收集 agent 反饋。隨著模擬與重新訓(xùn)練的輪數(shù)增多,推薦系統(tǒng)對(duì)個(gè)體用戶推薦的第一大類電影的比例逐漸上升,且推薦系統(tǒng)對(duì)個(gè)體用戶推薦的平均電影種類數(shù)下降。這一現(xiàn)象表明,用戶接受的信息種類將在推薦算法的干預(yù)下越來(lái)越單一。
4. 總結(jié)與展望
本篇工作探索了基于大語(yǔ)言模型的智能體(Agent)模擬真實(shí)推薦場(chǎng)景下用戶行為的可能性。盡管大語(yǔ)言模型仍存在諸如幻覺(jué)在內(nèi)的種種問(wèn)題,但 Agent4Rec 上的多智能體仍在多個(gè)方面展現(xiàn)出了和真實(shí)用戶群體一致的行為。期待在未來(lái),一個(gè)精心設(shè)計(jì)的基于大語(yǔ)言模型的 agent 平臺(tái),能夠足夠真實(shí)地模擬推薦場(chǎng)景的各個(gè)維度,為學(xué)術(shù)界和工業(yè)界的研究提供更多便利。