成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Agent4Rec來(lái)了!大模型智能體構(gòu)成推薦系統(tǒng)模擬器,模擬真實(shí)用戶交互行為

人工智能 新聞
來(lái)自新加坡國(guó)立大學(xué) NExT++ 實(shí)驗(yàn)室團(tuán)隊(duì)構(gòu)建了 Agent4Rec,一個(gè)由 1000 名 agents 構(gòu)成的電影推薦系統(tǒng)模擬器。

一直以來(lái),推薦系統(tǒng)領(lǐng)域面臨模型線上線下效果差距大的痛點(diǎn)問(wèn)題,昂貴的線上 A/B 測(cè)試成本使得廣大研究人員望而卻步,也造成學(xué)術(shù)界的推薦系統(tǒng)研究與工業(yè)界的實(shí)際應(yīng)用間的巨大割裂。隨著大語(yǔ)言模型展現(xiàn)出類人的邏輯推理和理解能力,基于大語(yǔ)言模型的智能體(Agent)能否模擬真實(shí)用戶的交互行為,從而構(gòu)建一個(gè)可靠的虛擬推薦 A/B 測(cè)試場(chǎng)景,以幫助推薦研究的應(yīng)用落地,是一個(gè)急迫、重要且極具經(jīng)濟(jì)價(jià)值的問(wèn)題。

為了回答這個(gè)問(wèn)題,來(lái)自新加坡國(guó)立大學(xué) NExT++ 實(shí)驗(yàn)室團(tuán)隊(duì)構(gòu)建了 Agent4Rec,一個(gè)由 1000 名 agents 構(gòu)成的電影推薦系統(tǒng)模擬器。這些 agent 由真實(shí)用戶初始化,由 ChatGPT-3.5 驅(qū)動(dòng),根據(jù)用戶喜好與特質(zhì),對(duì)封裝的不同推薦算法和其推薦的電影做出個(gè)性化反應(yīng)。這些個(gè)性化反應(yīng)模擬真實(shí)用戶在推薦系統(tǒng)中的行為,包括觀看或拒看電影,給電影評(píng)分,翻到下一頁(yè)電影推薦列表,疲倦度估計(jì),因不滿意或疲憊退出推薦系統(tǒng),給推薦算法進(jìn)行評(píng)價(jià)等。廣泛的實(shí)驗(yàn)評(píng)估表明,Agent4Rec 里的 agent 能大概率反映真實(shí)世界的用戶行為。

圖片

  • 論文鏈接:https://arxiv.org/abs/2310.10108
  • 代碼鏈接:https://github.com/LehengTHU/Agent4Rec

1.Agent4Rec 平臺(tái)構(gòu)建

圖片

Agent4Rec 中的每一個(gè)用戶,也即 agent,由 profile module、memory module、action module 構(gòu)成。作者使用 MovieLens-1m 中的真實(shí)用戶數(shù)據(jù)初始化 agent 檔案。根據(jù)用戶的歷史交互生成 agent 的電影偏好,根據(jù)用戶的歷史活躍度、從眾性和觀影多樣性生成 agent 的交互特征。

推薦系統(tǒng)將采取逐頁(yè)推薦的方式,根據(jù)特定的推薦算法向用戶推薦電影列表。仿照真實(shí)的手機(jī) APP 推薦場(chǎng)景,每頁(yè)將展示 4 部電影。每部電影的信息包括電影名、歷史評(píng)分、電影簡(jiǎn)介等。每個(gè) agent 將根據(jù)自身的電影喜好、疲憊程度以及個(gè)人記憶對(duì)推薦的電影做出反應(yīng),如觀看或評(píng)價(jià)電影。同時(shí),歷史推薦內(nèi)容和 agent 行為將被存儲(chǔ)在記憶中,agent 通過(guò) reflection 的方式總結(jié)對(duì)推薦系統(tǒng)的滿意度和自身的疲憊程度。Agent 在每一頁(yè)推薦結(jié)束后,都根據(jù)自身滿意度和疲倦度,選擇翻到下一頁(yè)或者退出推薦系統(tǒng)。在用戶退出系統(tǒng)之后,采訪用戶退出推薦系統(tǒng)的原因和對(duì)推薦電影的評(píng)價(jià)。

2.Agent 行為模擬真實(shí)性檢驗(yàn)

用大語(yǔ)言模型智能體模擬人類行為最關(guān)鍵的問(wèn)題,在于評(píng)估 agent 能夠多大程度的模擬用戶的真實(shí)喜好。Agent4Rec 在推薦場(chǎng)景下首次給出了一個(gè)實(shí)驗(yàn)級(jí)別的回答。

為了衡量用戶的電影喜好能否被 agent 正確捕捉,作者首先讓 agent 對(duì)用戶交互過(guò)的測(cè)試集中的電影和隨機(jī)采樣的負(fù)樣本電影進(jìn)行喜愛(ài)與否判斷。結(jié)果表明,agent 能夠捕捉約 70% 的用戶喜好。

圖片

在驗(yàn)證了 agent 的電影喜好合理性的基礎(chǔ)上,1000 個(gè) agent 被投放到逐頁(yè)推薦場(chǎng)景下,agent 可以選擇提前退出推薦系統(tǒng),或在達(dá)到 5 頁(yè)之后強(qiáng)制退出,同時(shí) Agent 對(duì)選擇觀看的電影進(jìn)行 1 到 5 分的評(píng)分。下圖實(shí)驗(yàn)結(jié)果表明 agent 的評(píng)分與真實(shí)數(shù)據(jù)中的用戶評(píng)分呈現(xiàn)分布一致性。

圖片

為了驗(yàn)證 Agent4Rec 作為 A/B 測(cè)試平臺(tái)的可能性,作者將 5 個(gè)常見的推薦策略部署到 Agent4Rec 平臺(tái),收集 agent 反饋(平均觀影比例、平均喜愛(ài)數(shù)、平均喜愛(ài)比例、平均退出頁(yè)數(shù)、用戶平均滿意度)。下表結(jié)果表明,基于算法的推薦系統(tǒng)(MF、MultVAE、LightGCN)表現(xiàn)大幅優(yōu)于基于策略的推薦系統(tǒng)(Random、Pop)。且總體而言,LightGCN 的表現(xiàn)優(yōu)于其他算法。這一結(jié)果證明,agent 能對(duì)不同的推薦系統(tǒng)的推薦結(jié)果進(jìn)行分辨。在未來(lái),一個(gè)精心設(shè)計(jì)的基于大語(yǔ)言模型的推薦系統(tǒng)模擬器或許能夠充當(dāng)理想的離線 A/B 測(cè)試平臺(tái),并給出符合企業(yè)需求的用戶評(píng)價(jià)指標(biāo)。

圖片

仿照現(xiàn)實(shí)生活中推薦系統(tǒng)會(huì)根據(jù)用戶反饋進(jìn)行更新的場(chǎng)景,作者在完成一輪推薦之后,將 agent 選擇的高分電影或未觀看的電影以正樣本加入訓(xùn)練集,重新訓(xùn)練推薦系統(tǒng),并將重新訓(xùn)練的推薦算法再次部署到 Agent4Rec 平臺(tái)。結(jié)果表明,將 agent 選擇的高分電影對(duì)推薦系統(tǒng)進(jìn)行再訓(xùn)練,在離線指標(biāo)與模擬的 “在線” 指標(biāo)上均得到了提升。而將 agent 不喜歡的電影作為數(shù)據(jù)增強(qiáng)則在大多數(shù)情況下起到了負(fù)向的效果。這從側(cè)面說(shuō)明 agent 的行為與真實(shí)用戶行為對(duì)齊。

圖片

同時(shí),推薦系統(tǒng)中的真實(shí)用戶往往具有不同的特質(zhì),如活躍性、從眾性和觀影多樣性等。作者根據(jù)數(shù)據(jù)集中用戶的不同統(tǒng)計(jì)信息,將 agent 在每個(gè)特質(zhì)上分為 3 組并給出不同的用戶畫像。在模擬完成后,收集 agent 的交互次數(shù)、agent 評(píng)分與用戶歷史評(píng)分的均方誤差、agent 交互電影種類數(shù)這三個(gè)指標(biāo),作為 agent 活躍性、從眾性、觀影多樣性特質(zhì)衡量。實(shí)驗(yàn)結(jié)果表明,在三個(gè)組間 agent 的平均表現(xiàn)符合預(yù)期,存在顯著差異。

圖片

在個(gè)體層面,agent 的表現(xiàn)也與真實(shí)用戶呈現(xiàn)一致性。以下圖中的用戶觀影多樣性為例,每個(gè)用戶的真實(shí)觀影種類數(shù)與 Agent4Rec 中的 agent 所觀看的電影種類數(shù)呈現(xiàn)一致趨勢(shì)。

圖片

作者還通過(guò)消融實(shí)驗(yàn)研究了不同特質(zhì)初始化對(duì) agent 行為起到的作用。下述實(shí)驗(yàn)結(jié)果表明,沒(méi)有個(gè)性化的特質(zhì)初始化,agent 的行為呈現(xiàn)趨同,與現(xiàn)實(shí)生活中的真實(shí)用戶行為長(zhǎng)尾分布有別。

3. 探索推薦系統(tǒng)中尚未解決的問(wèn)題

獲得一個(gè)真實(shí)的推薦系統(tǒng)模擬器,將極大地幫助推薦研究工作的推進(jìn)。鑒于 Agent4Rec 對(duì)用戶較大程度的真實(shí)行為模擬,作者探索了兩個(gè)有意思的待解決問(wèn)題。

首先,作者利用 Agent4Rec 平臺(tái)收集多維度推薦數(shù)據(jù),探究推薦系統(tǒng)中潛在的因果關(guān)系。作者選取 5 個(gè)推薦系統(tǒng)中常見的變量:電影質(zhì)量、電影流行度、電影曝光率、電影瀏覽量、電影評(píng)分,通過(guò) DirectLiNGAM 建模一個(gè)帶權(quán)有向無(wú)環(huán)因果圖,分析這 5 個(gè)變量間的因果關(guān)系。下述因果圖的左半部分說(shuō)明,電影評(píng)分只受電影質(zhì)量與電影流行度的正向影響。因果圖的右半部分說(shuō)明電影的質(zhì)量和流行度將共同影響電影的曝光率,進(jìn)而影響電影被點(diǎn)擊次數(shù)。這反映了推薦系統(tǒng)中的的流行度偏差效應(yīng):更流行的物品被更多曝光,進(jìn)一步導(dǎo)致物品流行度環(huán)路放大效應(yīng)。

圖片

作者還進(jìn)一步探究了推薦系統(tǒng)中信息繭房問(wèn)題。作者不斷將 agent 選擇的物品作為正樣本加入訓(xùn)練集,訓(xùn)練新的推薦算法并收集 agent 反饋。隨著模擬與重新訓(xùn)練的輪數(shù)增多,推薦系統(tǒng)對(duì)個(gè)體用戶推薦的第一大類電影的比例逐漸上升,且推薦系統(tǒng)對(duì)個(gè)體用戶推薦的平均電影種類數(shù)下降。這一現(xiàn)象表明,用戶接受的信息種類將在推薦算法的干預(yù)下越來(lái)越單一。

圖片

4. 總結(jié)與展望

本篇工作探索了基于大語(yǔ)言模型的智能體(Agent)模擬真實(shí)推薦場(chǎng)景下用戶行為的可能性。盡管大語(yǔ)言模型仍存在諸如幻覺(jué)在內(nèi)的種種問(wèn)題,但 Agent4Rec 上的多智能體仍在多個(gè)方面展現(xiàn)出了和真實(shí)用戶群體一致的行為。期待在未來(lái),一個(gè)精心設(shè)計(jì)的基于大語(yǔ)言模型的 agent 平臺(tái),能夠足夠真實(shí)地模擬推薦場(chǎng)景的各個(gè)維度,為學(xué)術(shù)界和工業(yè)界的研究提供更多便利。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2022-12-30 14:21:54

2024-11-14 14:50:00

AI智能體

2024-05-29 12:13:50

2024-07-17 16:59:51

AI訓(xùn)練

2019-02-20 11:24:27

Linux 開源操作系統(tǒng)

2024-07-08 09:49:54

2025-04-01 08:05:00

智能體人工智能MCP

2009-09-14 09:59:19

CCNA模擬器介紹CCNA

2009-09-04 16:05:08

2023-10-12 16:37:36

模型學(xué)習(xí)

2021-02-15 10:32:06

C#Selenium網(wǎng)頁(yè)

2012-03-07 15:03:57

模擬器智能手機(jī)游戲

2015-07-27 10:38:14

微軟android模擬器

2024-12-12 08:42:25

2009-08-20 10:55:59

2009-08-07 10:53:24

JUNOS配置

2011-02-25 17:30:52

2013-07-25 14:35:27

2013-01-25 15:29:14

s40Series 40

2009-05-04 08:51:00

PalmWebOS移動(dòng)OS
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲一区不卡在线 | 亚洲巨乳自拍在线视频 | 一区二区三区免费在线观看 | 国产亚洲精品精品国产亚洲综合 | 久久99精品久久久久久噜噜 | 天天干天天干 | 一级毛片免费完整视频 | 在线观看国产 | 国产精品 亚洲一区 | 综合久久综合久久 | 久久久久国产一区二区三区四区 | 欧美日本免费 | 国产视频精品区 | 亚洲av毛片| 国产精品区二区三区日本 | 日韩精品在线观看一区二区 | 可以免费观看的av | 一级片在线观看 | 欧美一级久久 | 日韩在线精品视频 | 成人在线观看免费观看 | 中文字幕不卡在线88 | 夜夜爽99久久国产综合精品女不卡 | 九九亚洲| 日韩精品一区在线观看 | 国产一区亚洲 | 99在线资源 | 热久久性 | 国产精品免费一区二区三区 | 中文字幕一级毛片 | 色女人天堂 | 成人精品视频 | 日韩精品免费一区 | 色片在线观看 | 一区二区视频 | 亚洲免费精品 | 99精品视频免费观看 | 久久久婷婷 | 国产999精品久久久久久 | 精品视频一区二区三区 | 欧美一级在线免费 |