成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

快手:通過強化學習提升用戶留存

人工智能 新聞
本文研究如何通過 RL 技術提升推薦系統用戶留存,該工作將留存優化建模成一個無窮視野請求粒度的馬爾可夫決策過程,該工作提出 RLUR 算法直接優化留存并有效地應對留存信號的幾個關鍵挑戰。

短視頻推薦系統的核心目標是通過提升用戶留存,牽引 DAU 增長。因此留存是各APP的核心業務優化指標之一。然而留存是用戶和系統多次交互后的長期反饋,很難分解到單個 item 或者單個 list,因此傳統的 point-wise 和 list-wise 模型難以直接優化留存。

強化學習(RL)方法通過和環境交互的方式優化長期獎勵,適合直接優化用戶留存。該工作將留存優化問題建模成一個無窮視野請求粒度的馬爾科夫決策過程(MDP),用戶每次請求推薦系統決策一個動作(action),用于聚合多個不同的短期反饋預估(觀看時長、點贊、關注、評論、轉發等)的排序模型打分。該工作目標是學習策略(policy),最小化用戶多個會話的累計時間間隔,提升 App 打開頻次進而提升用戶留存。

然而由于留存信號的特性,現有 RL 算法直接應用存在以下挑戰:1)不確定性:留存信號不只由推薦算法決定,還受到許多外部因素干擾;2)偏差:留存信號在不同時間段、不同活躍度用戶群體存在偏差;3)不穩定性:與游戲環境立即返回獎勵不同,留存信號通常在數小時至幾天返回,這會導致 RL 算法在線訓練的不穩定問題。

該工作提出 Reinforcement Learning for User Retention algorithm(RLUR)算法解決以上挑戰并直接優化留存。通過離線和在線驗證,RLUR 算法相比 State of Art 基線能夠顯著地提升次留指標。RLUR 算法已經在快手 App 全量,并且能夠持續地拿到顯著的次留和 DAU 收益,是業內首次通過 RL 技術在真實生產環境提升用戶留存。該工作已被 WWW 2023 Industry Track 接收。

圖片

作者:蔡慶芃,劉殊暢,王學良,左天佑,謝文濤,楊斌,鄭東,江鵬

論文地址:https://arxiv.org/pdf/2302.01724.pdf

問題建模

如圖 1(a)所示,該工作把留存優化問題建模成一個無窮視野請求粒度馬爾科夫決策過程(infinite horizon request-based Markov Decision Process),其中推薦系統是 agent,用戶是環境。用戶每次打開 App,開啟一個新的 session i。如圖 1(b),用戶每次請求圖片推薦系統根據用戶狀態圖片決策一個參數向量圖片,同時 n 個預估不同短期指標(觀看時長、點贊、關注等)的排序模型對每個候選視頻 j 進行打分圖片。然后排序函數輸入 action 以及每個視頻的打分向量,得到每個視頻的最終打分,并選出得分最高的 6 個視頻展示給用戶,用戶返回 immediate feedback圖片。 當用戶離開 App 時本 session 結束,用戶下一次打開 App session i+1 開啟,上一個 session 結尾和下一個 session 開始的時間間隔被稱為回訪時間(Returning time),圖片。  該研究的目標是訓練策略最小化多個 session 的回訪時間之和。

圖片

RLUR 算法

該工作首先討論怎么預估累計回訪時間,然后提出方法解決留存信號的幾個關鍵挑戰。這些方法匯總成 Reinforcement Learning for User Retention algorithm,簡寫為 RLUR。

回訪時間預估

如圖 1(d)所示,由于動作是連續的,該工作采取 DDPG 算法的 temporal difference(TD)學習方式預估回訪時間。

圖片

由于每個 session 最后一次請求才有回訪時間 reward,中間 reward 為 0,作者設置折扣因子圖片在每個 session 最后一次請求取值為圖片,其他請求為 1。這樣的設定能夠避免回訪時間指數衰減。并且從理論上可以證明當 loss(1)為 0 時,Q 實際上預估多個 session 的累計回訪時間,圖片。 

解決延遲獎勵問題

由于回訪時間只發生在每個 session 結束,這會帶來學習效率低的問題。因而作者運用啟發式獎勵來增強策略學習。由于短期反饋和留存是正相關關系,因而作者把短期反饋作為第一種啟發式獎勵。并且作者采用 Random Network Distillation(RND)網絡來計算每個樣本的內在獎勵作為第二種啟發式獎勵。具體而言 RND 網絡采用 2 個相同的網絡結構,一個網絡隨機初始化 fixed,另外一個網絡擬合這個固定網絡,擬合 loss 作為內在獎勵。如圖 1(e)所示,為了減少啟發式獎勵對留存獎勵的干擾,該工作學習一個單獨的 Critic 網絡,用來估計短期反饋和內在獎勵之和。即 圖片

解決不確定性問題

由于回訪時間受到很多推薦之外的因素影響,不確定度高,這會影響學習效果。該工作提出一個正則化方法來減少方差:首先預估一個分類模型圖片來預估回訪時間概率,即預估回訪時間是否短于圖片 ;然后用馬爾可夫不等式得到回訪時間下界,圖片; 最后用真實回訪時間 / 預估回訪時間下界作為正則化的回訪 reward。

解決偏差問題

由于不同活躍度群體的行為習慣差異大,高活用戶留存率高并且訓練樣本數量也顯著多于低活用戶,這會導致模型學習被高活用戶主導。為解決這個問題,該工作對高活和低活不同群體學習 2 個獨立策略,采用不同的數據流進行訓練,Actor 最小化回訪時間同時最大化輔助獎勵。如圖 1(c),以高活群體為例,Actor loss 為:

圖片

解決不穩定性問題

由于回訪時間信號延遲,一般在幾個小時到數天內返回,這會導致 RL 在線訓練不穩定。而直接使用現有的 behavior cloning 的方式要么極大限制學習速度要么不能保證穩定學習。因而該工作提出一個新的軟正則化方法,即在 actor loss 乘上一個軟正則化系數:

圖片

這個正則化方法本質上是一種制動效應:如果當前學習策略和樣本策略偏差很大,這個 loss 會變小,學習會趨于穩定;如果學習速度趨于穩定,這個 loss 重新變大,學習速度加快。當圖片,代表著對學習過程不加任何約束。

離線實驗

該工作把 RLUR 和 State of the Art 的強化學習算法 TD3,以及黑盒優化方法 Cross Entropy Method (CEM) 在公開數據集 KuaiRand 進行對比。該工作首先基于 KuaiRand 數據集搭建一個留存模擬器:包含用戶立即反饋,用戶離開 Session 以及用戶回訪 App 三個模塊,然后在這個留存模擬器評測方法。

圖片

表 1 說明 RLUR 在回訪時間和次留指標顯著優于 CEM 和 TD3。該研究進行消融實驗,對比 RLUR 和只保留留存學習部分 (RLUR (naive)),可以說明該研究針對留存挑戰解決方法的有效性。并且通過圖片圖片對比,說明最小化多個 session 的回訪時間的算法效果優于只最小化單個 session 的回訪時間。

在線實驗

圖片

該工作在快手短視頻推薦系統進行 A/B 測試對比 RLUR 和 CEM 方法。圖 2 分別顯示 RLUR 對比 CEM 的 App 打開頻次、DAU、次留、7 留的提升百分比。可以發現 App 打開頻次在 0-100 天逐漸提升乃至收斂。并且也拉動次留、7 留以及 DAU 指標的提升(0.1% 的 DAU 以及 0.01% 的次留提升視為統計顯著)。

總結與未來工作

本文研究如何通過 RL 技術提升推薦系統用戶留存,該工作將留存優化建模成一個無窮視野請求粒度的馬爾可夫決策過程,該工作提出 RLUR 算法直接優化留存并有效地應對留存信號的幾個關鍵挑戰。RLUR 算法已在快手 App 全量,能夠拿到顯著的次留和 DAU 收益。關于未來工作,如何采用離線強化學習、Decision Transformer 等方法更有效地提升用戶留存是一個很有前景的方向。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-05-30 16:37:29

2024-04-03 07:56:50

推薦系統多任務推薦

2025-05-30 04:00:00

IBMRLVRGRPO

2025-04-01 09:10:00

2023-10-19 13:25:00

AI訓練

2018-04-21 06:41:39

Q-learning算法函數

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2023-11-07 07:13:31

推薦系統多任務學習

2025-03-07 09:24:00

2020-11-12 19:31:41

強化學習人工智能機器學習

2022-11-02 14:02:02

強化學習訓練

2025-05-08 09:16:00

模型強化學習訓練

2021-09-17 15:54:41

深度學習機器學習人工智能

2025-02-20 09:21:51

2024-12-09 08:45:00

模型AI

2023-07-02 14:47:26

AI速通效率

2022-05-10 18:24:04

模型組件存儲

2017-07-25 16:04:31

概念應用強化學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久久久久动漫 | 欧美日韩亚洲国产 | 亚洲精品久久久一区二区三区 | 在线播放一区二区三区 | 99爱视频| 国产午夜精品久久久 | 亚洲精品乱码久久久久久按摩观 | 欧美一区二区精品 | 日韩精品视频在线观看一区二区三区 | 欧美bondage紧缚视频 | 欧美九九 | 一级h片| 亚洲成人在线免费 | 国产91久久精品一区二区 | 欧美一区二区三区小说 | 欧美日韩午夜精品 | 日韩二区三区 | 中文字幕免费在线 | 国产91在线 | 欧美 | 欧美一区二不卡视频 | 精品久久久久久久久久久久久久久久久 | 福利视频1000 | 99re在线| 性高湖久久久久久久久 | 一区二区在线不卡 | 亚洲欧美日韩在线不卡 | 亚洲精品一区中文字幕 | 视频一区在线观看 | 日韩精品二区 | 2018国产大陆天天弄 | 日本久久久一区二区三区 | 国产精品久久久久久久一区探花 | 日韩欧美一级 | 一区精品视频在线观看 | 国产一级毛片精品完整视频版 | 91精品一区二区三区久久久久久 | 国产视频第一页 | 国产 日韩 欧美 在线 | 亚洲精品99 | 中文字幕乱码一区二区三区 | 欧美不卡在线 |