推薦多任務(wù) 2023 最新進展:用戶生命周期視角下的多任務(wù)推薦模型 STAN
一、業(yè)務(wù)背景
本文工作是從業(yè)務(wù)出發(fā)提出的一項創(chuàng)新性工作,首先來介紹一下業(yè)務(wù)背景。
圖中所示是常見的 Shopee 雙列流 feed,用戶點擊一個直播后,會進入全屏沉浸流,產(chǎn)生消費時長,同時也可以點擊購買商品,產(chǎn)生消費下單。
該路徑下的用戶會經(jīng)歷幾個階段:
- 新用戶階段,訂單與時長都較低。
- 后續(xù)在平臺進行閑逛,時長增加,訂單轉(zhuǎn)化仍較低,對于此部分用戶,不適合推薦雜亂的直播間,而更適合推薦優(yōu)質(zhì)商品的、能夠讓人沉浸的直播間,會讓用戶逛得更久。
- 對于平臺的忠誠用戶,其 CVR 轉(zhuǎn)化較高,但其目標明確,時長可能會相應(yīng)減少,對于此部分用戶,適合推薦簡單易轉(zhuǎn)化的商品。
因此,不同用戶群體對不同任務(wù)指標的偏好相差較大,通過數(shù)據(jù)分析,我們發(fā)現(xiàn) CTR、停留時長、CVR 任務(wù)的用戶群分布類似于冪律分布。對于不同階段的用戶,CTR、停留時長、CVR 等分布也不同,新用戶的 CTR、停留時長等分布較為靠后。因此,我們觀測到不同任務(wù)指標的偏好與用戶當前的狀態(tài)密切相關(guān),且用戶狀態(tài)會隨時間而變。
二、關(guān)鍵問題
我們從數(shù)據(jù)分析中提煉出了如下的關(guān)鍵問題:現(xiàn)有方法中在多任務(wù)優(yōu)化時,對所有用戶一視同仁,會導(dǎo)致優(yōu)化蹺蹺板現(xiàn)象。因此問題核心是要準確追蹤用戶狀態(tài),才能同時提高 CTR、時長和訂單指標。對此問題進行拆解,可以得到如下三個子問題:如何識別用戶狀態(tài),如何追蹤用戶狀態(tài)信息以及如何結(jié)合用戶狀態(tài)優(yōu)化多任務(wù)模型。
三、解決方案:STAN
針對以上問題,我們提出了 STAN 這一解決方案。STAN 網(wǎng)絡(luò)如上圖所示,分為幾個部分:右側(cè)是傳統(tǒng)的 MMoE 的模型結(jié)構(gòu),是 PLE 模型;左側(cè)是對用戶信息建模,用戶信息會反映在 loss 上,對 loss 進行調(diào)整。
1、霧里看花:如何識別用戶狀態(tài)?
首先,第一個問題是如何識別用戶狀態(tài)。我們使用了用戶特征抽取網(wǎng)絡(luò)建立特征間的交互關(guān)系,通過 Attention 網(wǎng)絡(luò)結(jié)構(gòu),針對特定任務(wù)生成含有用戶傾向信息的用戶表征。在此之上構(gòu)建 loss,Label 為用戶是否點擊、購買等。這里沒有 Item 側(cè)信息,Label 的平均估計為用戶對 CTR、CVR、時長等的偏好。
2、撥云見日:如何準確追蹤用戶狀態(tài)?
通過對用戶每個目標的預(yù)估值,就能夠大概知道用戶處于哪個狀態(tài),同時針對每個用戶,我們引入了用戶自適應(yīng)的 Beta 分布對用戶傾向的預(yù)測值重采樣。Beta分布在用戶數(shù)據(jù)較少情況下置信度低,此時預(yù)估值較為不準確,需要引入重采樣校正方法校正產(chǎn)出預(yù)估值,從而降低極端數(shù)據(jù)影響。
3、登堂入室:如何結(jié)合用戶狀態(tài),優(yōu)化多任務(wù)模型?
最后是結(jié)合用戶狀態(tài),優(yōu)化多任務(wù)模型。多任務(wù)模型的優(yōu)化部分會疊加本身多任務(wù)模型 loss 與用戶狀態(tài) loss,同時訓練,同步迭代。
四、離線效果
1、離線效果:理解性實驗
首先,我們進行了理解性試驗,驗證離線效果。
如何驗證本文方法能否識別用戶狀態(tài)呢?我們對比了同一組用戶在不同模型的表征。如上圖所示,STAN 模型對于 Wander、Stick、Loyal 用戶分群下的表示比 PLE 區(qū)分度更大。該圖是對用戶 Emb 降維到二維空間構(gòu)建的,PLE、STAN 模型用的用戶 Emb 是通過 userid 抽取得到的。
另一個問題是,本文方法能否準確追蹤用戶狀態(tài)?我們對比了同一組用戶在不同日期的狀態(tài),如上圖右下角的圖中所示,五星表示用戶,Day 1 用戶處于 New 的狀態(tài),Day 31 則變?yōu)?Wander 和 Stick 狀態(tài),說明本方法能夠自適應(yīng)地追蹤用戶狀態(tài)的變遷。
2、離線效果:Shopee Dataset
我們采用工業(yè)數(shù)據(jù)集對效果進行了驗證,為了方便對比,我們使用了三周的數(shù)據(jù)進行訓練,一周的數(shù)據(jù)進行測試。評估指標是 AUC,NDCG@1。在圖中的 PLE 模型中,我們添加了 stage 的標識,固定了 2 個 stage,任務(wù)準確率有一定提升。在增加自適應(yīng) stage 后,準確率有所提升,但模型波動較大。加入 Beta 重采樣后,準確率穩(wěn)中有升,模型更加穩(wěn)定。
3、離線效果:Public Dataset
我們在公開數(shù)據(jù)集:微信視頻號數(shù)據(jù)集上進行了驗證,其中有三個目標:點贊、點 up 主頭像、轉(zhuǎn)發(fā),評估指標是 AUC,NDCG@5,其中 NDCG@5 是該數(shù)據(jù)集中的公開對比指標。從圖中可以看出,實驗效果與 Shopee 數(shù)據(jù)集表現(xiàn)類似。
五、工作價值
我們將此工作在線上進行了驗證,base 是 PLE 模型,實驗組增加了 STAN 模型。實驗效果 CTR+3.94%,staytime+3.05%,order+0.88%,每個指標都有所增長。其中 order 增長較小,是因為 Shopee 平臺上的 order 量還比較小,相應(yīng)的用戶群也較小,因此提升稍弱一些。
本文的工作已被 Recsys’23 接收。
六、結(jié)論展望
總結(jié)來說,我們應(yīng)當重視推薦系統(tǒng)中用戶的生命周期;在多任務(wù)學習中需要顯式建模用戶生命周期;同時我們需要立足于線上真實分布的數(shù)據(jù),深挖技術(shù)突破點。
未來,我們會在每一層的推薦候選中結(jié)合用戶生命周期進行細粒度調(diào)整;同時也希望創(chuàng)新方法可以落地,業(yè)務(wù)也需要進行持續(xù)創(chuàng)新。