異構混排在vivo互聯網的技術實踐

作者：Shen Jiyi 2022-12-08 13:40:58

移動開發

本文主要從業務、模型等角度介紹了vivo廣告策略團隊在信息流和應用商店混排上的一些探索和思考。

混排層負責將多個異構隊列的結果如廣告、游戲、自然量等進行融合，需要在上下游和業務多重限制下取得最優解，相對復雜和難以控制。本文主要從業務、模型等角度介紹了vivo廣告策略團隊在信息流和應用商店混排上的一些探索和思考。

一、背景介紹

首先介紹一下什么是混排。所謂混排，如圖所示就是需要在保障用戶體驗前提下，通過對不同隊列中的異構內容進行合理混合，實現收益最優，更好的服務廣告主和用戶。

混排的核心挑戰體現在：

不同隊列item建模目標不同，難以直接對比。比如有的隊列按照ctr建模，有的隊列按照ecpm建模，無法直接對比。
候選隊列常受到大量產品規則約束，常見的有比如間隔位的約束、保量、首位等約束。
由于候選隊列由上游各方精排算法產生，由于業務限制混排時往往不能修改候選隊列的序，也就是需要實現保序混排。

本次介紹的主要是vivo信息流和商店場景的混排實踐。

vivo的信息流場景，包括像瀏覽器、i視頻、負一屏等，他的特點是場景眾多，下拉深度較高，廣告形式多樣，用戶個性化需求較強。而對于商店場景，是一個整體偏垂直的場景，

它涉及到廣告、游戲、自然量多方均衡，需要在保量和用戶體驗等嚴格要求下，取得綜合最優解。后續我們將對這2個場景的特點展開逐一介紹。

二、信息流混排實踐

2.1 信息流混排介紹

我們開始介紹下信息流場景的混排實踐。

對于信息流場景來說，如下圖所示，混排側所主要解決的問題是內容隊列與廣告隊列的混排問題。也就是如何在平衡好用戶體驗和廣告主利益的情況下，將廣告插入到合適的位置。

對于傳統信息流媒體來說早期的主要混排方式可能主要是以固定位模板為主。也就是運營人工定下廣告與內容的插入關系，簡單直接。

但也帶來了三個明顯的問題：

用戶方來說，廣告在偏好場景與非偏好場景同等概率出現，有損用戶體驗。
業務方的角度出發，流量未精準投放，業務服務效率低，廣告主體驗差。
平臺方，資源錯配導致平臺資源浪費。

2.2 業界方案調研

接下來介紹下業界常見的幾種解決方案。

以某職場社交平臺的方案為例。它將優化目標設定為在用戶體驗價值大于一定值的前提下最優化營收價值。對于待插入廣告，將用戶體驗貨幣化，與商業化價值加權衡量整體價值。

如果整體價值大于用戶體驗價值時投放廣告內容，否則投放產品內容。此外在投放時還會根據右圖所示考慮間隔等約束。

他的方法簡單直接，很多團隊采用類似的方案取得較好效果。但該方案只考慮單一item價值，未考慮item間相互影響，缺乏長期收益的考慮。

接下來介紹的是某小視頻的方案，他們采用強化學習的方法進行混排。該方案將信息流混排問題抽象為序列插入問題，將不同廣告對于不同槽位的插入情況抽象為不同action，通過強化學習進行選擇。在考慮獎勵設計時融合了廣告價值（如收入等）與用戶體驗價值（比如下滑與離開）。通過調節超參對兩者進行平衡。

但是該方案對工程依賴較高且論文中已離線測試為主，缺乏線上的分析。并且該模型只考慮單廣告插入，未考慮多廣告情況。

具體到vivo信息流場景的迭代，混排迭代包括固定位混排，Qlearning 混排和深度解空間型混排三個階段。

整體思路是希望在Qlearning階段通過簡單的強化學習方案累積樣本，快速探索收益。后續升級為深度學習方案。

2.3 Qlearning 混排

上面是強化學習的基本流程，強化學習最大的特點是在交互中學習。Agent在與環境的交互中根據獲得的獎勵或懲罰不斷的學習知識，更加適應環境。state，reward和action是強化學習中最為關鍵的三個要素，后續詳細展開。

vivo信息流的Qlearning混排機制有什么好處呢？首先它會考慮全頁面收益，并考慮長期收益，符合多刷場景訴求。此外Qlearning模型可以小步快跑，積累樣本同時，快速驗證效果。

當前整體系統架構，混排系統位于adx后，接收到內容隊列與廣告隊列后，通過Qlearning 模型下發調權系數，對廣告進行調權，疊加業務策略后，生成融合隊列。而用戶行為也會觸發Qlearning模型更新。

Qlearning模型運行原理如圖，首先初始化qtable，然后選擇一個action，根據action所得到的reward進行qtable的更新，而在損失函數既考慮短期收益也考慮長期收益。

在vivo的實踐中，在獎勵設計上，我們綜合考慮時長等用戶體驗指標與廣告價值，兩者進行平滑后，通過超參進行權衡。在動作設計上，一期采用數值型的方式，生成廣告調權系數，作用于廣告精排得分，與內容側進行混合，從而實現混排。

在狀態設計上包含用戶特征、上下文特征、內容側特征和廣告側特征四個部分。像統計特征和上下文特征等對Qlearning模型有較大影響。

在vivo信息流場景中，Qlearning混排取得了較好的效果，已經覆蓋絕大部分場景。

2.4 深度位置型混排

Qlearning混排存在一定的局限性：

Qtable結構簡單，信息容量小。
Qlearning模型可使用特征有限，難以對如行為序列等細致化建模。
當前Qlearning混排依賴于上游打分，上游打分波動，會引發效果震蕩。

為了解決Qlearning的問題，我們研發了深度位置型混排。在混排機制上由原本的數值型升級為直接生成位置的位置型混排，而在模型本身我們由Qlearning升級成了深度學習。

這帶來3個好處：

與上游打分解耦，大大提高混排穩定性
深度網絡，可容納信息量大
能夠考慮頁面間item相互作用

我們整體模型架構為業界主流類似雙塔dqn的模型架構，左塔主要傳入的一些state信息包括用戶屬性、行為等，右塔傳入action信息也就是解空間排列基礎信息。

值得一提的是我們會將上一刷的解作為特征融入到當前模型中。

新的解空間模型action空間更大，天花板更高。但稀疏action難以學習充分，易導致預估不準。為了解決這個問題，我們在線上增加小流量隨機實驗，提高稀疏動作命中率，豐富樣本多樣性。

序列特征作為模型最為重要的特征之一，也是強化學習模型刻畫state的重要特征之一，我們對序列做了一些優化。在序列attention模塊，為了解決用戶歷史興趣與待插入廣告的匹配程度，我們通過transformer刻畫用戶行為序列信息；之后通過待插入廣告與序列attention操作，刻畫匹配程度。此外在序列match模塊，我們引入先驗信息，產生強交叉特征，對attention進行補充；對于match權值通過CTR、是否命中、時間權重、TF-IDF等方式進行信息提取。