譯者 | 李睿
審校 | 重樓
YouTube Shorts、Facebook Reels和TikTok等短視頻平臺的迅速崛起,徹底顛覆了人們消費數字內容的方式,每日吸引全球范圍內數以億計的用戶沉浸其中。這些平臺依靠先進的推薦系統,通過提供個性化的視頻建議來吸引用戶。然而,將短視頻和長視頻放在一起排序時將會面臨一個重大挑戰:時長偏見。
與傳統的推薦系統依賴于明確的用戶行為(例如點贊或分享)不同,視頻平臺主要利用觀看時間和完成率作為衡量用戶參與度的指標。這種轉變源自直接用戶反饋數據獲取難度的增加,從而使得觀看相關指標成為了評估用戶興趣的有效替代手段。然而,這種方法引入了一種固有的偏見,即短視頻與同樣引人入勝的長視頻相比更受歡迎,因為它們自然具有更高的完成率。例如,如果用戶在一個30秒的視頻中觀看了15秒(50%的完成率),但在一個2分鐘的視頻中僅觀看了30秒(25%的完成率),推薦系統可能會錯誤地將前者視為更具吸引力的內容,并因此更傾向于推薦短視頻,盡管這兩個視頻對用戶來說可能同樣有趣。這種對短視頻的系統性偏好不僅影響了整個生態系統,降低了用戶滿意度,限制了內容多樣性,并影響了創作者制作長視頻的積極性。
要解決這個問題,不僅要調整參數,還需要對用戶行為模式、內容消費動態以及視頻時長與用戶參與度之間的復雜關系有更細致的理解。隨著短視頻平臺持續塑造數字娛樂的未來,解決時長偏見問題對于維護一個既能有效服務用戶又能滿足創作者需求的健康內容生態系統來說至關重要。
無論是機器學習工程師,還是視頻平臺的產品經理,還是對探索喜愛的視頻應用幕后運作機制充滿好奇的用戶,本文都將幫助人們深入了解解決時長偏見的理論基礎和實踐策略,從而創建平衡、公平和有效的推薦系統。
理解視頻推薦中的時長偏見
根據視頻推薦平臺所側重的用戶參與度指標不同,時長偏見會以兩種不同方式表現出來。如果一個系統傾向于優先考慮完成率,它將系統地推廣短視頻,因為用戶更有可能完成較短的視頻。與其相反,如果觀看時間是主要指標,那么長視頻就會獲得一種不公平的優勢,因為用戶自然會在長視頻上花費更多的時間,而無論他們的實際興趣如何。
這種偏見產生了幾個下游效應:
1.推薦算法通常難以公平地評估不同長度的視頻。例如,60秒的新聞摘要可能與15秒的突發新聞具有相同的價值,但有偏見的參與度指標可能無法捕捉到這種等效性。
2.當推薦系統忽略了符合用戶興趣的高質量長視頻或短視頻時,用戶體驗就會受到影響,因為視頻長度會影響用戶參與度指標。
3.內容創作者經常感到有壓力要調整視頻長度以獲得更好的的傳播效果,即使這會影響內容質量。例如,教育創作者可能會將10分鐘的課程分成幾個更短的片段,從而影響學習流程。與其相反,一個可以在幾秒鐘內最好地傳達的簡短笑話可能會被不必要地拉長,從而削弱其影響力。
在現實世界的平臺上解決時長偏見需要采用一系列復雜的技術解決方案,這些解決方案考慮了用戶跳過或者重放內容的實際觀看模式,不同用戶群體的注意力跨度不同,以及需要規范不同視頻長度的用戶參與度指標。任何解決方案都必須在服務于數百萬用戶的實時推薦系統的約束下運行,同時平衡多個相互競爭的目標,例如用戶參與度、內容多樣性和創作者公平性。
解決時長偏見的技術解決方案
時長偏見帶來的挑戰促使研究人員和行業從業者開發各種創新方法來解決這一問題。以下探討一下近年來出現的解決方案的主要類別。
觀看時間標準化
解決時長偏見的最簡單方法是將絕對觀看時間標準化,以便在不同長度的視頻之間進行更公平的比較。播放完成率(PCR)是一種常見的方法,它衡量用戶觀看視頻的百分比,而不是根據原始觀看時間進行衡量。然而,盡管這種方法簡單,但存在明顯的局限性。它傾向于過度偏愛短視頻而不是長視頻,并且沒有考慮到視頻重放等行為,將所有完成的視頻觀看視為同樣積極的信號,而不考慮視頻的實際長度。
為了克服這些局限性,研究人員開發了更細致的方法來整合多種信號,例如觀看時間、觀看百分位數和基于時長的分層。其中一個指標是Root Log Time Percentile Watch (RLTPW),它將絕對觀看時間與視頻完成的百分位數混合在一起,以創造一個更平衡的測量方法。當在一個服務于數百萬用戶的真實平臺上進行測試時,這種方法不僅提高了用戶參與度和用戶保留率,還確保了不同長度視頻的推薦分布更加均衡。
盡管取得了這些進步,但人工定義這些指標是一項勞動密集型的工作,可能與平臺的具體目標并不完全一致。隨著平臺的發展,對智能自動化系統的需求越來越大,這些系統可以根據具體情況動態生成高質量的參與標簽。
反事實觀看時長
一種解決時長偏見的更先進方法是評估反事實觀看時長(CWT)——這實際上是問,“如果視頻無限長,這個用戶會看多久?”(,)。例如,如果用戶完整地觀看了一個15秒的短視頻,與觀看3分鐘視頻的2分鐘相比,這并不一定意味著更感興趣。CWT通過模擬假設的“假設”場景來解決這個問題——如果視頻時長不是限制因素,估計用戶會在哪里停止觀看。
CWT將視頻時長的直接影響(希望去除的偏見)與其間接影響(關于用戶偏好的真實信號)分開。它沒有假設觀看時長和視頻時長之間存在線性關系,而是將觀看視頻視為一種經濟交易,用戶投入的時間和注意力來獲得感知到的娛樂價值。這種方法估計每個用戶的自然停止點,而不考慮視頻的實際時長。
在大規模的實際應用時,CWT通過平衡用戶之間的短視頻和長視頻內容,顯著提升了推薦系統的整體質量。然而,它需要仔細調整反事實估計,并假設合理的用戶行為,而這些假設可能并不總是準確的。此外,該方法還增加了一些計算復雜性,盡管其可行性已在生產環境中得到了證明。
CWT通過結合行為經濟學和機器學習技術來應對推薦系統中的復雜挑戰,展示了其強大的能力。通過跨學科的視角重新審視用戶參與度,這種方法為解決時長偏見提供了令人信服的解決方案。
基于分位數的時長感知方法
基于分位數的方法對用戶如何與不同長度的視頻進行交互進行建模,已經成為解決視頻推薦中時長偏見的有效解決方案。這些方法不是將觀看時間或完成率作為成功指標,而是分析用戶觀看模式在視頻時長范圍內的全面分布情況。這可以進行更準確的比較,并確保推薦反映真正的用戶參與度水平。
該領域的一個關鍵創新是基于時長去混雜的分位數(D2Q)框架,該框架將視頻分成時長組,并學習回歸模型來預測每個組中的觀看時長分位數。這使系統能夠理解,例如觀看30秒視頻中的15秒與觀看3分鐘視頻中的15秒代表不同的參與程度。通過將視頻分組并分析其獨特模式,D2Q有效地減少了視頻時長的混淆效應,同時保留了用戶行為的洞察力。
在此基礎上,觀看時間增益(WTG)指標將用戶的觀看時間與相似時長的視頻的平均觀看時間進行比較。例如,如果用戶通常觀看60秒視頻中的40%,那么已經觀看50%的用戶就會獲得積極的WTG,這表明無論絕對觀看時間有多長,用戶參與度都高于平均水平。
例如條件分位數估計(CQE)等更先進的技術,通過估計分布中的多個點來模擬觀看時長預測中的不確定性。例如,1分鐘的視頻只觀看10秒的概率為30%,觀看10~30秒的概率為50%,觀看更長時間的概率為20%。這種細致入微的理解有助于更有效地捕捉不同的用戶參與模式。
去偏多語義提取標簽(DML)是另一種具有前景的方法,它直接解決了事件標簽創建過程中的時長偏見問題。通過應用因果推理,該方法生成固有地考慮視頻時長影響的訓練標簽,從而消除了復雜的后處理或額外模型架構的需求。
這些方法在主要平臺上的離線評估和實際A/B測試中都展示了令人印象深刻的結果。它們的好處包括不同長度視頻的更平衡的推薦,更好地代表真實的用戶偏好,更公平地對待內容創作者,以及改進的用戶參與度指標。
然而,實施這些方法也面臨著一些挑戰,例如定義適當的時長桶以及管理實時分位數估計的計算開銷。盡管存在這些復雜性,但它們在處理視頻時長與用戶參與度之間復雜關系方面的能力使其成為現代推薦系統不可或缺的工具。
多目標優化
多目標優化已經成為解決視頻推薦系統中時長偏見的有效策略,同時保持高用戶參與度。最近的研究強調了從互補的角度解決這一挑戰的三種創新方法。
VLDRec引入了一個雙目標框架,同時優化原始觀看時間和視頻完成率。通過同時考慮這兩個指標,該系統能夠識別出真正吸引人的內容,而不受時長限制。例如,一個被完整觀看的2分鐘視頻,可能比用戶通常在3分鐘后放棄的10分鐘視頻排名更高,即使后者累積了更多的原始觀看時間。
SWaT采用一種更細粒度的方法,將視頻劃分為時長桶,并在每個桶中分別建模用戶行為模式。這使得系統能夠更公平地比較用戶參與度——例如,將一個5分鐘的視頻與其他5分鐘的視頻進行比較,而不是與所有時長進行比較。該框架明確地模擬了不同的用戶觀看行為,例如順序觀看和隨機搜索,生成了比原始觀看時間更豐富的參與信號,以實現更平衡的推薦。
LabelCraft通過自動標簽生成來解決這個問題,并將其表述為一個雙層優化問題。該方法學習生成訓練標簽,幫助推薦模型針對多個指標進行優化,包括觀看時間、明確的用戶參與度(例如點贊或分享)和用戶留存率。通過平衡這些目標,LabelCraft確保推薦不僅引人入勝,而且多樣化和以用戶為中心。
這些方法的共同之處在于,它們成功地實現了對視頻時長這一關鍵信號的平衡考量,避免了其過度主導推薦過程的情況。它們并沒有完全去除時長的影響,而是將其與其他指標整合在一起,以產生一個公平而有意義的內容排名。實證研究結果表明,這些方法在關鍵指標(包括用戶留存率、公平性和用戶參與度)上始終優于單一目標基準。
然而,多目標優化引入了一些復雜性,例如確定每個目標的適當權重以及確保多個競爭目標下穩定的訓練動態。VLDRec和SWaT使用謹慎的規范化策略來解決這些挑戰,而LabelCraft采用動態平衡方案。計算效率是另一個考慮因素,因為優化多個目標會占用大量資源。諸如基于桶的歸一化(SWaT)、對抗性訓練(VLDRec)和元學習(LabelCraft)等技術已經被提出來緩解這些挑戰。
對于從業者來說,從更簡單的基于桶的歸一化方法開始可能是一個有效的切入點。在此基礎上,采用更先進的元學習或對抗技術可以帶來更多的好處。除了時長偏見,這些方法還為解決推薦系統中其他形式的算法偏差提供了模板,證明了多目標優化不僅僅是一種工具,而且是在不犧牲用戶參與度的情況下構建公平有效平臺的一種思維方式。
技術挑戰和未來方向
隨著視頻推薦系統的發展,在有效解決時長偏見方面出現了新的挑戰和機遇。以下是研究人員和從業人員需要關注的關鍵領域:
1.多模態信號集成
雖然目前的方法主要關注觀看時長,但現代視頻平臺收集各種用戶信號,例如分享、點贊、評論和留存模式等,這些信號均受到視頻時長的影響。例如,短視頻因其快速消費的特性往往獲得更多分享,而中等長度視頻的留存率可能與極短或極長內容有所不同。未來系統需要智能地整合這些信號,考慮到時長如何獨特地影響每個指標,而不僅僅依賴于觀看時長。
2.擴展規模的挑戰
隨著數以百萬計的用戶和不斷發展的內容庫,消除時長偏見的計算需求極為龐大。解決這個問題需要高效的近似算法、分布式計算策略和方法來降低問題的維度,同時保持有效性。
3.跨平臺的適應性
每個視頻平臺提供不同類型的內容和用戶行為。穩健的去偏方法必須適應這些變化,而不需要完全重新設計。這可能涉及針對平臺特定內容分布量身定制的靈活時長桶,跨平臺共享見解的可轉移學習模型,以及與獨特平臺目標相一致的可定制目標函數。
4.內容冷啟動問題
當考慮到時長偏見時,很少甚至沒有用戶參與度數據的新內容構成了獨特的挑戰。傳統的冷啟動解決方案可能無法確保在時長組內進行公平比較。未來的解決方案可能包括使用內容特征的更好的初始化策略、快速學習方法以快速建立可靠的基于時長的分位數,以及在冷啟動和成熟內容之間無縫轉換的混合模型。
解決這些挑戰將確保視頻平臺能夠提供公平和引人入勝的個性化推薦,同時跟上用戶行為和內容多樣性的發展趨勢。
結論:實現生產系統的最佳實踐
1.定期監測時長偏見指標
持續跟蹤不同視頻時長桶的原始和標準化用戶參與度指標,以便盡早識別系統偏差模式。例如,如果短視頻突然在推薦中占主導地位,這可能意味著需要調整消除偏見策略。構建和使用健壯的監控工具來適應不斷變化的用戶行為和內容趨勢,確保系統隨著時間的推移保持有效。
2.采用漸進式去偏方法
避免試圖一次性消除所有視頻時長的影響。從簡單的策略開始,例如基于桶的歸一化,它根據時長對視頻進行分組,以便進行更公平的比較。隨著時間的推移,基于數據洞察力和A/B測試來完善這些方法。增加的復雜性應該通過關鍵指標的明顯改進來證明。
3.培養創作者的透明度
這些方法為創作者提供關于視頻時長如何影響內容分發與性能的清晰洞察與指導。這使他們能夠制作高質量、引人入勝的視頻,從而增強整體內容生態系統。定期評估去除偏見對用戶參與度和創作者公平性的影響,努力在不損害任何一方的情況下實現平衡。
原文標題:Duration Bias in Video Recommendations: A Complete Guide to Fair Content Ranking,作者:Amey Porobo Dharwadker