如何破解YouTube視頻推薦算法
如果你是某個發行渠道(比如電影、戲劇、電視節目、網絡視頻)的內容工作者,那么內容的成敗就取決于發行機制的運轉邏輯。比如說,你制作了一檔電視節目,你很想它能火起來,那么你就得知道該在哪里切入廣告,怎么宣傳節目,上哪個頻道播放,所選的頻道能被多少家庭收看,等等,諸如此類。
如果你的發行渠道是YouTube,那么你最應該搞清楚的是YouTube的算法是怎么工作的。然而,全天下所有由算法來運營的平臺,要搞清楚這一點那不是一般的困難。
YouTube沒有把他們算法用到的變量公之于眾。要搞清楚其算法的運轉原理,即使數據很有限,我們也得對這個大大的黑盒子一探究竟。有些算法倚重的變量,我們是一點數據也拿不到的(比如縮略圖,標題印象,用戶訪問歷史,用戶行為,會話信息,等),如果能拿到這些數據,那等于就是把YouTube的算法脫光了讓我們看,然而呢,呵呵噠,并沒有。
看起來我們啥都沒有,但還是想盡可能用手上這點數據大致搞清楚其算法邏輯。所以,我的前同事(為什么是“前”同事呢?因為我最近從Frederator離職啦,哇咔咔)Jeremy Rosen花了半年時間分析Frederator自己掌握和運營的頻道數據,想搞清楚YouTube的算法。
開始之前,先明確一下:這篇文章內所指的算法包含多個YouTube增長類算法(為你推薦(Recommended),建議觀看(Suggest),相關視頻(Related),搜索(Search),原始評分(MetaScore),等等)。這些不同的算法產品,各有側重,但有一個共同點,那就是它們的優化目標相同,都是觀看時長(Watch Time)。
觀看時長
先要說清楚的,“觀看時長”并不是說觀看過的分鐘數。這個概念我們之前也討論過[1],觀看時長由以下指標構成:
- 訪問次數
- 訪問停留
- 會話開始
- 上傳頻率
- 會話時長
- 會話結束
本質上以上每一項都關系著頻道以及頻道的視頻表現好壞,人們是不是經常來訪問(開始一次頁面訪問的會話)以及是不是停留很長時間。
要在算法那里積累下任何變量的取值,你的頻道和視頻首先得有人來訪問你才行。一個視頻要成功(成功定義為訂閱者中超過一半的人在前30天訪問過)需要視頻發布的前幾分鐘、前幾小時、前幾天內得到大量的訪問,我們把這稱之為訪問速率( View Velocity)
訪問以及訪問速率
我們分析Frederator的訪問速率,發現整個生命周期內累計訪問次數與前48小時內訂閱用戶訪問百分比呈指數關系。
48小時內訪問的訂閱用戶百分比與得到的平均訪問次數
基于這個觀察,我們稍微深挖了一下,發現用這個速率規律去預測一個視頻是否會成功,可以做到92%的準確率。其實,還存在一個更直接的相關性:72小時內訪問的訂閱用戶百分比,與視頻整個生命周期的累計被訪問次數之間。
72小時內訪問的訂閱用戶百分比與整個生命周期內累計的訪問次數
這兩個圖以及相關系數充分說明訪問次數和訪問速率對視頻和頻道有著直接而重要的影響。除此之外,我們還有證據證明這個規律反過來也成立。差勁的訪問速率不但影響這個視頻本身,還影響其上一個和下一個視頻。
下圖說明如果Frederator上一個視頻48小時內訪問速率比較糟糕(少于5%的訂閱用戶訪問),那么接下來上傳的視頻也會受其影響。
訪問了下一個視頻的訂閱用戶百分比與訪問了前兩個視頻的訂閱用戶平均百分比之間的關系
這個數據證實了Matthew Patrick的理論:如果某一個視頻點擊效果不好,那么你的下一次上傳的視頻,YouTube就不會給予太多權重讓它被你的訂閱用戶看到。[2]
也可能是因為上一個視頻表現糟糕,所以訪問你的頻道次數就會減少,自然地就導致更少的訂閱用戶以原生的方式訪問到。不管到底“為什么”,結果反正就是醬紫。
另一個負速率對新上傳視頻的影響就是:有證據表明這還會傷害到你的整個視頻庫。下面的***張圖是視頻上傳48小時內就訪問的訂閱用戶7天平均百分比(譯者注:這7天上傳了若干個視頻,紀錄每個視頻上傳后48小時就訪問的訂閱用戶百分比,然后取這些百分比的平均值)與頻道總訪問次數(譯者注:反應了整個視頻庫的效果)的關系。第二張圖是某一天訪問視頻的總體訂閱用戶百分比與當日的總體訪問次數之間的關系。
七天內的平均“48小時內訪問視頻的訂閱用戶百分比” 與 每日整個頻道視頻訪問總數之間的關系
七天平均訂閱用戶訪問人數 與 總體訪問訪問次數之間的關系
這些圖標都說明一件事:一旦新上傳視頻和整個視頻庫的訪問用戶百分比走低,那么頻道的總體訪問次數也會走低。對于我們來說的啟示是:YouTube算法更看重那些能夠吸引到核心觀眾的頻道,而懲罰那些不能吸引其核心觀眾的。
訪問停留
另一個算法非常看重的指標就是訪問停留(View Duration)。
訪問停留就是用戶會花多長時間停留在單個視頻頁面。這個變量的權重很高,我們的數據中能看到一個明顯的引爆點。Frederator其中一個頻道,前30天內,平均訪問時長8分鐘的視頻,比平均5分鐘的要多350%的訪問量。下圖表明,Frederator的一個頻道的視頻訪問量,與平均訪問停留時長的關系。
整個生命周期內,平均訪問時長和平均訪問量的關系
注意,這里沒考慮訪問時長在八分鐘之上的數據。
我們還發現,訪問停留時長越長,視頻表現越好。下面這張圖是七天內訪問停留時長少于5分鐘的視頻(1),介于五分鐘到十分鐘的(5), 十分鐘以上的(10)分別與訪問量的關系。
七天內平均訪問量與平均訪問停留時長的關系
下面這張圖也是一個意思,不過從7天拉長到整個生命周期內了。
整個生命周期內平均訪問量與平均訪問停留時長的關系
基于這些發現,我們可以得出一個簡單的結論:發布長視頻可以提高訪問效果。Frederator有一個關于兒童樂園的頻道,每周會上傳三到四個不同長度(3分鐘,10分鐘,30分鐘。70分鐘)的視頻,我們發現每個視頻發布后的48小時內,70分鐘視頻的訪問次數遠遠超過其他長度的視頻,哪怕是重發一些炒剩飯的舊視頻。除此之外,70分鐘的視頻和其他版本的視頻有相同的平均訪問停留時長。
于是,我們建議公司每周就只上傳70分鐘長度的視頻就好了。就用了這個策略,頻道日均訪問量增長了50萬,而過去6周里我們上傳的視頻個數卻減少了75%。好了好了,我知道你受刺激了,不要崇拜哥。
會話開始,會話時長,會話結束
能做這篇研究,全都得益于我之前的一篇文章:《觀看時長是個什么鬼》(WTF is WatchTime?)[1]
快速回顧一下,會話開始(Session Starts)就是指用戶有多少次是從你的視頻開始訪問YouTube的。這其實說明了訂閱用戶能在前72小時訪問你是多么重要。訂閱用戶是在視頻發布后最早能看到的你人,他們也是最可能點擊你頻道圖標的人,因為他們已經熟悉你的品牌了。
會話時長(Session Duration)就是你的內容讓用戶在YouTube平臺上逗留了多久,他們訪問你的視頻,以及訪問之后都算是在平臺上逗留。除了用戶平均訪問時長(Average View Duration )和獨立訪問數( Unique Views),也沒有更好的數據了。
會話結束(Session Ends)衡量用戶是不是經常在看完你的視頻后就離開了YouTube平臺。這是算法利用的一個負面指標,但是我們根本拿不到數據。
一則算法理論
YouTube的算法設計時關注的是頻道效果而不是單個視頻效果。但是它要利用單個視頻來提高頻道效果。
算法結合了單個視頻的特定數據和頻道的聚合數據來決定推薦哪個視頻。最終目標仍然是為頻道聚攏其目標觀眾。
YouTube這么做是因為:
1. 讓用戶常常回訪YouTube平臺
2. 讓用戶在平臺停留越久越好
下面有三張圖表來證明這則理論是成立的。
***張圖是48小時內訪問的訂閱者比例與7天內總訪問量之間的關系。這張圖說明,如果開始有大量用戶從你的視頻開始的平臺會話,那么你的視頻就會獲得很大的訪問量。到達一個閾值之后,就會呈指數級增長。
7日內總訪問量與48小時內訪問的訂閱用戶百分比
第二個圖是頻道內日均訪問量與5日內訪問的訂閱用戶百分比的關系。
日均訪問量與5日內訪問的訂閱用戶百分比的關系
這意味著如果能一直讓大量用戶從你開始訪問YouTube(近5天內平均來看),那么算法就會將用戶每日訪問向你整個頻道視頻庫傾斜。
***一幅圖是日均訪問的訂閱用戶百分比與5天內訪問的訂閱用戶百分比之間的關系。
日均訪問的訂閱用戶百分比與5日內訪問的訂閱用戶百分比之間的關系
我們相信這一切都表明,頻道效果的連貫性與訪問量之間存在相關性,訪問量又表現在訂閱用戶訪問百分比,YouTube就會因此把流量傾斜給你。
假如說你有一個游戲頻道,10萬個訂閱用戶,你每天上傳6個視頻,每個視頻有5%的訂閱用戶訪問。你的每個視頻的平均訪問訂閱用戶會穩定在區區5%。這意味你會每天產生30%的訂閱用戶訪問次數(3萬/天,60萬/月)。現在假設你有1百萬訂閱用戶,那么每日訪問次數在30萬,每月在600萬。
我們認為這一段數學運算是不會騙人的。這意味YouTube在根據一些指標選擇一些頻道進行推薦,然后只要算法幫這個頻道提高訪問量。
但,壯士請留步,以上還僅僅是理論上的分析!
一種打分算法
這里我們打算破解YouTube的算法,然后重建一個。用了15個信號量,以及我們估計的權重,來重新構建打分算法。信號量列舉如下:
用來開發打分算法的信號量/因素
下面這些圖是這些信號量實際產生的效果。
三天的算法平均分與訪問量的相關趨勢
算法打分與訪問量的相關性趨勢
下面這張圖更詳細一些。
三天的算法打分均值與每日訪問量
知道你還是很好奇,那下面就揭曉我們模擬出來的各種權重:
各種算法的權重分布模擬
觀看時長優化算法的各信號量權重分布模擬
相關推薦及其他算法的各信號量權重分布
然而但是but,我們也沒有其他數據了,所以我們也不敢肯定在計算相關性時該用哪種回歸方式,也只敢說大多數信號和算法之間很相關,而已。也正因為如此,我們對YouTube算法一直熱情不減。
對YouTube算法的看法
根據我們的數據,至少可以得到6個粗淺結論:
1. YouTube用算法決定了我們的視頻和頻道能得到多少訪問量。
2. 成功的頻道都是專注在特定類型的內容或創意上。
3. 頻道自己一旦明確了哪種類型的內容成功之后,就不要再搖擺了。
4. 內容制作者光靠錢在YouTube平臺上絕無可能成功,因此土豪型的制作者不太會全身心擁抱YouTube。
5. 個性化的節目/頻道會一直是YouTube上面占統治地位的內容類型,因為這就是人們要找的“特定類型的內容”。
6. 新建的頻道,如果不能在YouTube站外導流進去的話,相當長時間內增長都會比較困難。
前面說到,YouTube更注重于提高頻道的訪問效果,這個觀點只是我們推測得到的。頻道能夠上傳很多視頻,從而獲得和留住大量的目標觀眾。如果你想在YouTube上成功,我們能給的建議就是:瞄準一個非常垂直的興趣類型,然后持續去制作10分鐘以上的視頻,一定得是你選定的這個興趣類型的視頻。
我這里是私人博客,需要提醒一下,YouTube可是儲備了大量的算法彈藥啊,也希望他們不把本文視為對算法的負面消息。通過這篇研究,我更加感謝YouTube及其算法工程師們,有預見性地設計了這些算法。畢竟,他們還是想努力讓這個世界上的十億用戶能在一個月內不重樣地觀看視頻。如果你能停下來回頭再整體上審視一下這一切,你會驚嘆于YouTube算法設計如此優雅,在實現商業目標上和保護平臺健康發展上做得難以置信的好。為他們點32個贊!
作者簡介:
Matt Gielen是Frederator Networks的前副總裁, 主管編程和觀眾開發。Matt所管的團隊是世界上***的動畫制作網絡公司,Frederator網絡頻道。
譯后記:
最初看到這篇文章是@fengyoung 在Facebook上分享的,覺得題目很有意思就看了一遍,看完后感覺很有啟發,遂決定翻譯一下讓更多人看到。
這篇文章給我的啟發有三方面:
1. 從YouTube平臺的算法設計人員角度,設計繁多的推薦算法,是為了提高頻道的觀看時長,而提高頻道的觀看時長又是為了讓用戶能夠經常訪問平臺。這是一種雙贏的思維,說白了:誰能幫平臺留住用戶,平臺就重點扶持他。
2. 文章得出結論,要做垂直內容才能在YouTube上活下去。平臺上內容越多樣,平臺越健康,這是毋庸置疑的,盡管我贊同這個結論,但是我沒有在本文中看到作者是如何得到這個結論的。這一點就是YouTube和國內視頻平臺***的差別,國內的視頻平臺嚴重趨同,花高價購買獨家版權似乎是國內視頻平臺的唯一出路,也是一個妖魔化的出路,反觀YouTube,他們利用算法驅使了各個頻道專耕某一個垂直內容,然后把最適合的用戶給你匹配上,這才是更宏大的一盤內容棋。
3. 本文作者給我們了一個啟示,算法并不是黑盒子,是可以hack的,盡管這個也只能hack到冰山一角,但是也比我們盲目地運營要明亮很多了。作者的研究方式,首先是明確了一個平臺的算法目標是什么,YouTube是watch time,那么就去觀察這個目標和哪些指標有關,進一步看到每個指標又能怎么提高。