成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

你以為Youtube還只是個簡單的視頻網站?

開發
本論文根據典型的兩階段信息檢索的二分法(two-stage information retrieval dichotomy)分為兩部分:首先,我們詳細描述了一種深度候選生成模型(deep candidate generation model),接著描述了一種分離的深度排名模型(deep ranking model)。

YouTube所使用的推薦系統是現在最大規模的、最先進的業界的推薦系統之一。在這篇論文中,我們在較高層面上描述這個系統,并重點關注了深度學習所帶來的巨大的性能提升。

本論文根據典型的兩階段信息檢索的二分法(two-stage information retrieval dichotomy)分為兩部分:首先,我們詳細描述了一種深度候選生成模型(deep candidate generation model),接著描述了一種分離的深度排名模型(deep ranking model)。通過設計、迭代、維護一個帶有巨量面向用戶的影響的巨型推薦系統,我們還提供了實用的經驗教訓和見解。

系統概述

我們的推薦系統的整體結構如圖2所示。系統由兩個神經網絡組成:一個用于候選生成,一個用于排名。其中候選生成網絡從用戶的YouTube活動歷史中提取事件作為輸入,然后從一個大的視頻庫中檢索出一個小數據集(上百個視頻)。這些候選被認為通常與用戶有很精準的相關性。這個候選生成網絡僅通過協同過濾(collaborative filtering)提供廣泛的個性化。用戶之間的相似性可以通過粗粒度特征(例如視頻觀看的ID、搜索查詢單詞以及人口特征統計)表達。

一個推薦列表中出現的一些「最好」的推薦需要一種良好的表征,以在具有高召回率(recall)的候選集中區分相對的重要性。排名網絡通過使用一個描述視頻與用戶的特征集合的期望目標函數來給每個視頻打分,從而完成排名的任務。根據它們的得分,然后將最高分的視頻展現給用戶。

兩階段的推薦方法允許我們從一個很大(數百萬)的語料庫中進行推薦,與此同時還仍有在設備上出現的少量視頻是個性化的吸引用戶的內容。此外,這個設計能夠和其他源生成的候選進行混合,例如在這一項早期工作[3]中描述的。

在開發過程中,我們廣泛地使用了非網絡的指標(準確度、召回率、ranking loss)來引導我們的系統的迭代改進。然而,為了最終測定一個算法或模型的效果,我們依靠于通過實時實驗進行A/B測試。在一個實時實驗中,我們能度量在點擊率、觀看時間與許多度量用戶參與度的指標中不易察覺的變化。這是非常重要的,因為實時A/B測試結果不總是與離線實驗有相關性。

圖2:推薦系統架構:候選視頻通過「漏斗」狀的流程從大量視頻中被檢索出來并進行排名,然后再將其中一小部分展示給用戶。

圖3:深度候選生成模型架構:嵌入的稀疏特征是和稠密特征連結在一起的。在級聯(concatenation)將可變大小的稀疏ID轉換成適合隱藏層輸入的固定寬度的向量之前,嵌入被取了平均。所有隱藏層是全連接的。在訓練中,使用取樣的softmax的輸出之上的梯度下降對交叉熵損失進行最小化。在服務中,用一個近似最近鄰(approximate nearest neighbor)查詢生成數以百計的候選視頻推薦。

圖4:對于一個給定的視頻,模型用樣本年齡(example age)作為一個特征訓練,能夠精準表達出數據中的上傳時間和依賴時間的受歡迎程度。如果沒有這一特征,該模型會在訓練窗口近似地預測平均似然(average likelihood)。

圖5:給模型選擇標簽和輸入上下文對離線評估來說很有挑戰性,但是對實時性能有巨大的影響。如圖,實心圓點?是網絡的輸入特征,空心圓點?是被去除的。我們發現在A/B測試上預測未來觀看(5b)的表現更好。如5b所示,樣本年齡表示為tmax ? tN,其中tmax是訓練數據中的最大觀測時間。

圖6:描繪了嵌入的分類特征(包括一價特征和多價特征)的深度排名系統架構,這些特征帶有共享的嵌入和規范化的連續特征的乘冪。所有層都是全連接的。在實踐中,需要給網絡饋送數百個特征。

結論

我們描述了我們用于推薦YouTube視頻的深度神經網絡架構,劃分為兩個不同的問題:候選生成與排名。

我們的深度協同過濾模型能夠吸收很多信號并使用深度的層對它們的交互進行建模,其性能優于YouTube原來使用的矩陣分解方法。比起科學,選擇推薦的代理問題(surrogate problem)更像是一門藝術;而且我們發現通過獲取不對稱的聯合觀看行為(co-watch behavior)和預防未來信息的泄露,對未來觀看的分類可以在實時評估中表現良好。抑制來自分類器的判別信號也是獲得好的結果的關鍵,否則模型將會對代理問題過擬合,不能很好地轉換到主頁。

我們發現使用訓練樣本的年齡作為輸入特征,移除了相對于過去的固有偏差(bias),并允許模型表達受歡迎視頻的時間依賴行為。這種改進的離線保持了精確率,同時在A/B測試中顯著地增加了最近上傳視頻的觀看時間。

排名是更經典的機器學習問題,但是我們深度學習方法在性能上超過了之前對觀看時間預測的線性與基于樹的方法。推薦系統尤其受益于用戶過去和事物之間的行為這樣專門的特征。深度神經網絡需要對類別和連續特征的特殊表征,我們對其分別使用嵌入與分位數標準化(quantile normalization)進行變換。我們發現深度的層可以有效地對數百個特征的非線性交互建模。

邏輯回歸(Logistic regression)根據給訓練樣本賦予權重進行修改,其中給觀看時間正樣本,沒有觀看的是負樣本,從而讓我們可以學習接近模型預期觀看時間的幾率。這種方式相比于直接預測點擊率,可以在觀看時間權重排名評估指標上表現得遠遠更好。

責任編輯:武曉燕 來源: 機器之心
相關推薦

2012-12-11 09:45:39

JustinTV實時視頻網站

2024-04-10 07:56:38

前端數組uniq

2022-08-19 10:27:39

系統模型

2009-05-22 18:51:23

2011-08-18 14:23:52

Big Data

2019-03-29 08:46:46

4G5G網速

2013-04-12 09:38:17

大數據視頻網站

2011-02-13 09:49:48

思科服務器統一計算系統

2021-01-29 17:29:15

網絡導航電腦

2010-01-06 11:40:16

木馬阿凡達

2022-05-10 09:38:46

加密貨幣詐騙網絡安全

2021-03-12 08:36:27

微服務分布式單體

2009-12-10 16:27:16

華碩服務器視頻網絡

2014-05-19 15:06:21

帝聯CDN舌尖上的中國

2022-04-28 21:53:52

TypeScriptany類型

2010-01-15 20:20:37

世紀互聯CDN

2021-01-26 00:30:05

HTTPSWordPress網站網站安全

2012-05-08 08:55:56

2015-07-13 09:19:26

云計算云服務云應用

2011-09-27 07:26:33

程序員
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产成人综合网 | 综合网视频 | 99精品国产在热久久 | 国产成人免费视频网站视频社区 | 亚洲精品一区中文字幕乱码 | 国产精品伦理一区二区三区 | 四虎海外 | 狠狠久久综合 | 免费一区二区三区 | 亚洲黄色片免费观看 | 亚洲男人天堂av | 国产乱码久久久久久一区二区 | av在线一区二区三区 | 久久在视频 | 黑人巨大精品欧美一区二区免费 | 成人精品一区二区 | 中文字幕视频在线观看 | 亚洲毛片在线观看 | 亚洲精品一区二区网址 | 久久com| 国产中文字幕在线 | 一区二区三区影院 | 亚洲欧美日韩国产综合 | 国产一区二区在线免费观看 | 欧美一区不卡 | 亚洲一区二区在线视频 | 激情一区 | 色永久 | 97国产精品视频人人做人人爱 | 国产精品1区 | 色综合久久久久 | 午夜影院在线免费观看视频 | 精品亚洲视频在线 | 久久33| 欧美精品中文字幕久久二区 | 青青久在线视频 | 天堂色 | 日本精品视频一区二区 | 日本精品久久久久久久 | 久久av网| 久久精品免费观看 |