成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

達觀數據中國電信分享實錄:推薦技術介紹

企業動態
3月下旬,中國電信大數據技術團隊邀請達觀數據技術團隊前去進行技術交流和互相學習。達觀數據聯合創始人文輝就“視頻推薦技術”進行了詳細的講解,主要從達觀推薦系統開發的概況、推薦系統的架構模塊和達觀推薦算法來闡述,并針對操作中出現的問題分享了自己的觀點。

 3月下旬,中國電信大數據技術團隊邀請達觀數據技術團隊前去進行技術交流和互相學習。達觀數據聯合創始人文輝就“視頻推薦技術”進行了詳細的講解,主要從達觀推薦系統開發的概況、推薦系統的架構模塊和達觀推薦算法來闡述,并針對操作中出現的問題分享了自己的觀點。

[[187039]]

 推薦系統概況

說了那么多遍的推薦系統到底是什么且如何運用?很高興和大家分享下經驗。我們今天主要從視頻推薦技術來延伸學習。互聯網技術和社會化網絡發展加速度,每天有大量包括博客,圖片,視頻,微博等等的信息發布到網上。對于以視頻為主要流量導向的企業越來越難以發現用戶對信息的需求,原因有多種,用戶很難用合適的關鍵詞來描述自己的需求,又或是用戶無法對自己未知而又可能感興趣的信息做出描述。我們開發視頻推薦引擎,也是以大數據技術幫用戶獲取更豐富,更符合個人口味和更加有意義的信息。

 

[[187040]]

視頻推薦系統會根據用戶的觀看記錄和行為,利用機器推薦算法為用戶推薦其感興趣的視頻。智能推薦系統是為了解決千人一面的問題,防止用戶看到的推薦結果都是千篇一律的,真正實現千人千面的個性化推薦效果,給用戶更好的體驗,給平臺更好的留存和收益。

達觀視頻智能推薦系統的研發目標集中在以下方面:

l 推薦結果相關性明顯提升

l 推薦結果的多樣性提升

l 推薦結果的時效性提升

l 新穎的推薦理由自動生成功能

以上研發目標都是為了使視頻推薦效果更加準確、及時,現經不斷優化已經完成所有目標,但系統還在持續優化升級。

從系統的效果上來看,我們要實現:

l 更完整的挖掘數據

l 多種優質推薦算法

l 完善的系統:可靠性,運算性能

l 更好的接口封裝:支持多種終端的接入

從系統的組成上來看,系統主要包括以下幾個方面,注意各個部分的功能不是單一和互斥的:

l 分布式推薦模塊——用戶點擊行為挖掘

l 離線推薦模塊——多個推薦算法合并

l 在線推薦模塊——實時推薦請求和計算

l 個性化推薦模塊——用戶興趣深度挖掘

l 推薦理由挖掘模塊——多種形態的理由

達觀視頻推薦系統不同于其他企業的部分是,從類型上來看相當多樣化,分為個性化推薦、相關視頻推薦和熱門視頻推薦三種,每種類型對應了不同的業務場景。

個性化推薦“想你所想”

深入分析用戶行為記錄,挖掘用戶的興趣愛好,向用戶推薦其感興趣想看的視頻,通常意義的推薦默認就是個性化推薦;

相關視頻推薦“豐富擴展”

通過深入分析網站視頻之間的內在相關性,根據當前被瀏覽的某個視頻為用戶推薦其視頻;

熱門視頻推薦“廣而告之”

為網站提供全站熱門視頻排行榜和分類熱門視頻排行榜

推薦系統的架構和模塊

三層模型

為了解決待推薦item數量巨大和優先的計算資源之間的矛盾,同時將更多的資源投入到熱門item的深度挖掘,我們引入了三層模型:離線模塊(offline)、近線模塊(nearline)、在線模塊(online)。離線模塊利用分布式平臺上進離線挖掘,候選推薦結果每日帶入離線計算服務器;近線模塊在近線端進行挖掘,結合用戶實時行為和離線模型結果,生成用戶的推薦結果;在線模塊負責整合離線結果和近線結果為最終輸出用戶的結果。從時效性上來看,離線(天級)>近線(分鐘級或者秒級)>在線(毫秒級),從效果上來看離線好于近線,近線好于在線。三層模型更好解決了新視頻和新用戶的無推薦結果的問題。

分布式的挖掘模塊,會生成一些推薦的候選集,其中包括熱門挖掘模塊、推薦理由挖掘模塊、內容系統挖掘模塊。這些離線系統生成的挖掘結果會響應的存入到hdfs或者db中;

離線計算模塊,會對這個結果進行再次加工,包括合并、融合等,其中可能還有處理業務的邏輯。離線模塊對這些結果進行再次加工之后,最終的推薦結果,會存到一個redis db中; 

 

online模塊就會直接從我們redis的是slaver中直接去讀取推薦結果,快速返回推薦內容。

從接口層來看,推薦服務是以HTTP API的方式來提供服務,接口后端包括多機的負載均衡,并支持各終端通用(Web/Android/iOS…)各端接入,同時提供多種推薦類型:個性化推薦、相關推薦、熱門推薦。

推薦候選池candidate模塊會生成多種類型的推薦結果,比如使用標簽去倒排中查出一部分的結果,協同過濾的結果、熱門的一些結果,包括分類熱門和編輯推薦結果,也會作為我們推薦的候選池。

正反饋數據是線上推薦結果的用戶反饋,比如在推薦列表中,我們會發現某些排序在后的結果好于排序在前的結果,那么這部分結果也可以作為推薦候選。

推薦候選池就是最終生成推薦結果的候選池,最終的推薦結果就是從候選池中篩選得到的。

視頻推薦相關視頻模塊,該模塊的輸入就是需要處理的一些視頻ID隊列,從輸出來看就是每個視頻的相關推薦結果。比如每個視頻都預存了64個推薦結果,存儲到redis中,當redis緩存不能***時,可調用online模塊實時計算,解決冷啟動的問題。

features模塊其實就是一個正排找視頻信息的功能,根據視頻ID去獲取其一些基本信息,包括標題、描述、標簽、點擊數、前后綴。

Ranking模塊是權值計算和排序的模塊,此模塊是對候選結果視頻權值進行再次計算,一些不合格的視頻我們需要剔除。對于推薦視頻的相關性,我們可能要進行加權,某些優質用戶的視頻也要進行加權。

Filtering視頻過濾:UGC上傳的視頻時長很短,許多視頻間標題又很類似,這就存在大量重復資源,所以我們推薦結果也要過濾推薦結果中相同的視頻進行去重,去重會讓用戶的體驗更加友好。

Reranking排序后處理,對返回給用戶的推薦結果進行一個ranking,也就是說,我們給用戶推薦的10個推薦視頻的同時,還要保證視頻質量和多樣性。

Reranking具體策略包括從推薦理由、視頻類別還有推薦效果各個方面把推薦結果順序打散,不至于連續多個推薦結果都是通過某個標簽推薦的。

實時用戶行為反饋:特別針對一些新用戶,我們會及時捕捉新用戶的行為,隨后更新用戶的用戶畫像,然后去優化推薦效果。

如果一個用戶點擊了A視頻和B視頻,又看了C視頻,在C視頻的“猜你喜歡”推薦結果中,已使用了A、B視頻的特征。雖然A、B、C這3個視頻本身可能沒什么關聯,因為用戶的喜好都不是單一的。

Feedback點擊反饋:用戶會對推薦結果會有點擊或者其他行為,那么根據這些行為,就可以優化推薦結果的排序。但點擊反饋也存在一些困難點,包括位置偏向、技術性點擊作弊和感知相關性。其中,位置偏向問題比較普及。

開源技術:使用hadoop或spark等分布式計算平臺進行離線數據挖掘,采用HBase進行視頻信息和用戶行為存儲,使用redis來存儲推薦結果,利用Redis的主從同步技術實現多機高可用方案,還有采用Tornado作為Http Interface的接口調用API。

推薦算法

1

熱門算法門算法

最簡單是對item的單一維度的評分,比如視頻播放數、視頻上傳時間、視頻評論數,接著會對單一維度進行升級,便會考慮多個維度的綜合評分。比如多個維度的線性加權得出分后再進行排序,同時在計算這些評分過程中,需要考慮這些物品的時間因素,對一些時效性較強的item,會根據它的時間新舊進行篩減。

按照點擊率進行排名時,還需要考慮它的置信度。比如說同樣是1%的點擊,10000次展現里的100次點擊的物品,它的1%的點擊率自信度肯定要大于100次展現里的僅有1次點擊的item的置信度。可以考慮用威爾遜區間的方法對這些物品的ctr進行降權。***則要防止馬太效應,要考慮推薦多樣性和效果平衡。

2

內容算法

根據視頻類的標題,基于文本挖掘技術,挖掘出視頻的關鍵標簽。比如短視頻標題:“美國泥瓦匠辣舞走紅網絡擺臂扭臀電力十足”,通過達觀文本挖掘技術可以自動提取出此視頻最主要的兩個標簽,“泥瓦匠”和“辣舞”,作為這個視頻的Top2標簽。這里要注意視頻的屬性特征不僅僅包括標簽,還包括系列視頻、作者賬號,視頻類別等。

內容算法如何應用于相關推薦和個性化推薦?

在相關視頻推薦這部分,我們得到視頻的特征向量,比如視頻的作者、類別、標簽之后,就可以用這些特征去我們倒排索引中進行搜索和匹配,那么查出來的結果就能作為相關推薦的結果。

 內容算法應用于個性化推薦,會比相關推薦多一走步。我們會生成用戶的profile向量,就是用戶模型的向量。這個向量會計算用戶對類別、標簽、作者的一個偏好,通過用戶的向量和視頻的向量,計算這兩個向量的(余弦)相似度,那么就可以得到用戶對視頻的得分。

3

協同過濾算法

協同過濾算法利用群體智慧為用戶進行推薦,對于視頻來說就是看了又看。

 

比如上圖,我們可以看到1號視頻和5號視頻,會經常同時出現在很多用戶的觀看記錄中,那么用戶在觀看了1號視頻后,為其推薦5號視頻則會是非常合理,也非常容易讓用戶進行點擊。

協同過濾算法的輸入是用戶的播放行為日志,需要注意的是對日志的預處理。比如一個用戶對一個視頻有多次播放記錄的話,則需要進行排重,只保留一個用戶對一條視頻的唯一一條播放記錄。

 

 

協同過濾算法具體的計算流程:

比如:計算A視頻和B視頻,包括兩個視頻播放的單天頻次、歷史頻次、單天共現(單天同被觀看的就是單天共現,也就是說都被同一個人所點擊所觀看的用戶數。)、歷史共現(歷史貢獻是指歷史上A視頻、B視頻都被同一個用戶所觀看的用戶數),計算出此4個指標后,就可以計算出A視頻和B視頻的關聯度、相似度。

同時在計算相似度的時候,我們還需要考慮時間因子,需要對歷史共現的數據和歷史頻次的數據進行降權,要更加側重于新數據的影響力。

4

用戶建模

用戶建模架構圖主要包括三個部分,用戶數據的采集和預處理,數據統計和特征提取、智能挖掘分析。

***部分包括用戶行為數據的采集,同時對不合法的數據、爬蟲數據等進行過濾等,形成基礎數據;第二個部分為數據統計和特征抽取模塊,會從基礎數據里對用戶的行為特征進行抽取,還有一些基礎特征、統計特征,對這些特征抽取完畢之后,有一個智能挖掘分析模塊對這些特征數據進行深入的挖掘,利用機器學習分類技術預測用戶的人口統計學屬性、挖掘用戶長期偏好、短期偏好。

 

 

用戶偏好挖掘,也就是對用戶興趣的挖掘,包括用戶對視頻作者、視頻類別和視頻標簽的偏好。在計算這些偏好時,我們也要同時考慮它的支持度和置信度。比如一個用戶在最近一周內看了10個關于足球的視頻,同時在這一周內,我們所有的用戶平均觀看足球視頻的個數只有0.5個,那么可以明顯看出這個用戶對足球類別的偏好遠遠超出平均水平。

5

多策略融合

融合策略會在所有算法生成推薦結果后,比如內容算法、協同過濾、矩陣分解等單算法結果,對所有結果進行策略合并,可能也會考慮一些業務邏輯規則。

 

機器學習重排序的方法可以對這些推薦結果進行重排,使用系統的正反饋和負反饋的數據去進行訓練。訓練完畢后,我們會預測用戶對推薦結果的概率,排序后生成最終展現給客戶的視頻推薦列表,經過一系列算法融合后的推薦列表,用戶對推薦視頻的點擊率會比之前提升3倍。

 

 

在接入我們視頻推薦的客戶當中,推薦視頻的點擊率是達到翻倍甚至3倍以上效果,這都跟我們以上講的所有框架、算法息息相關,實踐是檢驗真理的唯一標準,我們多年的實踐開發,實踐應用,都說明了達觀開發的系統能在推薦領域得以很好的應用,我們也將一直在推薦領域不斷學習鞏固。

Q&A

Q:視頻推薦系統的應用場景?

A:類似于酷六、今日頭條視頻頁面,由UGC上傳的短視頻或長視頻,以視頻信息流方式或個性化信息流展示的方式,都可以應用視頻推薦系統。

Q:位置偏向問題是指什么?

A:是指一個排在前面視頻的點擊率高于排在后面視頻的點擊率,并不一定是指是前面視頻推薦效果好于后面視頻,而只是因為位置的關系。因此,在用點擊行為對推薦結果進行反饋時,要考慮位置偏向問題。

Q:Tornado是什么意思?

A:python版的http server,它支持異步,不僅輕量而且性能很好。

Q:協同過濾算法中,歷史數據和新數據如何計算權重?

A:可以進行線上的A/B測試,比如人工先設置某個值,然后在線上的測試中看效果,進行人工調參。這個權重原則上是可以根據業務調整的,比如對于短視頻強調時效性,那么歷史數據的權重就可以小些;比如對于小說時效性不強,歷史數據的權重就可以大一些,一般新數據的權重都是1,歷史數據的權重在(0,1)之間。

Q:能否分享下多年的推薦系統相似工作經驗?

A:做數據挖掘、做推薦系統好多年,一些經驗告訴我們要有效提升,基本上百分之五十的精力都在做數據預處理,但是數據預處理的工作都是屬于臟活累活,但要把數據預處理做好,后面這些算法效果才能事半功倍的,拿到數據后去重、去燥,然后清洗、結構化等等。

還需要很多工作,像自然語言處理,它在很多項目推薦系統跟用戶畫像里都起到非常重要的作用。而用戶畫像又分為靜態用戶畫像和動態用戶畫像,動態用戶畫像比靜態用戶畫像更直接一些。這些都需要認真專業的團隊去研究不斷開發。 

[[187041]]

責任編輯:Jane 來源: 互聯網
相關推薦

2011-01-21 18:06:13

華為1588v2時鐘

2021-03-09 10:10:23

中國電信ZStack

2011-01-18 13:16:56

2013-08-21 15:02:09

NECExpressClus

2011-12-09 12:07:53

電信

2013-06-26 09:39:26

云平臺云資源管理ERP

2013-11-05 13:46:39

中國電信天翼開放平臺數字應用

2013-02-01 18:18:43

Windows Ser中國電信案例

2009-08-31 16:12:41

中國電信軟件商店

2010-12-27 14:02:53

2012-10-23 13:14:43

2013-12-31 15:46:22

微模塊數據中心中國電信數據中心

2013-11-18 14:03:17

世界通信展中國電信4G

2011-10-13 12:33:23

電信Wi-Fi

2010-06-04 15:30:09

電信設備印度

2010-08-20 12:00:46

印度電信設備

2011-09-08 12:19:29

2015-06-12 14:42:05

微軟Windows Azu中國電信

2009-03-26 09:41:21

中國電信斷網

2010-06-10 23:10:48

中國電信華為
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕第90页 | 国产激情福利 | 青青草这里只有精品 | 天堂久久天堂综合色 | 欧美成人免费在线 | 日日天天 | 国产精品久久久久久吹潮 | 高清免费在线 | 日韩免费一区二区 | 亚洲日韩中文字幕一区 | 国产亚洲一区在线 | 亚洲精品片 | 欧美一区不卡 | 成人av一区| 一区二区三区网站 | 国产精品免费一区二区三区 | 午夜精品福利视频 | 中日av| 中文字幕日本一区二区 | 国产激情视频在线 | 99热都是精品 | 97伦理影院 | 久久不卡 | 久操福利 | 亚洲精品免费视频 | 午夜电影一区二区 | 四虎永久免费影院 | 成人综合伊人 | 狠狠色综合久久丁香婷婷 | 亚洲在线免费 | 91看片免费 | 亚洲国产精品一区二区www | 国产98色在线 | 国外成人在线视频网站 | 亚洲视频二区 | 国产亚洲精品久久午夜玫瑰园 | 久草中文在线 | 在线观看你懂的网站 | 日韩av一区二区在线 | 九九九久久国产免费 | 精产国产伦理一二三区 |