成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

“算透”用戶,抖音為什么讓人沉迷?_IT技術(shù)周刊第631期

技術(shù)期刊
IT技術(shù)資訊盡在技術(shù)周刊!

 誰不愛看可愛的小狗與頑皮的小貓?特別是在全球受新冠疫情影響而進行全面隔離的當(dāng)下,我們更需要歡樂的視頻來調(diào)劑自己的心情。

但這并不足以解釋抖音為什么能獲得如此之多的青睞。在不到兩年時間里,它從一個只有少數(shù)粉絲的“對口型”應(yīng)用,發(fā)展成今年月均近8億活躍用戶的“病毒式”應(yīng)用。甚至,帶有“新冠病毒”標(biāo)簽的抖音視頻在應(yīng)用中被播放了足足530億次。

 

 

 

▲ 抖音成為2020年1月美國下載數(shù)量最高的應(yīng)用

▲ 抖音全球下載量

 

 

 

抖音最顯著的特色,在于各類洗腦歌曲加上有趣的啞劇式短視頻。

用戶每天平均在這款應(yīng)用上耗費52分鐘,相比之下,Snapchat、Instagram以及Facebook的日均使用時長分別為26分鐘、29分鐘與37分鐘。

▲ Oberlo統(tǒng)計的使用時長報告

此外,這款只支持60秒短視頻的應(yīng)用中還充斥著模因、喜劇、舞蹈及無數(shù)才華橫溢的用戶。憑借著業(yè)內(nèi)最強大的推薦引擎之一,我們無需搜索或擁有明確的訴求,就能很快找到符合自己口味的內(nèi)容。點擊一下,引擎會幫你生成個性化建議。

這種無窮無盡的快速刺激帶來了輕松快樂的使用感受,最終讓用戶沉迷其中、無法自拔。有人將抖音稱為浪費時間的終極殺手,并表示“在抖音上感覺過了5分鐘,實際上已經(jīng)過了1個小時。”

而在今天的文章中,我們將探討抖音如何使用機器學(xué)習(xí)技術(shù)通過交互機制分析用戶的興趣與偏好,并據(jù)此為用戶展示不同的個性化推薦內(nèi)容。

對于數(shù)據(jù)科學(xué)社區(qū)來說,推薦引擎早已不是什么新鮮事物。但由于一直缺少圖像識別或者語言生成等抓人眼球的最新“特效”,不少人傾向于將其劃入傳統(tǒng)AI系統(tǒng)一類。

盡管如此,推薦引擎仍是一類重要AI系統(tǒng),而且?guī)缀醣椴几黝愒诰€服務(wù)與平臺。從youtube視頻推薦、到亞馬遜發(fā)布的廣告郵件、再到Kindle書城中的熱點圖書,一切都是推薦引擎的功勞。

根據(jù)Gomez-Uribe與Netflix公司街道口負責(zé)人Neil Hunt發(fā)表的研究論文,個性化與推薦的綜合作用每年可為Netflix節(jié)約超過10億美元。此外,有80%的訂閱者會從引擎提供的推薦列表中選擇視頻。

那么,抖音的獨門絕技是什么?

 

 

 

1.關(guān)于推薦引擎

 

 

 

[ 如果您對推薦引擎的基本概念已經(jīng)非常熟悉,可以直接閱讀下一章節(jié) ]

目前網(wǎng)絡(luò)上關(guān)于推薦引擎的說明文章及在線課程所在多有,因此這里只給大家提供兩條相關(guān)學(xué)習(xí)資源鏈接:

  • 從零開始構(gòu)建推薦引擎的綜合指南[注1](閱讀時長大約需要35分鐘,重現(xiàn)其中的Python代碼約需要40到60分鐘)

  • 來自吳恩達的推薦引擎指南[注2](視頻時長約1個小時)

除了這些必要基礎(chǔ)之外,工業(yè)級推薦引擎還需要強大的后端與架構(gòu)設(shè)計以實現(xiàn)全面集成。下面來看相關(guān)示例:

 

 

 

▲ 推薦引擎(由Catherine Wang創(chuàng)建,版權(quán)所有)

 

 

 

實時系統(tǒng)應(yīng)具備堅實的數(shù)據(jù)基礎(chǔ)(用于收集與存儲),支持頂端多個抽象層(算法層、服務(wù)層與應(yīng)用層),借此解決不同的業(yè)務(wù)問題。

 

 

 

2.抖音推薦系統(tǒng)設(shè)計原型

“以用戶為中心的設(shè)計”正是抖音的原型核心。簡單來說,抖音只會推薦當(dāng)前用戶喜歡的內(nèi)容,并從應(yīng)用冷啟動開始不斷貫徹這種對用戶偏好的跟蹤與強化。

 

 

 

如果你點開了舞蹈視頻,那么系統(tǒng)會初步將你的偏好定制為娛樂類,而后持續(xù)跟蹤你的行為以進一步分析,最終為你提供高度貼合喜好的精確推薦。

下面說說高級工作流。

 

 

 

▲ 三大核心組件(由Catherine Wang創(chuàng)建,版權(quán)所有)

 

 

 

在抖音的原型體系中,包含三大核心組件:1)標(biāo)記內(nèi)容;2)創(chuàng)建用戶資料與用戶場景;3)訓(xùn)練并提供推薦算法。

下面,我們將具體對這三大組件做出說明。

2.1 數(shù)據(jù)與特征

首先是數(shù)據(jù)。如果用更正式的語言描述推薦模型,那它實際上是一項負責(zé)將用戶滿意度與“用戶生成內(nèi)容”匹配起來的函數(shù)。要實現(xiàn)這個目標(biāo),我們需要從三個維度輸入數(shù)據(jù)。

 

 

 

 

 

 

  • 內(nèi)容數(shù)據(jù)——抖音是一個包含大量用戶生成內(nèi)容的平臺。每種類型的內(nèi)容都有其特征,而系統(tǒng)需要能夠識別并區(qū)分各類內(nèi)容以實現(xiàn)可靠的推薦效果。

  • 用戶數(shù)據(jù)——其中包括興趣標(biāo)簽、職業(yè)、年齡、性別、人口統(tǒng)計信息等等,也包含基于ML的客戶集群內(nèi)潛在特征。

  • 場景數(shù)據(jù)——這部分?jǐn)?shù)據(jù)用于跟蹤用戶在不同場景下的個人偏好變化。例如,用戶在工作、旅行或者通勤時,分別更喜歡看到哪些類型的視頻。

在收集到相關(guān)數(shù)據(jù)之后,系統(tǒng)就會導(dǎo)出四種類型的關(guān)鍵工程特征,并將其輸入至推薦引擎當(dāng)中。

  • 關(guān)聯(lián)特征:表示內(nèi)容屬性與用戶標(biāo)簽之間的關(guān)聯(lián),包括關(guān)鍵字匹配、分類標(biāo)簽、源匹配、主題標(biāo)簽以及用戶與內(nèi)容間矢量距離等潛在特征。

  • 用戶場景特征:根據(jù)場景數(shù)據(jù)進行工程處理,包括地理位置、當(dāng)前時間與事件標(biāo)簽等等。

  • 趨勢特征:基于用戶交互并表現(xiàn)為全局趨勢、熱門話題、熱門關(guān)鍵字、趨勢主題等等。

  • 協(xié)同特征:基于協(xié)同過濾技術(shù),負責(zé)在狹窄推薦(偏見)與協(xié)同推薦(概括)之間尋求平衡。更準(zhǔn)確地說,其不信會考慮單一用戶的歷史記錄,同時還會分析相似用戶組之間的協(xié)同行為(點擊、贊、關(guān)鍵字、主題等)。而推薦引擎模型,將通過學(xué)習(xí)上述特征以預(yù)測特定內(nèi)容在特定場景中是否適合特定用戶。

2.2 隱性目標(biāo)

在推薦模型當(dāng)中,點擊率、觀看時長、贊、評論與轉(zhuǎn)發(fā)等都屬于明確可量化的目標(biāo)。我們可以使用模型或算法對這些指標(biāo)進行擬合,而后做出結(jié)論性的預(yù)測。

但除此之外,還存在其他一些無法通過這些可量化指標(biāo)進行評估的隱性目標(biāo)。

例如,為了維護健康的社區(qū)與生態(tài)系統(tǒng),抖音一直努力控制與暴力、詐騙、色情及謠言相關(guān)的內(nèi)容,希望保證平臺上發(fā)布的內(nèi)容更加貼近事實。
為此,自然需要在可量化模型目標(biāo)之外定義新的邊界控制框架(內(nèi)容審核系統(tǒng))。

2.3 算法

推薦目標(biāo)可以指定為經(jīng)典的機器學(xué)習(xí)問題,而后通過協(xié)同過濾模型、邏輯回歸模型、分解機、GBD以及深度學(xué)習(xí)等多種算法對問題求解。

 

 

 

▲ 協(xié)同過濾示意圖

 

 

 

工業(yè)級的推薦系統(tǒng)往往需要靈活且可擴展的機器學(xué)習(xí)平臺以構(gòu)建實驗管道,借此快速訓(xùn)練各類模型,而后將不同模型疊加起來進行實時服務(wù)。(例如將強化學(xué)習(xí)、DNN、SVM以及CNN結(jié)合使用)

除了主推薦算法之外,抖音還需要訓(xùn)練內(nèi)容分類算法與用戶偏好算法。下面來看在實現(xiàn)內(nèi)容分析方面,抖音建立起的多層級分類架構(gòu)。

 

 

 

▲ 多層級分類樹(由Catherine Wang創(chuàng)建,版權(quán)所有)

 

 

 

我們從主root起步,一層層下探。首先是主類別與子類別。與獨立的分類器相比,這種多層級分類機制能夠更好地解決數(shù)據(jù)偏斜的問題。

2.4 訓(xùn)練機制

抖音使用實時在線訓(xùn)練協(xié)議,因此能夠以較少的計算資源需求提供更快的反饋速度。這兩點對于流媒體與信息流產(chǎn)品無疑非常重要。

訓(xùn)練系統(tǒng)會即時捕捉用戶的行為與動作,并將其反饋給模型以在下一次響應(yīng)中有所體現(xiàn)。(例如,當(dāng)您點擊新的視頻時,饋送內(nèi)容會根據(jù)您的最新操作而快速更改)

據(jù)個人推測,抖音很可能是使用Storm Cluster處理實時樣本數(shù)據(jù),包括點擊、展示、收藏、贊、評論與共享等。

他們還構(gòu)建起模型參數(shù)與特征服務(wù)器(分別存儲特征與模型),借此進一步提升系統(tǒng)性能。其中特征存儲可保存并交付數(shù)千萬項原始特征與工程矢量,而模型存儲則負責(zé)模型與經(jīng)調(diào)優(yōu)參數(shù)的維護與交付。

 

 

 

▲ 在線訓(xùn)練機制(簡化版)(由Catherine Wang創(chuàng)建,版權(quán)所有)

 

 

 

下面我們對訓(xùn)練流程做出總結(jié):1)在線服務(wù)器捕捉實時數(shù)據(jù),并將其存儲在Kafka當(dāng)中;2)Storm Cluster使用Kafka數(shù)據(jù)并生成特征;3)特征存儲負責(zé)收集新特征與推薦標(biāo)簽,并據(jù)此構(gòu)建起新的訓(xùn)練集;4)在線訓(xùn)練管道重新訓(xùn)練模型參數(shù),并將參數(shù)保存在模型存儲中;5)更新客戶端推薦列表,捕捉新的反饋(用戶操作)并再次循環(huán)。

 

 

 

3.抖音的推薦工作流

 

 

 

抖音一直未向公眾或技術(shù)界公開其核心算法。但通過該公司發(fā)布的零散信息,以及極客社區(qū)通過逆向工程發(fā)現(xiàn)的蛛絲馬跡,我們初步得出以下結(jié)論。(免責(zé)聲明——以下內(nèi)容皆為作者個人的解釋與推斷,可能與抖音的實際情況有所出入)

 

 

 

▲ 推薦工作流(由Catherine Wang創(chuàng)建,版權(quán)所有)

 

 

 

步驟0:用戶生成內(nèi)容雙審核系統(tǒng) (UGC)

在抖音,每天有數(shù)百萬用戶上傳自己制作的內(nèi)容。惡意內(nèi)容很可能從單一機器審核系統(tǒng)中發(fā)現(xiàn)漏洞并成功漏網(wǎng),而過于龐大的上傳量也讓手動審核變得不切實際。為此,雙審核成為抖音公司的主要視頻內(nèi)容篩選算法。

 

 

 

 

 

 

  • 機器審核:總體來看,雙審核模型(基于計算機視覺)可以識別用戶上傳內(nèi)容中的視頻圖像與關(guān)鍵字。它主要提供兩大核心功能:1)檢查剪輯內(nèi)容中是否存在違規(guī)并檢查文本信息。如果懷疑存在問題,內(nèi)容將被攔截并標(biāo)記為黃色或紅色,以供人工審核員進行復(fù)核。2)提取視頻中的圖片與關(guān)鍵幀,抖音的雙審核算法隨后將這些內(nèi)容與龐大的歸檔內(nèi)容庫進行匹配。這些副本將被渲染為低精度版本,借此降低流量占用并減輕推薦引擎的處理負擔(dān)。

  • 手動審核:主要關(guān)注三個問題:視頻標(biāo)題、封面縮略圖與視頻關(guān)鍵幀。對于被雙審核模型標(biāo)記為可疑的內(nèi)容,技術(shù)人員將進一步做出手動檢查。如果確定違規(guī),則刪除該視頻并凍結(jié)上傳賬戶。

步驟1:冷啟動

抖音推薦機制的核心在于信息流漏斗。在內(nèi)容通過雙審核過濾之后,將被放入冷啟動流量池內(nèi)。例如,當(dāng)用戶的新視頻成功通過審核流程,抖音會為其分配200到300個活躍用戶的初始流量,保證你的內(nèi)容初步獲得向用戶展示的機會。

在這種機制下,新創(chuàng)作者可以與意見領(lǐng)袖們(可能已經(jīng)擁有成千上萬關(guān)注者)站上相同的起點,完全依靠作品質(zhì)量展開正面競爭。

步驟2:基于指標(biāo)的權(quán)重機制

通過初始流量池,我們的視頻已經(jīng)獲得了幾千次瀏覽,而這些數(shù)據(jù)將被進一步收集與分析。分析中考量的指標(biāo)主要包括贊、觀看、完整觀看、評論、關(guān)注、轉(zhuǎn)發(fā)與分享等數(shù)據(jù)。

接下來,推薦引擎會根據(jù)這些初始指標(biāo)與賬戶得分(無論您是否身為高水平創(chuàng)作者)對內(nèi)容進行權(quán)重評分。

根據(jù)評分結(jié)果,前10%的視頻將獲得額外10000到100000次推薦展示的機會。

步驟3:用戶偏好放大器

來自步驟2內(nèi)流量池階段的反饋將接受進一步分析,幫助系統(tǒng)判斷是否使用用戶偏好放大器。在這一步中,高質(zhì)量的內(nèi)容將被投放至特定的用戶組(例如體育迷、時尚愛好者)中并得到進一步加強與放大。

這類似于“猜你喜歡什么”的概念。推薦引擎將建立用戶個人偏好庫,以便在內(nèi)容與用戶組之間找到最佳匹配。

 

 

 

 

 

 

步驟4:精品趨勢池

只有低于1%的內(nèi)容最終能夠進入趨勢池。趨勢池中的內(nèi)容將獲得遠超其他視頻的曝光量,包括以無差別方式推薦給所有用戶。

其他步驟:延遲曝光

部分抖音用戶可能會注意到,自己的內(nèi)容在發(fā)布數(shù)周之后,才突然獲得了巨大的關(guān)注與點擊——在此之前,觀看量與轉(zhuǎn)發(fā)量都一樣比較平均。這是怎么回事?

這主要有兩個原因:

  • 首先,抖音使用一種昵稱為“掘墓人”的算法,可以回溯舊有內(nèi)容并挖掘出高質(zhì)量的曝光對象。如果您的內(nèi)容被這種算法選中,則表明您的賬戶中擁有足夠的垂直視頻以獲得清晰的定位標(biāo)簽。換言之,建立明確的標(biāo)簽?zāi)軌驇椭膬?nèi)容得到“掘墓人”算法的青睞。

  • 第二是“時尚效應(yīng)”。換句話說,如果您的某條內(nèi)容獲得了數(shù)百萬次觀看,那么觀看者會主動前往您的主頁,查看您之前發(fā)布過的其他內(nèi)容。這是個主動探索并發(fā)現(xiàn)寶藏的過程,也在一定程度上增加了用戶的成就感。

局限性:流量峰值

如果某段內(nèi)容通過信息流漏洞(雙審核、權(quán)重迭代與放大),那么創(chuàng)建者的賬戶將獲得大量展示機會、用戶交互與關(guān)注群體。

但根據(jù)研究,這種高曝光時間窗口極窄。通常,該窗口只會持續(xù)一周左右;在此之后,內(nèi)容與賬戶將快速“涼涼”,連隨后發(fā)布的內(nèi)容也無法得到人們的關(guān)注。

為什么會這樣?

這主要是因為抖音希望盡量為內(nèi)容制作者們提供更公平的發(fā)布環(huán)境,消除算法中的意外偏見。通過這種設(shè)計,推薦引擎不會偏向于特定類型的內(nèi)容,這將保證各類新內(nèi)容都有平等的機會成為新的爆款。

【注】:

1.https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-recommendation-engine-python/

2.youtube.com/playlist?list=PL-6SiIrhTAi6x4Oq28s7yy94ubLzVXabj" _fcksavedurl="https://www.youtube.com/playlist?list=PL-6SiIrhTAi6x4Oq28s7yy94ubLzVXabj" style="color: rgb(255, 66, 0); transition: all 0.5s ease 0s; text-decoration-line: none;">https://www.youtube.com/playlist?list=PL-6SiIrhTAi6x4Oq28s7yy94ubLzVXabj

【參考資料】:
1.https://www.businessofapps.com/data/tik-tok-statistics/
2.https://mediakix.com/blog/top-tik-tok-statistics-demographics/
3.https://en.wikipedia.org/wiki/TikTok
4.http://shop.oreilly.com/product/9780596529321.do
5.https://sensortower.com/
6.https://www.nytimes.com/2020/06/03/technology/tiktok-is-the-future.html

 

責(zé)任編輯:張潔 來源: 技術(shù)周刊
相關(guān)推薦

2020-06-10 16:50:23

抖音算法人工智能

2020-11-30 15:40:40

技術(shù)資訊

2017-09-20 14:42:44

2015-09-14 11:00:20

IT技術(shù)周刊

2016-03-14 13:14:14

51CTOIT技術(shù)周刊編程

2020-09-07 09:55:04

技術(shù)資訊

2020-01-06 11:56:17

技術(shù)資訊

2016-03-28 17:22:40

周刊移動開發(fā)

2011-10-18 13:27:58

開發(fā)技術(shù)周刊

2020-06-22 10:19:58

技術(shù)資訊

2011-01-23 12:41:56

IT技術(shù)周刊

2014-10-27 17:26:57

IT技術(shù)周刊

2020-12-28 15:16:49

技術(shù)資訊

2020-03-16 13:19:20

網(wǎng)絡(luò)安全網(wǎng)絡(luò)安全技術(shù)周刊

2020-03-30 13:42:57

技術(shù)資訊

2011-06-17 13:30:24

IT技術(shù)周刊

2011-11-21 16:38:33

安全技術(shù)周刊

2020-02-03 14:34:41

技術(shù)資訊

2014-08-05 14:53:57

網(wǎng)絡(luò)·安全技術(shù)周刊

2021-11-25 13:21:55

網(wǎng)絡(luò)安全網(wǎng)絡(luò)安全技術(shù)周刊
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 福利精品 | 亚洲成人免费av | 久久午夜影院 | 97超碰人人 | 国产激情免费视频 | 99热视| 久久精品国产亚洲 | 亚州精品天堂中文字幕 | 欧美综合一区 | 亚洲国产精品一区二区第一页 | 国产精品久久在线 | 国产成人精品久久二区二区 | 亚洲 欧美 日韩在线 | 人人看人人搞 | 久久精品91久久久久久再现 | 中文字幕亚洲一区二区三区 | 91精品久久久久久久久 | 天天在线操 | 亚洲喷水 | 成人亚洲精品 | 日批免费在线观看 | 国产精品黄色 | 中文字幕精品一区二区三区精品 | 中文字幕成人 | 一区二区高清 | 精品国产一区二区三区久久久蜜月 | 毛片一级片 | 91极品视频 | 国产丝袜一区二区三区免费视频 | 国产精品mv在线观看 | 亚洲欧美成人在线 | 国产午夜精品一区二区三区四区 | 一级欧美一级日韩片 | av黄色在线 | 成人国产一区二区三区精品麻豆 | 日韩中文在线视频 | 欧美专区在线 | 久久久成人一区二区免费影院 | 色伊人| 亚洲欧洲一区二区 | 国产精品永久久久久久久www |