《狂飆》爆火背后:愛奇藝的大數(shù)據(jù)大規(guī)模落地實踐
一、愛奇藝的企業(yè)文化
愛奇藝于2010年4月成立,到現(xiàn)在已走過13年,多年來在內(nèi)容制作和技術(shù)創(chuàng)新方面碩果累累。13年間,愛奇藝在技術(shù)上的投入龐大,大數(shù)據(jù)方向的實踐同樣得到了極大的重視。
上圖展示愛奇藝平臺的三大構(gòu)成要素,三者之間相輔相成、互相影響。
愛奇藝一直在追求科技與創(chuàng)意之間的平衡,以雙螺旋的方式向前走。
二、數(shù)據(jù)中臺架構(gòu)
如下圖所示,愛奇藝的數(shù)據(jù)中臺架構(gòu)看似并無特殊,和業(yè)界基本相似,但其實不然。愛奇藝的數(shù)據(jù)中臺架構(gòu)結(jié)合了自己的業(yè)務(wù)場景,在很多細節(jié)上,做了相關(guān)的研發(fā)。
1. 數(shù)據(jù)鏈路
愛奇藝的海量用戶產(chǎn)生的數(shù)據(jù),我們?nèi)绾螐腃端進行收集?大量合作伙伴產(chǎn)生的數(shù)據(jù),我們?nèi)绾卧诤侠砗戏ǖ那疤嵯聫腂端進行收集?
從數(shù)據(jù)鏈路的角度看,數(shù)據(jù)流向是非常清晰的。數(shù)據(jù)輸入后被接收、采集和加工,最終投入使用,并運用到業(yè)務(wù)層上,呈從左向右的流向。整個過程中,我們也積極參與并推動行業(yè)內(nèi)的各種新技術(shù)和標準。
2. 數(shù)據(jù)資產(chǎn)對上層統(tǒng)一、透明
如上圖所示,數(shù)據(jù)在底層經(jīng)過數(shù)據(jù)采集、加工和封裝,到呈現(xiàn)在業(yè)務(wù)層的全過程中,所有模型都是透明的。在技術(shù)、業(yè)務(wù)邏輯層面上,我們對上下層業(yè)務(wù)都做了較好的隔離,減少之間的細節(jié)關(guān)聯(lián),實現(xiàn)了更好的擴展性和實用性。
3. 數(shù)據(jù)發(fā)展過程
經(jīng)過多年的發(fā)展,愛奇藝大數(shù)據(jù)體系和模塊有了豐富的積累,但在數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)方面也仍然比較粗獷,處在零散化狀態(tài),面臨著比較嚴峻的問題。
三、數(shù)據(jù)中臺理念
在2017年以前,愛奇藝積極探索各種商業(yè)模式,衍生了很多視頻周邊的相關(guān)業(yè)務(wù),不同的業(yè)務(wù)對數(shù)據(jù)產(chǎn)生了不同的訴求。因此在2017年之前,數(shù)據(jù)體系是和業(yè)務(wù)狀態(tài)一致,處于野蠻生長、零散割裂的狀態(tài)。從2017年到現(xiàn)在,經(jīng)過多年的發(fā)展,愛奇藝大數(shù)據(jù)體系和模塊有了豐富的積累,先后經(jīng)歷了平臺化、標準化、智能化、體系化、立體化五個階段。
平臺化:面對不同層級的用戶,提供相應(yīng)的數(shù)據(jù)產(chǎn)品,支持用戶進行自助分析,最大限度發(fā)揮數(shù)據(jù)價值。
標準化:通過對數(shù)據(jù)體系各個環(huán)節(jié)進行標準化,保證數(shù)據(jù)質(zhì)量,有助提高數(shù)據(jù)流轉(zhuǎn)和使用效率。
智能化:數(shù)據(jù)與人工智能深度結(jié)合,在為用戶提供智能化的同時,數(shù)據(jù)中臺自身也需要智能化。
體系化:實施是從落實角度,對數(shù)據(jù)治理的標準(包括目標和方式等)進行具體的落地,確保治理工作的正常運轉(zhuǎn)。
立體化:通過打造離線、近實時和實時數(shù)據(jù)鏈路,構(gòu)建立體化的數(shù)據(jù)體系,滿足業(yè)務(wù)對時效性和準確性的不同需求。
1. 立體化
以下三個關(guān)鍵點,是立體化工作的核心:
1)大:大模型的出現(xiàn),讓大規(guī)模數(shù)據(jù)的處理工作變得更為重要。在愛奇藝,我們通過Hive、Spark等離線引擎的升級,對巨量離線數(shù)據(jù)提供準確高效的數(shù)據(jù)計算能力,以支撐核心數(shù)據(jù)絕對準確性的業(yè)務(wù)要求。
2)湖:數(shù)據(jù)湖不是什么新穎技術(shù),但其整體應(yīng)用、業(yè)務(wù)提效有重要作用。愛奇藝引入了Iceberg數(shù)據(jù)湖,通過Flink進行數(shù)據(jù)入湖,降低數(shù)據(jù)可見的延遲時間,提高大規(guī)模數(shù)據(jù)的分析時效性,同時降低實時鏈路的成本。
3)快:時效性在數(shù)據(jù)工作中尤為重要。愛奇藝通過Flink和Kafka等實時組件的最佳搭配,提供秒級延遲的數(shù)據(jù)流,結(jié)合實時數(shù)倉,支撐推薦、用增等模型的快速反饋。
2. 標準化
我深切體會過無標準化的痛苦,在業(yè)界大數(shù)據(jù)理念還未完善時,行業(yè)內(nèi)不同的技術(shù)人員,都在以自己高效舒服的方式去做數(shù)據(jù)處理。
但事實上,任何一個公司不論體量大小,勢必不可能通過一套數(shù)據(jù)邏輯解決所有事情,所以當數(shù)據(jù)累積到一定階段后,由數(shù)據(jù)不標準和不規(guī)范帶來的痛苦非常明顯,愛奇藝在過去也有類似的經(jīng)歷。
如今,數(shù)據(jù)治理仍是討論火爆的主題,但不同于大數(shù)據(jù)工作,數(shù)據(jù)治理如同垃圾分類,是一個吃力不討好的工作。
如上圖所示,在整個數(shù)據(jù)全生命周期中,從生產(chǎn)、采集加工、存儲到流轉(zhuǎn),各個環(huán)節(jié)我們都在不斷規(guī)范標準。
在我們內(nèi)部,也設(shè)置了一個數(shù)據(jù)管理委員會,制定相關(guān)的數(shù)據(jù)治理制度,使整個數(shù)據(jù)治理環(huán)節(jié)更加符合公司業(yè)務(wù)訴求,同時進一步提升大數(shù)據(jù)效率。
3. 體系化
所有的基礎(chǔ)設(shè)施到位后,必定會形成一個體系,再在這一體系基礎(chǔ)上進一步迭代。
如上圖左側(cè)所示,內(nèi)部的數(shù)據(jù)體系在決策上分為管理組、業(yè)務(wù)組,不同的小組承載不同的目標和數(shù)據(jù)工作,同時讓不限于大數(shù)據(jù)團隊的業(yè)務(wù)部門參與到數(shù)據(jù)工作中。
在大數(shù)據(jù)管理委員會中,所以負責人都來自各自的業(yè)務(wù)線,同時我們生成了數(shù)據(jù)BP的概念,由他們垂直深耕,延續(xù)之前達成的共識,最終形成所有業(yè)務(wù)的體系化高速運轉(zhuǎn)。
4. 智能化
近年來,大家對智能化的關(guān)注愈發(fā)加大,每一位大數(shù)據(jù)工作者都會思考:智能化給行業(yè)帶來的怎樣的革命?未來有怎樣的想象空間?
5. 產(chǎn)品化
任何技術(shù)如果無法落地形成一套規(guī)范的數(shù)據(jù)產(chǎn)品,那么其最終在公司內(nèi)部的認可程度就很難達標;有了整個大數(shù)據(jù)基礎(chǔ)設(shè)施、服務(wù)、接口,但缺乏產(chǎn)品呈現(xiàn),也很難讓其他業(yè)務(wù)方發(fā)揮和利用業(yè)務(wù)價值。數(shù)據(jù)本身也是一個業(yè)務(wù),如果無法恰當應(yīng)用且形成體系化,數(shù)據(jù)治理的價值也無法真正體現(xiàn)。
愛奇藝數(shù)據(jù)產(chǎn)品整體體系主要分為四個部分:
1)數(shù)據(jù)研發(fā):數(shù)據(jù)開發(fā)和產(chǎn)品人員負責數(shù)據(jù)需求的驅(qū)動,能否靈活處理數(shù)據(jù)的拓展性和復雜性,讓數(shù)據(jù)有更好的呈現(xiàn)形式。
2)數(shù)據(jù)分析:數(shù)據(jù)分析人員需要全面理解業(yè)務(wù),能否在數(shù)據(jù)產(chǎn)品上提供自主和靈活的功能,以便業(yè)務(wù)方進行個性化的處理。
3)產(chǎn)品運營:產(chǎn)品運營需要關(guān)注一定范圍的數(shù)據(jù),數(shù)據(jù)需求也比較常規(guī),但本身運營是非技術(shù)人員,不能要求其對大數(shù)據(jù)底層技術(shù)和工具有很好的理解。
4)數(shù)據(jù)產(chǎn)品:我們的目標是做易用、簡單、無理解門檻的數(shù)據(jù)產(chǎn)品。很多公司都有自己的BI分析工具、畫像系統(tǒng)、內(nèi)容分析系統(tǒng)和標簽系統(tǒng),如何把這些工具的底層相關(guān)的技術(shù)與業(yè)務(wù)人員的思維搭建橋梁,“翻譯”成大家都能懂的數(shù)據(jù),使得大家在無法理解大數(shù)據(jù)融合技術(shù)的情況下,解決自己的業(yè)務(wù)問題,這是數(shù)據(jù)產(chǎn)品研發(fā)的關(guān)鍵。
6. 總結(jié):發(fā)揮用戶大數(shù)據(jù)、內(nèi)容大數(shù)據(jù)的價值
愛奇藝有三個關(guān)鍵元素,即海量用戶、海量內(nèi)容和大量的合作伙伴,其中用戶和內(nèi)容是與大數(shù)據(jù)最相關(guān)的兩方面,也是愛奇藝永恒的二元體。
四、大數(shù)據(jù)大規(guī)模實踐——內(nèi)容側(cè)
1. 內(nèi)容制作
愛奇藝站內(nèi)有大量PGC(也稱PPC)和UGC,海量的內(nèi)容的背后則產(chǎn)生了海量的數(shù)據(jù),同時愛奇藝的用戶量也非常龐大。
當內(nèi)容大數(shù)據(jù)和用戶大數(shù)據(jù)相連接,就會產(chǎn)生很多應(yīng)用場景和想象空間,我們可以從內(nèi)容最早的制作階段出發(fā),大數(shù)據(jù)能做些什么呢?
1)知文劇本評估
內(nèi)容創(chuàng)作的第一步是選劇本,從海量劇本中挑選出有藝術(shù)性、市場性并符合監(jiān)管要求的劇本,同時快速剔除掉劣質(zhì)劇本,是一個關(guān)鍵問題。多年來,我們一直在探索通過大數(shù)據(jù)技術(shù)對劇本進行評估的事情。
愛奇藝做了很多劇本評估系統(tǒng),基于AI算法、NLP技術(shù)對劇集劇本、電影劇本、小說等多種形態(tài)的內(nèi)容進行理解,分析其質(zhì)量和衍生價值輔助專家決策、作者創(chuàng)作、文本審核,經(jīng)過多年的驗證實踐,助力了愛奇藝內(nèi)容質(zhì)量提升。
如今大模型的出現(xiàn),也促使我們在一方面的探索結(jié)合。
2)藝匯選角系統(tǒng)
以今年爆火的《狂飆》為例,在選角上,需求方會自定義一些選角需求,平臺則會根據(jù)供方提供的藝人信息,進行藝匯AI智能匹配,在成本效率最優(yōu)化的基礎(chǔ)上,快速進行選角。
2. 內(nèi)容運營
1)流量票房預測系統(tǒng)
預測投入產(chǎn)出能否成正比是內(nèi)容制作前的關(guān)鍵,所以任何內(nèi)容在最開始都需要預估流量及收入。因此,我們提供多內(nèi)容類型、多時間窗口的流量預測,幫助選角、劇本創(chuàng)作、版權(quán)采購、宣發(fā)推廣、廣告售賣等業(yè)務(wù)把握投資意向,把控投資風險,提升業(yè)務(wù)效率,這方面的探索實踐也已經(jīng)廣泛應(yīng)用。
2)內(nèi)容熱度
早期,愛奇藝提出了內(nèi)容熱度的概念。評價內(nèi)容的好壞,不能只是基于內(nèi)容的播放次數(shù),還要綜合分析觀看行為、互動行為、分享行為等指標,以此得出用戶反饋、內(nèi)容質(zhì)量和當前市場表現(xiàn)。
舉個例子,《小豬佩奇》是愛奇藝站內(nèi)播放次數(shù)最多的視頻,但這顯然不是愛奇藝站內(nèi)最受歡迎的作品。所以,從大數(shù)據(jù)角度分析,需要融合各種各樣與內(nèi)容相關(guān)的指標,去計算熱度,并評價出最受歡迎的內(nèi)容。
3)精準篩選+精細觸達+實時分析
在用戶增長上,我們通過精準篩選+精細觸達+實時分析的方式,打造了覆蓋全生命周期的用戶自動化運營場景。
3. 內(nèi)容分發(fā)
1)個性化推薦
在這方面我們充分結(jié)合了運營專家意見和機器動態(tài)規(guī)劃,實現(xiàn)了機器運營,對比傳統(tǒng)的手工內(nèi)容分發(fā)方式,個性化推薦是更為精細化的。
個性化推薦可以更高效分發(fā)長尾內(nèi)容,使用戶與內(nèi)容之間產(chǎn)生更多連接,提升用戶對平臺的粘性,降低對個別內(nèi)容的粘性。在內(nèi)容不變的情況下,提升全站用戶總有效播放時長。
2)推薦中的用戶和內(nèi)容理解
首先我們基于用戶畫像產(chǎn)品,生成多維度的用戶標簽,再根據(jù)用戶反饋內(nèi)容和用戶看到的內(nèi)容,運用算法+人工的方式,生成內(nèi)容理解。
3)個性化創(chuàng)意:海報圖、推薦語、精彩看點
以《狂飆》為例,不同用戶看到的宣傳海報可能是不一樣的,有人看到高啟強、有人看到大嫂、有人看到安欣……
愛奇藝在個性化創(chuàng)意上,也進行了用戶側(cè)+內(nèi)容側(cè)的分析,將多種風格的創(chuàng)意素材(海報圖、推薦語、精彩看點),個性化推薦給不同觀眾。
4. 內(nèi)容營銷
在愛奇藝站外做投放的時候(如抖音、微博、小紅書等),需要分析站外投放內(nèi)容的效果和站內(nèi)產(chǎn)品的回響,我們是通過內(nèi)容營銷的智能決策分析平臺進行處理的。
同時,平臺能針對不同的營銷階段可以提供不同的能力:
營銷前:營銷策略分析
營銷中:站內(nèi)效果監(jiān)測、投放效果追蹤、追蹤渠道輿情
營銷后:營銷效果評估
5. 內(nèi)容理解
1)標簽體系
通過深度學習技術(shù)實現(xiàn)對多模態(tài)數(shù)據(jù)(文本、圖像、音頻、視頻)的理解,提供算法能力滿足下游用戶方需求,助力公司的內(nèi)容生產(chǎn)、分發(fā)以及生態(tài)建設(shè)。
2)多團隊合作助力內(nèi)容生產(chǎn)與分發(fā)
五、大數(shù)據(jù)大規(guī)模實踐——用戶側(cè)
1.用戶理解
1)TA識別:基于用戶行為數(shù)據(jù)和機器學習算法精準識別愛奇藝用戶的性別、年齡等基礎(chǔ)屬性助力精準運營,廣告變現(xiàn)和分析決策,性別識別準確率達到90%以上;
2)自然人識別:通過對用戶行為習慣的挖掘,識別出的同一自然人使用的多個設(shè)備,可以幫助推薦和廣告召回更大范圍的目標用戶;
3)會員流失預警:基于用戶在會員期間的行為特征,預測即將到期的會員的流失概率,準確度達到80%以上。
2.用戶增長
站內(nèi)海量數(shù)據(jù)+站外海量數(shù)據(jù),實現(xiàn)用戶全生命周期聯(lián)動。
六、大模型時代
愛奇藝擁有海量視頻內(nèi)容和海量用戶,因此我認為,愛奇藝在擁有豐富的大模型應(yīng)用場景,在大模型應(yīng)用層有巨大想象空間,未來愛奇藝也將會把研發(fā)重點聚焦于大模型應(yīng)用層。
作者介紹
孫斌,愛奇藝副總裁,負責愛奇藝的商業(yè)智能、大數(shù)據(jù)、個性化推薦和用戶增長等部門和方向。在互聯(lián)網(wǎng)產(chǎn)品設(shè)計和研發(fā)方面有近二十年經(jīng)驗,曾就職于微軟、hulu、雅虎等公司,也曾在國內(nèi)知名互聯(lián)網(wǎng)公司負責過創(chuàng)業(yè)項目。