貓眼電影李明輝:機器學習在票房預估中的實戰
原創【51CTO.com原創稿件】近幾年我國票房市場成倍增長,2011 年近 150 億,2016 年 450 億,預計 2020 年前后會達千億規模。但這樣的市場規模僅接近美國市場的一半左右,原因在于中國電影主要收入來源于電影票房本身,而美國電影衍生品的收入高達電影相關產業總收入的 70%,中國在這塊卻幾乎空白。所以說,中國電影市場未來還有很大的成長空間。
誠然,機遇與風險并存,票房市場呈暴增趨勢,問題也隨之顯現。當下,我國投入發行上映的電影有很多,每周都有近十部電影上映,但大部分電影不賺錢,賠本成常態。
高風險且投資回報率難以預測,很多時候大投入未必有大產出。在電影票房方面,預測工具的缺失,導致電影票房預測處于一個真空地帶。
票房預測的意義、難點及影響票房的因素
票房預測的意義
票房預測非常重要,在每個階段,都會起到很關鍵的作用:
- 電影上映前,此時投資方準備投放一部電影,如可提前預估投資回報率,就能夠有效控制風險。
- 電影發行期,對電影進行廣告和營銷,如可依據電影票房規模制訂不同營銷方案,就能夠控制成本。
- 電影上映期,可根據票房預估結果,進行智能排片,趨近利益最大化的目標。
票房預測的難點
目前,票房預測達不到預期效果,是因為面臨如下幾大難點:
- 中國電影正處于野蠻生長期,市場不夠成熟。
- 可使用的數據和參考的信息非常龐大,噪音卻很多,想從互聯網、搜索引擎、社交網絡等渠道獲得的大量電影信息中,挖掘對票房有用的數據很難。
- 可供參考和學習的樣本比較少,這是利用機器學習解決票房預測時遇到的最大問題。如若沒有樣本和數據,再好的方法、再高級的模型,也難以應用。
- 有些感性特征難以量化,如通常憑借口碑來評價一部電影的好壞,但口碑如何來度量?如國慶、暑假對電影上映的影響,又如何度量?
影響票房的因素
票房高低,會受到很多方面的影響。如下,是一些關鍵因素:
- 題材。這部電影是動畫片、文藝片、動作片、還是國際好萊塢大片,題材不同導致受眾范圍不同,直接影響票房高低。
- 卡司陣容。演員、導演的陣容,會形成粉絲群范圍,不排除有些電影質量、內容不是很好,但因為有一些比較有號召力的演員參演,帶來可觀票房的現象。
- 影片質量。影片的質量、口碑,大家公認較好,且在社交上傳播廣泛,也會帶來票房的增量。
- 檔期。受到同期上映電影的競爭,會影響某部電影的票房。
- 宣傳力度。營銷用多少成本,廣告花費多少,電影上映時候投入票補多少,也會影響票房。
- 非市場因素。比如官方因素,前期給某部電影設立出售目標或出現國家較反對的內容,買、偷票房數據等因素都會影響票房。
貓眼票房預測的整體技術體系
從最早期 1915 年前后的電影膠片時代到現在,在票房預測的整個發展過程中,我們經歷了三大階段,涉及到很多預測方式,具體細節見下圖:
2013 年之后,當前的電影票房預測涉及全國實時票房、影院級實時票房、天極票房和總票房等部分。貓眼目前重點關注上映前一天、上映第一天以及上映當周周末這幾個重要時間點的票房效果。
如下圖,是貓眼票房預測的整體技術體系:
- 實時票房,是每部電影在上映階段,當天產生的票房。還有排片、人次、平均票價等各種細密度數據。
- 天級票房,是預測每部影片在全國放映次日的票房,目前貓眼能做到在前一日 17 點、21 點預測第二天的票房。
- 總票房,是指每部影片在整個上映周期的全國票房預測,以首映日、首周末日為時間節點。
- 實時票房、天極票房和總票房三者之間存在一定的關系。實時票房提供實時和未來預測的數據,為天級票房提供數據的基礎。天極票房預測某一天的票房,為總票房預測提供數據的基礎。
如下圖,是基礎數據、預測服務和貓眼專業版三個子模塊的相關關系:
如圖中所示,基于合作影院售票數據、貓眼售票平臺交易數據等這些基礎數據,可對全國實時票房及每個影院的實時票房進行預測,當然獲得的數據還需要進行一些降噪處理。
得到全國每個影院的實時票房后,可以做到城市地區實時票房的預測。重點是天級票房和總票房的預測,需要相對復雜的方法來做,處理后的數據都會展示在貓眼專業版,提供給電影從業者,影院經理、片方等進行參考。
如下圖,是貓眼工具首頁:
工具首頁顯示的是實時票房,點擊進入就會看到天級票房和總票房的預測結果。當然,在這些數據背后,也會存在一些問題和解決方法,下面我們從實時票房開始,依次分析天極票房、總票房背后分別有哪些技術在支撐。
實時票房
實時票房數據對于電影從業者很重要,通過貓眼工具可看到電影在所有影院里的排片、分布和實時票房數據。如果沒有這樣的工具,這些數據只能等待第二天國家電影票房的公布。
我們與 90% 的電影院合作、對接 18 種售票系統、詳細的影院場次及座位數據等等,這些是貓眼做實時票房的優勢。用貓眼買過票的人,一定對下圖所示 UI 很熟悉。
在購票過程中,紅色不能賣,那是不是說把全國所有影院紅色數據加起來,就趨近實時票房了?
看起來是這樣一個簡單的道理,但事實上,紅色數據并不代表全部銷售,像電影院預留的電影票,想留一些好座位或自己售賣獲得更高收益,也會呈現紅色。
給這個問題定義就是已知貓眼合作影院(占全國約 90%)每部電影、每個場次的實時座位圖數據,如何準確預測每部電影在全國全部影院的實時票房總和。這里難點有兩個:
- 位置圖中狀態不明確,導致數據噪音大。
- 不是全部影院,數據不完備。
針對這兩個問題,貓眼的解決方案是進行數據抽樣,以部分樣本為基礎,估計全量。
如下圖,是實時票房的統計模型:
有很多影院與貓眼合作,設共有 n 個場次,從這些影院中抽樣出“高質量”的影院,設共有m個場次。
什么是高質量呢?就是看到的紅色位置數據和第二天上報的數據相接近。統計 m 場次的售票數量,設為 X。通過右上角紅色框內的公式,可得到全國的售票總量,其中X、m、n 抽取高質量影院的數據是確定的,只有 α 是未知。
這時,可使用前一天或歷史的 α 值來模擬今天的 α 值。帶入如圖中的公式,就可得出當天的預估值,這是票房最核心的統計模型。
如下,是實時票房整個的框架圖:
為了可以很好的提供實時服務,面對龐大的計算量,可以把計算分為離線和在線兩部分。
α 值相對穩定,采用離線計算的方式即可。在線部分需要做數據清洗、票價處理,以及實時票數、票房的計算等。影院、地區實時票房計算是另一個相對獨立的部分,算法也比較類似,這里不再詳細介紹。
天級票房
基于在線售票系統可獲得直接交易的數據,預售票房、排片場次等細粒度數據和精準的實時票房為天級票房預測提供可靠的特征,這是貓眼在天級票房預測方面的優勢。
天級票房是指預測未來某一天的票房,貓眼目前可以達到提前一天預測第二天票房,如下圖是《速度與激情 8》首映票房走勢:
從圖中可以看到前一天 21 點預測票房,比例約占全天的 30% 左右的份額。貓眼在 30% 左右的售出情況下預測整體,難度系數很高,因為每部電影占比不同。
一個基本假設為票房 = 票價*人次 = 票價*場次*場均人次,可以看出很多特征均是乘積關系的。
做對數變換后,特征與目標之間就有了線性關系,可以利用線性模型來解決這個問題,如下是方程式:
log(票房) = log(票價)+log(場次)+log(場均人次) y=w1*x1+w2*x2+... |
如下是對數特征與目標之間的關系圖:
通過這兩幅圖,可以看出前一日預售 VS 次日票房和前一日排片場次 VS 次日票房之間存在很強的線性相關。
特征和目標變量之間的關系是線性的,就可以采用線性回歸模型來擬合票房,如下圖:
左側圖為一元線性回歸,右側為多元線性回歸。它們是回歸分析預測法中最簡單和最常用的方法。目標為平方誤差,求解方法有最小二乘法、梯度下降等。這里引入正則化可防止過擬合。
如下圖所示,為天級票房預測主要用到的特征:
一方面是實時票房提供的特征,另一方面是貓眼自身售票系統帶來的票房相關特征。還有一些其他特征,如節假日、特征的組合等。
因為每天的規律都不相同,采用單一線性回歸模型來擬合票房預測效果并不好。所以貓眼采用的方式是找到票房衰減規律,分段建模。
根據不同時間單獨建模型,對首映日、非首映日,節假日、周幾都會進行單獨考慮。
總票房
先來看一個比較明顯的總票房預測對比,如下圖:
圖中所示兩條曲線,分別是《速度與激情 8》與《摔跤吧!爸爸》的票房走勢。
第一張《速度與激情 8》的票房走勢是相對正常的,但第二幅《摔跤吧!爸爸》后期因為口碑不斷發酵,導致票房曲線不斷上揚。這樣的情況,前期很難預測票房可以上漲多少。
總票房重點在首映日、首周末兩個時間節點來預測票房總量。如下圖,是總票房預測的層次模型:
總票房根據預測日的不同進行區別,如首映日、首周末一定要進行拆分。在不同的時間段上映,所用的模型也有所區別,都需要單獨建模。
如下圖,是總票房預測用到的特征:
總票房特征與天級票房特征差別很大,涉及影片屬性、檔期、競爭等。
如下圖,是總票房預測用到的支持向量回歸模型:
此模型的優點有三個:
- 特征維度大于樣本數時,仍然適用。
- 小樣本情況下,模型泛化性強。
- 非線性核函數,可解決非線性的回歸問題。
未來工作展望
在票房預測的基礎方面,貓眼需要提高效果、提前時間點和進行方法創新。細則有如下幾點:
- 洞察票房內在規律,不斷探索新的方法。
- 正在嘗試預測票房走勢、預售比。
- 交互式預測系統:支持總票房、天級票房的預測。
- 天級票房再提前 1~2 天的小目標。
- 總票房預測提前 1 個月的大目標。
在應用拓展方面,細則也有如下幾點:
- 影片排片:排片助手=>智能排片。
- 發行營銷:參與營銷計劃,進行票補的優化。
- 樹立票房預測的行業標桿。
以上內容根據李明輝老師在WOTI全球創新技術峰會——巔峰論壇的演講內容整理。
2016 年加入貓眼大數據部,負責票房預測方向。2007 年畢業于哈爾濱工業大學,并獲得計算機應用博士學位,后就職于微軟、百度、阿里等互聯網公司,研究和工作領域包括自然語言處理、計算廣告、機器學習、人工智能等。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】
本月熱文推薦TOP4