阿里文娛公開!AI 如何對爆款內容未卜先知?
一、文娛產業趨勢及技術挑戰
文娛內容不像商品有完整的量化指標體系,它是一個復雜的實體,它跟意識形態以及用戶體驗強相關,對內容進行量化評估和衡量是非常困難的。
比如,選角兒。我們不能通過單一指標去衡量一個演員,我們需要綜合考量演員的演技、氣質、顏值、潛力等與否與某一個角色匹配,并且能生成數據指標,以實現縱橫向的對比。另外,導演、主演組盤是否為最優組合,能否成為爆款?這是更加復雜的選擇模式問題。今天面臨的技術挑戰是如何進行知識的抽取、挖掘以及推理,確定什么樣的組合是最優解。
除上述兩個問題,影片的拍攝過程更是一個龐大的系統工程和藝術創作過程。以《長安十二時辰》為例,該片非群演有約1000人,群演有300到1500人,歷時7個月拍攝217天。我們參考軟件工程行業,軟件工程發展了70年,主要研究三個層面:方法論、過程以及工具,然后是如何將三者組合。軟件行業的敏捷開發對于軟件工程的質量和效率都有非常大的提升,如何將這些理論應用到內容制作產業,讓內容制作敏捷起來?
內容敏捷即知曉過程對結果造成的影響是什么,并快速地調整內容創作過程,讓它更敏捷。但內容行業面臨的獨有特點“延遲滿足”,讓用戶在內容的某一分鐘特別嗨,可能來自于前面的30分鐘鋪墊在那一分鐘爆發了,針對內容的這個特點,我們除了要做基本的知識圖譜語義的理解之外,還要考慮如何去做有效的對應分析,如何去做對應的知識抽取等問題。
今天這個問題加劇了,比過去還要復雜。在過去的5到10年里,UPGC加上整個內容的生產量極大的發展,用戶的消費分層化、多樣化。全民爆款越來越少,用戶對內容的需求更加個性化。相應于內容生產端,就需要考慮不同用戶群的個性化需求。
二、文娛大腦基本框架:內容認知新動力
針對上面幾大困難,我們今天在做文娛大腦——優酷北斗星智庫來解決。我們將所有的內容形式和用戶消費的數據都采集下來,將人工智能的技術手段、業務領域的細分理論做整合融合,構建內容認知框架。
內容認知框架分為兩部分,內容和用戶。其思路就是心理學發展的基本的思路。
1)內容側:對內容進行理解,包括外延和內涵。外延就是內容的各種基本屬性,比如主創陣容、題材類型等;內涵主要研究內容的戲劇理論和視聽語言,圍繞制作內容的支撐要素,我們用傳統的機器學習方式對內容進行理解,再基于戲劇理論和視聽語言構造內容的衡量要素。
2)用戶側:分析用戶的觀看行為。用戶行為來自于用戶的心理偏好、心理情緒。用戶心理偏好、心理情緒來自于生理構造,基于心理學的五大人格理論和用戶的觀看行為,構建模型建立左邊和右邊的連接,從而知道創造什么樣的內容,用戶會有什么樣的感受。
三、貫穿全生命周期的文娛大腦生產力
基于內容認知框架,我們在內容生命周期的每個階段都做了具體工作:開播前提供內容評估、藝人挖掘和內容情緒挖掘等能力;在早期為內容評估提供有效的數據支撐;在制作階段提供現場解決方案,比之前更敏捷的反饋機制;同樣在播出后也提供數據支持,實現更好的宣發。
1、IP/劇本分析
上圖是《長安十二時辰》的分析示例,我們把已有的劇本作為樣本,讓機器去學習,識別出劇本的所有角色,把角色直接交互的對白、行為識別出來,再進行社團的劃分?!堕L安》劇本最終劃分出來幾個群體:反恐防暴小分隊以張小敬為中心,唐朝核心管理團隊以皇上為中心。通過這種方式快速定位整個劇本的人物和人物關系的展開。
2、用戶情緒識別與成片情緒挖掘
圍繞角色關系,將整個劇本的角色情緒也識別出來,構造成如上的曲線。基于對海量劇本的分析曲線,抽取出各個指標(出鏡率、戲份、情緒值等)并形成benchmark,對于之后的每一個劇本進行衡量,相當于對劇本進行一個“體檢”。
同樣是“體檢”的方法,對于《藥神》和《長安十二時辰》,我們做了用戶情緒的識別、體檢的掃描,參考零線的位置。我們發現《藥神》幾乎都是正向和負向級的,直到最后出現一個正向區間,基本上后期都是以眼淚為主。而《長安十二時辰》的情緒狀態比較穩定。對照情緒高低點的具體情節,我們發現,曲線表達的情緒和具體的故事情節是非常相符的。
3、情緒強度預測與網絡收視率
然后我們拿更多的方式去驗證它的合理性,上圖抽取《長安十二時辰》的劇集,每集有兩條曲線,藍線是剛才預測的情緒曲線,黃線是播放指數(表示每一秒鐘有多少用戶在看),通過兩條曲線對比,我們可以發現,兩條曲線的相關性比較高的將近60%,情緒的高峰、低谷和用戶的觀看行為狀態是吻合的,由此我們就提供了一種能力,基于這種能力對劇本或影片做情緒掃描,實現對影片熱度的未播先知,再對比benchmark,幫助制作者更高效的完成制作。
4、用戶情感曲線在技術上是如何實現的?
首先,我們把用戶觀影情緒的表述,映射到認知計算中常用的二維空間表示,也就是Valence 和Arousal。Valence表示情緒正負極性,Arousal表示情感激烈程度;
其次,基于情緒極性跟強度提供一個預測,這個是我們今年產出的論文。近兩年,心理學研究的核心觀點是為什么用戶會感同身受?這來自于前兩年的一個理論——靜向神經元,所以我們選擇場景、表情、動作以及聲音作為基本的模型的輸入,對模型參數進行學習。
如上所講,內容產業有強延遲滿足的問題,我們通過兩層分析來解決長短期滿足的問題,除用戶情緒分析,我們也做內容角色的情緒識別。通過圖片表情識別模型,識別不同題材類型的影片,可以獲得不同角色刻畫的人物性格。如2004年的《反貪風暴》,時隔十多年,主創人物形象的臉譜還是正向的。上圖顯示的負面角色情緒以開心、害怕為主,正面形象以悲傷、生氣為主,與負面反派的開心正好相對,正面的人一直很沮喪,是一個有些壓抑角色形象。
同樣,我們分析角色的每秒情緒,形成角色的正負情緒曲線,部分影片的分析結果曲線如上圖,不同題材類型的節目會有不同的情緒密度。所以,你想放松的時候,要看的不一定是喜劇,喜劇其實不一定會放松,因為角色的正負向情緒不停交替,由于延遲滿足,大腦負荷非常大,需要做長短記憶,反而很多愛情片對大腦的占用相對低。
角色情緒檢測是一個分類問題,所以利用人臉landmark對初始圖像做識別,生成densemap作為附加通道,和原始圖片RGB三通道拼接合并后作為模型輸入,這樣可以使densemap對應的關鍵區域權重更大,更容易讓模型捕捉關鍵區域特征;合成的輸入送入到Reduced Xception 網絡進行特征提取;在loss方面,我們引入了基于SVM的marge loss,提升各情緒類別的類間差距,提升情緒識別的效果,具體如上圖。
基于前面對內容的各種理解產生的各種緯度的內容的量化緯度,我們構建了預測模型,可以提前預測出節目的流量走勢,如內容認知框架中所講的,首先對內容進行量化,然后對內容相應的量化緯度進行提前的預測,為業務決策提供輔助支撐。 最后,分享我對未來趨勢的一些見解。在強人工智能尚遙遠的情形下,如何結合機器AI和人工經驗將是個永恒主題。一是結合符號學派智能和鏈接學派智能,建設和完善決策引擎,包括結合人工邏輯規則和可學習數據AI,不確定性分析框架和經久不衰的貝葉斯因果決策,以及神經元化的混合智能計算框架。二是量化的心理學研究也越來越重要,如何結合大數據應用價值非常大。這也是阿里文娛大腦探索的方向。