如何預測社交網絡的突發熱點事件
譯文【51CTO.com快譯】現實生活中經常有突發熱點事件,例如突發熱點新聞,突發疫情,突發信息安全事件等等。如果能夠提前預測突發事件,不僅能夠防止重大安全事件的發生,在某些商業應用場景下還能帶來高額的商業收益。不管是在學術界還是工業界,突發熱點事件都是研究和關注的重點。
信息瀑布模型(Information Cascades)是近年來社交網絡分析的研究熱點。信息瀑布模型主要研究社交網絡中信息的擴散情況,例如豆瓣網對某本書點贊行為的擴散模型。信息瀑布模型在學術界和工業界引起了廣泛的關注。Facebook 作為全球***的社交網站,對信息瀑布模型也非常的重視。本文編譯自知名國際會議 WWW 2017 年 Facebook 和弗吉尼亞理工聯合發表的論文 Detecting Large Reshare Cascades in Social Networks。
信息瀑布模型可以歸約為如下問題:判斷社交網絡中某個時間什么時候會產生爆發式的流行行為。因為這種爆發式的流行行為非常的少見,并且是爆發式的,因此傳統的一些算法會受到極大的影響。如果用分類的方式對問題進行預測,會導致不均衡分類問題;如果用時間序列分析的方法來對問題建模,因為爆發式的流行行為與時間序列的平滑性等要求不符,因此也很難對問題進行好的刻畫。而生存分析技術能夠很好地解決這一問題。
Facebook 為了解決這類信息瀑布模型問題,提出了 SansNet 方法。問題的場景是為了刻畫網站上轉播行為(reshare)的信息傳播模式。
首先我們定義一下什么樣的行為被認為是爆發式的流行行為。Facebook 認為當轉播行為超過了絕對或者相對大小的某個閾值,就認為是爆發式的流行行為,例如某個帖子被轉播了1萬次。問題的定義如下:
Facebook 用擴展 COX 模型對 m 個轉貼時間序列進行預測。這個模型的生存函數如下:
其中 v(t) 是 t 時刻信息瀑布的大小。
爆發式流行行為可以歸約為如下***化問題:
該***化問題的本質是分類問題 , 其中 是分類標簽( +1 / -1) 用來標記某個帖子的轉播時間序列是否是爆發式流行行為。 是每一類的誤分率。這個問題的實質是通過生存概率來***化兩個不同分類之間的***間隔,或者換句話來說,最小化分類問題的誤分率。
SansNet 算法的偽代碼如下:
SansNet 的總的時間復雜度是 O(m(|R|+T)) 。
Facebook 的研究人員選取了 2015 年 8 月8日上傳到 Facebook 的 25 萬個照片和視頻,統計了每個小時照片/視頻的轉發量,將持續一周時間的數據作為實驗數據集進行了算法實驗。SansNet 在照片和視頻上的召回率(紅色線條)如下:
可以看到 SansNet 算法與線形模型、邏輯回歸、樹模型和隨機過程模型相比有明顯的優勢。
SansNet 在 Top 10 熱點的覆蓋率如下所示:
SansNet 在 Top 30 熱點的覆蓋率如下所示:
Facebook 的這篇論文是 2017 年發表的***成果,具有廣泛的應用場景。例如:新聞網站如新浪和網易均把熱點預測作為重要的算法研究問題。另外針對社交網站例如 Twitter 上流行微博和流行主題的預測也引起了學術界和工業界的廣泛關注。預測問題是大數據領域具有重要現實意義的問題,特別是長期預測,至今仍是一個充滿挑戰性的***。
原文標題:Detecting Large Reshare Cascades in Social Networks,作者:Karthik Subbian , B. Aditya Prakash , Lada Adamic
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】