5天破10億的哪吒,為啥這么火,Python來分析
不知道大家最近有沒有去看電影,最近身邊的朋友都在向我安利一部叫做《哪吒之魔童降世》的動漫電影。大家無一例外,都說非常的好看。
看一下最近的微信搜索指數,比火熱的電視劇“親愛的熱愛的”搜索指數要高出近6倍,比迪斯尼的“獅子王”要高出22倍,確實非常火。
小編抱著好奇的心態,去貓眼上看了一下,結果顯示在接近84萬人評分的情況下,評分竟然高達9.7分。看了這確實是一部好劇,也值得我去爬取一下大家的評論,并進行一波分析,從中發現一些值得關注的東西。
1.數據的獲取
首先是關于數據的爬取,數據的爬取相對簡單,大家只需要打開貓眼網里面這部片子的網址,便可以看到下面的影評。在開發者模式中,切換到移動端,便可以看到影評,如果大家仔細觀察,可以發現,影評是動態加載的,如下圖所示:
動態加載的話,大家只需要在network下的XHR內,仔細觀察,便可以發現網頁動態加載的json數據,也就是我們要爬取的數據。如下圖所示。
接下來就是利用簡單的爬蟲進行爬取了,部分代碼如下圖所示。
爬取的過程其實很簡單,通過手機端的鏈接進去,然后循環爬取,用bs進行解析即可,然后把保存為json文件。
2.數據的分析
爬取完數據之后,接下來便是數據的分析,上述的數據中,大概有5000多條。(先爬5000條,高并發幾十萬條需要用分布式爬蟲才可以)
小編爬到了評論者的性別(0為未知,1代表男,2代表女)、等級、所在城市、評分以及評語。
3.影評分析
用Python做可視化分析的工具很多,目前比較輕量級好用的庫是pyecharts,在公眾號里面多次講解過它的用法,這里就不詳細重復了!我們看快速看一下近5000條影評的數據可視化結果:
1)總體評分
《哪吒》在貓眼中的總體評分為9.7分,這個分數無疑是非常高的。超過了國產動畫 比如“白蛇傳”。從評分分布來看,大多數評分都給了滿分,占總數的86.5%,其次是4.5分,占總數的7.7%,給到3分及以下的人非常少,還不足總人數的5%,要知道眾口難調,這個差評比例在電影中可以算非常低的了。
2)性別差異
通常來說這種國產動畫的“大片”比較符合大眾口味,從評論者性別分布數據來看,雖然有接近一半的人不愿透露性別,但從已知數據判斷,觀影男女比例約為1:1多一點,女性觀眾的比例稍微高一點。
3).城市分布
接下來小編分析了評論者所在的城市分布。首先是直方圖的來粗略的展示前十大熱門的影迷城市,如下圖所示:
直方圖的展示不是很直觀也不全面,因此,小編采用地圖的形式,為大家更加直觀的進行展示,由于觀影者的城市地理位置可能沒有出現在程序的設置中,因此,小編只選取了觀影城市最多的前八十個城市作為動態展示,如下圖所示:
(動態圖)
4).評論內容
首先整合評論內容,然后利用wordcloud庫繪制詞云圖,從詞云分析情況來看,滿屏的“好看”,“不錯”,“特效”等贊美的詞語,與以往的電影不同的是,“劇情”,“故事”等字眼也特別醒目。
其實這部大片,算是國產動畫電影里面的大制作,電影制作花了5年的時間,劇本改了60幾個版本,制作的團隊高達千人。電影里面有1800多個鏡頭,有1300多個是特效,這樣的用心之作難怪上映之后,口碑爆棚啊!
而且導演還有很多致敬 星爺的地方,比如太乙真人那段,很像功夫片段里面的橋段,最搞笑的還有一本《神仙的自我修養》,好了不劇透了,大家趕緊去電影院看一下吧。