5000行python代碼+可視化60W數(shù)據(jù),告訴你知乎用戶不為人知的事
一次完整的python分析+可視化展示,是什么樣的?
比如我想知道知乎用戶的學(xué)歷,是否都是985呢?我還想知道知乎最受關(guān)注的話題都是些什么?高端人士都喜歡看什么書(shū)呢?“人在XX,剛下飛機(jī)?”這句話出現(xiàn)的頻率有多高呢?
最快的方法是用python爬蟲(chóng)然后加BI可視化分析!python爬蟲(chóng)僅需幾步就可以完成:
- 找到網(wǎng)頁(yè)URL,查看HTML代碼
- 在HTML代碼中找到你要提取的數(shù)據(jù)
- 寫(xiě)python進(jìn)行網(wǎng)頁(yè)請(qǐng)求和解析
- 存儲(chǔ)數(shù)據(jù),Excel導(dǎo)出

于是我使用10000秒的時(shí)間寫(xiě)了5000行代碼,爬取了知乎下5646個(gè)話題與回答,10W+用戶,和我預(yù)想的結(jié)果完全不一樣。
我們先放一部分代碼,完整的可以到文末看評(píng)論~

最后爬取了大概快60W的數(shù)據(jù),我們接下來(lái)要對(duì)它進(jìn)行數(shù)字可視化的分析。

- 我們想通過(guò)數(shù)據(jù)知道什么?
- 知乎人均985嗎?
- 知乎最受關(guān)注的話題是哪些?這些話題的關(guān)系圖譜是怎么樣的?
- 知乎大佬最推薦的書(shū)是哪些?
- 知乎的娛樂(lè)欄目最受關(guān)注的都是哪些?
在分析之前,我們得挑選一個(gè)數(shù)據(jù)可視化工具,有人會(huì)問(wèn):為什么不用python呢?因?yàn)閜ython處理數(shù)據(jù)或許很不錯(cuò),但其實(shí)它并不簡(jiǎn)單,分析起來(lái)是很困難的,SQL語(yǔ)句、Pandas和Matplotlib這些十分繁瑣,一般人也不會(huì)。
所以我想到既然有現(xiàn)成數(shù)據(jù)的話,那選擇一個(gè)可以直接連接數(shù)據(jù)源的工具就更好了,我想到了BI里的佼佼者FineBI,輕便敏捷的數(shù)據(jù)分析能力,瀏覽器里就可以直接操作,而且對(duì)于大數(shù)據(jù)量可以及時(shí)響應(yīng),直接拖拽即可生成可視化。
雖然主打的是企業(yè)級(jí)的數(shù)據(jù)分析工具,但是個(gè)人也是可以用的,而且是free的,功能并不會(huì)減少,可謂良心。很多企業(yè)依然有各種各樣的數(shù)據(jù)問(wèn)題:IT-業(yè)務(wù)溝通困難,領(lǐng)導(dǎo)決策缺乏數(shù)據(jù)支撐....
FineBI從IT、業(yè)務(wù)、管理層三個(gè)方面去解決問(wèn)題:


通過(guò)自助數(shù)據(jù)集功能,普通業(yè)務(wù)人員就能對(duì)數(shù)據(jù)做篩選、切割、排序、匯總等,自助靈活地達(dá)成期望的數(shù)據(jù)結(jié)果。

BI工具就介紹到這里,接下來(lái)我們看知乎的可視化分析,以下都是由FineBI所作。
1、知乎是否人均985?

一看這個(gè)學(xué)校,我自卑了!!!果真人均985,211,怪不得知乎上很多回答都顯得很有哲理的樣子,果然,學(xué)歷越高的人見(jiàn)識(shí)越多,看來(lái)好好學(xué)習(xí)真的很重要。不過(guò),我說(shuō)知乎的學(xué)歷比虎撲高沒(méi)有人反對(duì)吧。
當(dāng)然,這些數(shù)據(jù)的前提都是基于你自己填寫(xiě)的是準(zhǔn)確的,大專給自己填哈佛我也沒(méi)辦法...
2、知乎最受關(guān)注的話題是哪些?
大佬們上知乎,都會(huì)去瀏覽什么問(wèn)題呢?就拿數(shù)據(jù)領(lǐng)域來(lái)說(shuō),這兩份關(guān)系圖可以說(shuō)是最全的了,如果你想從0-1進(jìn)入數(shù)據(jù)行業(yè),這是一個(gè)很好的基礎(chǔ)學(xué)習(xí)方向。



3、知乎大佬最推薦的書(shū)是哪些?
讀萬(wàn)卷書(shū),行萬(wàn)里路,沒(méi)點(diǎn)知識(shí)怎么好意思刷知乎呢?
我把所有關(guān)于文學(xué)書(shū)籍推薦的問(wèn)題都爬了一遍,統(tǒng)計(jì)下來(lái)就是這10本書(shū)排名前列,很遺憾,我只看過(guò)1本...

4、在娛樂(lè)類目上,知乎的人都喜歡關(guān)注什么呢?

其實(shí)和微博一樣,知乎也算是一個(gè)獲取知識(shí)的平臺(tái),而且現(xiàn)在越來(lái)越多的人都把知乎當(dāng)作微博來(lái)看,評(píng)論區(qū)的智商會(huì)高很多(我沒(méi)有別的意思)。
一直流傳著一句話:微博前腳火什么,知乎后腳扒什么...真實(shí)!
總結(jié)
知乎的分析就到這里了,你可以看見(jiàn)python+finebi真的就是非常棒的組合,無(wú)論是數(shù)據(jù)處理,還是數(shù)據(jù)展示,想要分析什么,簡(jiǎn)直就是手到擒來(lái)!
最后,以上的分析如果有不足的地方,歡迎告訴我!