簡書不如知乎?Python爬30W數據,BI可視化分析后,告訴你答案
上次做了一個知乎的用戶學校分析,到底知乎用戶是不是人均985呢?引起了很大的討論。
其實,國內的UGC平臺,知乎是領軍人物,但是又因為它太受歡迎,導致很多其他綜合性平臺都被忽略了。那么其他平臺都有哪些呢?
就拿簡書來說吧,這是一個和知乎差不多的綜合性平臺,但因為沒有“人在美國,剛下飛機”的這種梗,于是就被人們慢慢遺忘.....
簡書上有哪些優質用戶?有多少大V粉絲數上萬,獲贊數上萬?哪些文章的閱讀數最高?熱門專欄里又有哪些是最受用戶歡迎的呢?
一、獲取數據
不得不說,數據肯定得是用Python來爬,找到我們想爬取的數據,簡潔代碼直接走天下~
具體的代碼就在文末給大家奉上。
由于簡書官方對數據有所保護和限制,僅能獲取單個用戶的900名關注者(粉絲亦然),以及前1900篇左右的文章。在通過2-3層數據爬取后,共獲得261277條用戶信息,具體數據有:用戶名、主頁url、是否為簽約作者、粉絲數、獲贊數、關注數、文章數、總字數等等。
同時,但根據這1916篇文章獲贊數降序可知,排名第一的文章,獲贊數為:17076;排名最后的為488。由此可見,簡書上最熱門的文章可能都已經獲取到了(其實并沒有)。
二、BI分析
一般來說,用Python取好數之后,就是數據可視化了。
說到數據可視化,可謂是百花齊放,一時之間前端界出現了琳瑯滿目的第三方庫: Highcharts , Echarts , Chart.js , D3.js 等。但是,萬變不離其宗:需要不錯的代碼知識,而且這些產品其實并不是真正的開源。
那對于我們這種不會代碼的小白有什么方法呢?
這就是我今天要說的BI了,也叫商業智能。百度搜索BI,就感覺內容鋪天滿地而來,讓人摸不著頭腦。其實BI真正做的好的少之又少,但國內和國外還是有一些優秀產品的。
國外代表是Tableau,157億美金被收購,足以說明它的強大,但是對于國內來說,它不適用:
- 基于數據查詢的工具,實時數據分析功能還很欠缺
- 價格很貴(土豪繞道),都是代理商所以售后服務非常差
- 本身沒有后端數據倉庫,宣稱自己是內存BI,實際用起來對硬件要求極高,對于超千萬條的數據分析,必須借助于其他ETL工具處理好數據再進行前端分析
- 無法支持中國式復雜表樣
所以我選擇了國內的BI產品FineBI,一款企業級的數據分析軟件,最重要的是它個人版免費(文末有鏈接):
- 自動建模,建模簡單,模型靈活性很強
- 豐富的可視化和前端分析操作,能可視化地進行數據鉆取,數據切片和數據旋轉等多維分析操作
- 內置ETL,實時數據分析,同時對大數據能夠做到飛速處理
三、數據可視化
上面說了,FineBI雖然是企業級的數據分析軟件,但是對于個人來說是免費的。同時,FineBI支持多種形式的數據源,不同連接模式,處理數據完全無壓力。
我下好并激活之后,將Python爬出來的數據插入FineBI中,就開始了愉快的分析。
1、簽約作者分析
既然作為自媒體平臺,那么里面寫字人的目的就是成為簽約作者。在這26w+較優質用戶里,共有126人的主頁上明確地掛有“簽約作者”的標簽。
這個比例可以說是很少了,也可以從側面說明簡書對于作者的要求有多嚴格。
單人貢獻5篇及以上熱門文章的,共有69名作者,也說明寫作不容易。
2、用戶粉絲情況
這是一個類金字塔的分析圖,這26w+用戶里:粉絲數大于10w+的有5人,均是萬中挑一的人物;其他各梯度人數看圖即可,不再贅述。值得一提的是粉絲數10-100區間的人數占比最大,為40.38%,而非0粉或1粉的用戶,這進一步說明了本次本次爬取的數據較為優質。
3、熱門文章24小時分析
11點鐘文章最多,覺得蠻奇怪的,作為一只喜歡在晚上發布文章的小透明,原本覺得晚上才是創作的大好時光啊,11點鐘已經屬于飯點,難道是上午潛心創作,一天之計在于晨,將當天的寫作任務早早的完成,一身輕松?再是24小時都有人發布文章并成為熱點,
4、閱讀數、喜歡數與評論數
一篇文章的熱門程度,直觀地體現在喜歡數和評論數里,從圖上來看也確實是這樣。