Python爬取+BI分析后,微博求助患者的眼淚,全被數(shù)據(jù)看見了
這一個多月以來,相信大部分人都跟小編我一樣:早上打開手機的第一件事是看有關(guān)疫情的最新新聞,看今日有沒有新增人數(shù),新增了多少。眼看著數(shù)據(jù)從一開始的幾十發(fā)展到現(xiàn)在的快8W,漸漸地數(shù)據(jù)在我們眼里就只是一串數(shù)字。

我們從數(shù)字中、新聞報道里都可以看出它的嚴重性,但是,如果我們通過數(shù)字仔細觀察每一個患者的經(jīng)歷,真實的慘烈程度總是可以超乎我們的認知。其中,微博“肺炎患者求助”超話上的求助者經(jīng)歷,便是這場疫情慘烈程度的一個縮影。
到底哪些人會在“微博超話”這個原本的追星聚集地來進行求助呢?他們是否都得到了幫助?從求助到獲得幫助,他們都經(jīng)歷了什么,等了多久?
一、Python爬取
這些數(shù)據(jù)怎么來?那肯定是只能通過python爬蟲來獲取(前提是不要獲取別的東西,否則....),具體的過程我這里就不贅述了,有需要的可以看到文末自取。

我們獲取了微博“肺炎患者求助”超話上的1055條求助信息(時間節(jié)點:2020年2月20日23時),并且對這些求助的患者求助時的狀況、是否得到救助、得到救助的時間等信息進行了進一步的數(shù)據(jù)整理,去掉重復(fù)數(shù)據(jù)后得到638條數(shù)據(jù),來解答以上的問題。
二、怎么分析
python可以進行數(shù)據(jù)分析嗎?完全可以!
其實,Python這種偽代碼性質(zhì)的語言入門并不難,但是深入進去就不是什么簡單的事情了,而且Python語言不能加密,但是目前國內(nèi)市場純粹靠編寫軟件賣給客戶的越來越少,網(wǎng)站和移動應(yīng)用不需要給客戶源代碼,所以這個問題就是問題了。
有什么東西能和python結(jié)合呢?于是我想到了BI工具!
BI工具的話,簡單上手、靈活快捷,尤其敏捷BI,是不需要代碼建模的。舉個例子,F(xiàn)ineBI等敏捷自助式工具,傻瓜式的操作很適合現(xiàn)在的數(shù)據(jù)分析小白入手,就算是掌握了R這種編程語言,也很適合拿來做分析工具。
關(guān)于FineBI,可能很多小伙伴或多或少了解過這款BI工具,這是目前市面上應(yīng)用最為廣泛的自助式BI工具之一,類似于國外的Tableau等BI分析工具,但FineBI在協(xié)同配合,數(shù)據(jù)權(quán)限上,能更好的解決國內(nèi)企業(yè)的情況。
你可以把它視作為可視化工具,因為它里面自帶幾十種常用圖表,以及動態(tài)效果



你也可以把它作為報表工具,因為它能接入各種OA、ERP、CRM等系統(tǒng)數(shù)據(jù),各種數(shù)據(jù)庫簡直毫無壓力,不寫代碼不寫SQL就能批量化做報表
你還可以把它看作數(shù)據(jù)分析工具,其內(nèi)置等常見的數(shù)據(jù)分析模型、以及各式圖表,可以借助FineBI做一些探索性的分析
有了這一款工具之后,IT部門只需要將數(shù)據(jù)按照業(yè)務(wù)模塊分類準備好,業(yè)務(wù)部門即可在瀏覽器前端通過鼠標點擊拖拽操作,就能得到自己想要的數(shù)據(jù)分析結(jié)果。
三、數(shù)據(jù)可視化結(jié)果
以下所有都是為FineBI分析,我從開始做到結(jié)束,只用了3分鐘的樣子,自帶ETL,就是這么快!
1、哪些天求助的人最多?

可以看到,2月4日到2月7日為這些患者集中在網(wǎng)上求助的時間,其中求助最多的是在2月5日。這個時間剛好跟爆發(fā)的數(shù)據(jù)相吻合。

新增確診趨勢
2、哪些人在微博求助?
在全國的救助力量都投入到一個地區(qū)之后,到底是哪些人會采用“微博”這個社交平臺,并且在“微博超話”這個粉絲們用來追星的地方來進行救助呢?
我們對求助患者的年齡進行了統(tǒng)計,發(fā)現(xiàn)50歲以上的中老年人占了絕大多數(shù)的比例(81.9%)。


圖片來自于網(wǎng)絡(luò)
在微博上求助的人,更傾向于年齡大的患者。然而,年齡大的患者怎么會在微博超話上求助呢?我們對求助患者的信息進行統(tǒng)計,發(fā)現(xiàn)只有3.4%的求助信息是患者本人通過微博發(fā)出來的,有95.3%的求助信息都是別人代發(fā)的。
也就是說,這些老人因為信息不通暢、行動不方便等原因,只能由小輩幫忙發(fā)求助信息。
3、求助者多為重癥患者,且?guī)в谢A(chǔ)疾病
他們在求助時的自身狀況如何呢?我們從求助信息中提取出了這些求助者所描述的病癥。

可以看到,“發(fā)燒”、“呼吸困難”、“咳嗽”、“乏力”、“胸悶”、“腹瀉”、“嘔吐”等都屬于高頻詞匯,其中求助信息中出現(xiàn)“呼吸困難”癥狀的患者占了35.8%,有呼吸問題的患者占了48.2%。
這說明微博上的這些求助者多是危重癥患者。另外,從這些患者的救助信息中可知,有21.1%的患者還帶有“高血壓”、“糖尿病”、“心臟病”、“冠心病”、“腎衰竭”等基礎(chǔ)疾病。

4、他們等了多久?


從之前的察覺患病到最終獲救,總共平均的時間是13天。
在這13天里,患者們以及患者的家人們到底經(jīng)歷了什么樣尋求治療的過程,遇到了多少的碰壁最后才得到救助呢?幾乎每份求助信息中的患者“病情描述”都可以告訴我們答案。我們把患者的描述制作成了詞云圖,里面的每一個字,都寫滿了沉重和無奈。

5、是否每位求助者都得到了幫助?
在微博上求助的效果怎么樣呢?從轉(zhuǎn)發(fā)效果上看,即使有40%的微博求助者,其微博的粉絲數(shù)都小于50人,甚至有21.4%的求助者是為了求助剛注冊了微博的微博新人,仍然有57.2%的微博獲得了超過10次以上的轉(zhuǎn)發(fā),有30%的微博獲得了超過50次的轉(zhuǎn)發(fā)。

然而,最終這些求助者是否獲取到了救助,才是救助的最終意義。根據(jù)我們的統(tǒng)計發(fā)現(xiàn),只有26.5%的求助者最終在微博上反饋得到了救助。
所以,并不是每一位微博求助者都幸運地得到了幫助。由于病情的發(fā)展,一部分患者在沒有等到救助之前,便凋零了。



四、總結(jié)
以上便是這些微博求助者在微博上求助的經(jīng)歷。這些數(shù)據(jù)背后的每一位救助者,都是承受者,他們是每一位平凡普通的人,他們有的等來了救助,有的沒有。