數據分析實戰：使用Python分析新型冠狀病毒的發展趨勢

作者：趣談數據分析 2020-02-25 16:54:21

這次疫情的情況大家也都了解了，各地也都延遲開學或者延遲開工，對于我們來說，正好是一次深入學習的機會。今天，我就帶領大家分析一下新型冠狀病毒的爆發趨勢，也借此作為一次數據分析課程的實戰案例，從數據獲取、數據清洗、數據可視化再到產出數據結論，完整的走一遍數據分析流程。

這次使用的數據是霍普金斯大學收集的世界范圍內的病毒爆發數據。

導入所需的包和數據

數據清洗

第一：刪除不需要的數據列

從數據中我們可以看出，第一列相當于編號，第五列是數據更新的最后時間，這兩列對我們的分析來說沒有實際意義，所以先把這兩列進行刪除操作：

第二：對數據集中的空值進行處理

先來看一下數據的整體情況：

我們發現，只有省份這一個字段是有空值的，那我們再來看一下具體的空值有哪些：

經過篩選發現，空缺的都是一些國外的省份，這是由于數據收集過程中產生的，并且我們無從推斷到底是什么，所以，這里的空值我們選擇不處理。

第三：刪除重復數據

通過使用dumplicate方法，我們發現這個人工整理的數據集不存在重復情況，所以也不需要進行去重操作。

數據洞察

我們首先來看一下，截止到數據完成時間，世界上總共有多少國家已經「淪陷」了：

通過統計發現，總共只有32個國家已經有了確診患者，但是，細心的同學可能會發現，國家列表當中有「China」和「Mainland China」，第二個表示的是「中國大陸」，其實也是中國，所以我們應該把「Mainland China」也改為「China」統一口徑，在實際工作過程中，跨部門的數據經常會出現這種情況，所以，處理這種數據噪音也是數據分析師的日常工作之一。

接著，我們看一下時間字段，時間字段的處理也是數據分析過程中不可或缺的一個步驟：