如何成為數據分析師
最近幾年大數據的概念比較火,越來越多的人感受到數據的價值,許多公司都開始招聘數據分析相關的職位。但如果你去看看國內的高校,會發現沒有一所大學開有數據分析專業的,職位的成熟度還不夠。
相比之下,從 2003 年興起的互聯網產品經理職位,就成熟一些,至少你可以找到大量的書,教你如何成為一名產品經理。而數據分析領域就沒這么幸運了,相關的書籍雖然也有,但總覺得還沒到火候。
都有哪些人想要成為數據分析師
從我看到想要成為數據分析師的人大致有三類:
第一類是非計算機專業的在校生,不知道怎么回事,反正就是對數據感興趣了,然后想畢業之后從事相關工作,但對職位要求、該做什么準備一無所知,處于懵懂期;
第二類是互聯網公司的產品經理和運營經理,及少數的市場經理。這些人在實際工作中,發現確實數據很有用,但對自己的數據分析能力感到不滿意,進而想做出提升;
第三類是傳統企業的業務人員,也是不知道怎么就對數據感興趣了,想要從事數據分析相關的崗位,但缺少時間系統學習,工作經歷又不足以支撐自己跳到數據分析職位。
對于不同的背景,采用一樣的方法去訓練,顯然是不合理的。我先來講解一下數據相關的角色以及職責,說不定你認識清楚了就不想成為數據分析師了,就可以不用往下看了。如果還有信心,那我就介紹一下要學習的基礎內容,然后再介紹進階的內容。
數據相關的角色
圍繞數據分析,主要有六種角色。從平臺建設線上,包括:
- 數據平臺工程師:負責數據平臺的研發,牽涉到從數據采集到分析的相關組件開發。
- 數據挖掘工程師:利用機器學習/數據挖掘相關技術,研發算法模型,用于個性化推薦、用戶畫像、精準廣告等。
- 數據產品經理:把數據相關的需求抽象為數據平臺的功能產品。
從數據流向的角度,包括:
- ETL 工程師:把工程團隊的模塊產生的數據,不管是日志、數據表,還是埋點的數據,進行清洗、轉換,建模成利于數據分析的數據。ETL 是 Extract – Transform – Load 的縮寫。
- 數據分析師:利用 ETL 工程師處理好的數據,滿足業務人員的數據需求。
- 業務人員:產品、運營、市場、管理層等,因為產品改進、運營活動、商業決策等,有數據需求。
通過上面的角色劃分,我們可以清楚數據分析師在整個數據版圖中的位置。數據分析師一方面要和業務人員打交道,滿足業務人員的數據需求,另一方面,要借助 ETL 工程師建模好的數據,以及數據平臺工程師開發的平臺,來更高效的完成工作。
有些公司在人員緊缺的情況下,會把 ETL 工程師要做的工作,也安排給數據分析師,這樣對數據分析師的開發能力和建模能力,就會有更高的要求。最后一點是提供洞察,前面的工作更多的是被動的,數據分析師還要主動的發現數據中的異常,將這些異常指導業務。
看了這些工作內容,可能并不會覺得特別高大上。我曾經有個組員,干了一年多的數據統計工作,覺得整天寫腳本太枯燥了,堅決要求再也不做相關工作了。其實數據分析師如果做的不好,就會發現自己無非是在“取數”。業務人員提了需求,然后把要的數據給提取出來,自己就是一個流水線工人,沒有一點成就感。
這里發揮一下抽象能力,就可能把一些重復的“取數”工作給解決掉,用機器代替人工。所以理解業務,提供自己的思考與抽象,很重要。
數據分析師的基本要求
對數據感興趣:是不是看到一行行的數字就頭大,選擇直接跳過?還是愿意花些時間研究這些數字背后意味著什么?如果你看蘋果的發布會的話,會看到喬布斯的幻燈片里出現最多的就是數字,賣了多少部,分了多少錢,厚度減少到多少毫米之類的,他相信數字簡單明了。
如果對數據不感興趣,這個角色一定不適合你。
良好的理解和抽象能力:把業務人員說的只言片語,抽象為明確的數據需求,清楚怎么從基礎數據中實現出來。還有把一些重復性的需求,抽象出模式來,用機器來替代。
良好的表達能力:數據分析師有個天然的優勢,能夠直接和老板打交道,這就要求你能站在老板的層面來表達。把一堆堆的數據,很好的呈現給業務人員,幫助他們做出正確的決策。
快速動手能力:業務人員提的數據需求,巴不得下一秒都拿到。
數據分析的專業能力。
興趣是可以培養的,既然愿意看這篇文章,說明有興趣。理解、表達、動手能力,是要有意識的訓練。數據分析的專業能力,是可以通過學習提升的。
數據分析師要學習的內容
統計學:我看一些人推薦了不少統計學的專業書籍,直接把人嚇跑了。我自己就大學時候學過《概率論與數理統計》,其他統計相關的內容也沒怎么看過。對于互聯網的數據分析來說,并不需要掌握太復雜的統計理論。所以只要按照本科教材,學一下統計學就夠了。
一是讓你相信統計本身是一門科學,這不是星座算命。
二是在研究數據時,知道一些特征是負責統計學規律的。我在剛參加工作時,看到百度知道過億的用戶訪問,但每天訪問的量波動不超過 3%,感覺太神奇了。
編程能力:學會一門編程語言,會讓你處理數據的效率大大提升。如果你只會在 Excel 上復制粘貼,動手能力是不可能快的。我比較推薦 Python,上手比較快,寫起來比較優雅。
數據庫:數據分析師經常和數據庫打交道,不掌握數據庫的使用可不行。學會如何建表和使用 SQL 語言進行數據處理,可以說是必不可少的技能。
數據倉庫:許多人分不清楚數據庫和數據倉庫的差異,簡單來說,數據倉庫記錄了所有歷史數據,專門設計為方便數據分析人員高效使用的。
數據分析方法:對于互聯網數據分析人員來說,可以看一下《精益創業》和《精益數據分析》,掌握常用的數據分析方法,然后再根據自己公司的產品調整,靈活組合。
數據分析工具:SAS、Matlab、SPSS 這些工具經常有人推薦,我要說的是在互聯網公司一般都用不上。
做可視化的 Tableau,統計分析的友盟、百度統計,還有像我們神策分析等。
這些工具本身不一定能滿足你的所有需求,但會讓數據分析變的更高效。 我自己整理過一個豆瓣書列,有興趣的可以看看:數據分析師豆列。 上面的內容學習后,只能說成為一名合格的數據分析師。
要成為高級數據分析師的話,一方面是要強化對業務的理解,最好是做到通過數據分析幫助公司決策方向,或者說促進企業快速增長。另一方面,要加強機器學習/數據挖掘的專業知識學習,將機器學習成為數據分析的手段。比如預測用戶的流失,對用戶進行自動分類等。你能提供的價值就大不相同了。 最后,要強調的是,數據分析師是一個實踐的職位,要在實際項目中不斷的訓練,才能成為高手。