干貨 :送你12個關于數據科學學習的關鍵提示(附鏈接)
小結: 數據科學家需要強大的數學和編碼能力,但溝通能力和其它軟技能也是走向成功不可缺少的基本功。
根據Glassdoor在美國區的統計,“數據科學家”排名為2019年最誘人的工作。平均基礎工資為$108k,工作滿意度為4.3–5★,加上被預測有大量空缺,這個結果一點都不令人吃驚。
問題是,一個人該如何修煉才能走上正軌并獲得勝任這份工作的資格?
為了找到答案,我們總結了大量文章里的建議,很多可以歸納為編碼與數學上的硬技能(hard skills)。但強大的計算能力并不是全部。一名優秀的數據科學家仍需要和相關業務人員進行有效溝通,這里便需要一些軟技能(soft skills)。
鑄造你的教育地基:3個要點
Drace Zhan作為 NYC Data Science Academy 的數據科學家,強調了教育基礎的必要性,包括編碼基礎和數學能力:
- NYC Data Science Academy:https://nycdatascience.com/
R/Python + SQL。如果你沒有編碼能力,那你就需要大量的網絡等其它領域的力量來補充這個缺陷。我見到過一些數據科學家,有的數學能力比較薄弱,或者對相關領域欠缺經驗,但他們總有很強的編碼能力。Python是很理想,R正在變得有點落后,***兩樣武器都帶上。SQL對于數據分析師來說同樣極其重要。
- R/Python + SQL:https://www.techopedia.com/definition/3533/python
強大的數學能力。對一些常用的理論有著較好的理解:generalized linear models(廣義線性模型),decision tree(決策樹),K-means(聚類分析)和statistical tests(假設檢驗)。這好過手握大量模型甚至專業模型如遞歸神經網絡(RNN),卻僅僅是淺嘗輒止。
- decision tree:https://www.techopedia.com/definition/28634/decision-tree
- K-means:https://www.techopedia.com/definition/32057/k-means-clustering
這些都是需要培養的核心技能,盡管一些專家還加入了其它東西。例如,一份 KDnuggests 清單包含了編碼成分,Zhan在此基礎上還加入了一些其他有用的東西,包括Hadoop平臺,Apache Spark,數據可視化,非結構化數據,機器學習和AI。
- Apache Spark:https://www.techopedia.com/definition/30113/apache-spark
但如果我們從一份Kaggle調研中尋求線索,關于“那些在實際生活中被使用的最普遍的工具”,我們會有不同的發現。下面這張圖是名列前15的硬技能。
Python,R和SQL排在前三,第四名是 Jupyter notebooks,接下來是 TensorFlow,Amazon Web Services,Unix shell,Tableau,C/C++,NoSQL,MATLAB/Octave和Java,都排在Hadoop和Spark前面。頗讓人意外的是,Microsoft’s Excel Data Mining也被列進來了。
- TensorFlow:https://www.techopedia.com/definition/32862/tensorflow
- Amazon Web Services:https://www.techopedia.com/definition/26426/amazon-web-services-aws
- Unix:https://www.techopedia.com/definition/4637/unix
- C++:https://www.techopedia.com/definition/26184/c-programming-language
- NoSQL:https://www.techopedia.com/definition/27689/nosql-database
- Java:https://www.techopedia.com/definition/3927/java
- https://www.kaggle.com/surveys/2017
在KDnuggests清單中也包括了關于正規教育的建議。大多數據科學家都擁有高學歷,46%是博士,88%的人擁有至少碩士學位。他們的本科學位通常是相關領域。大約1/3是數學和統計學,這也是***的職業軌跡。接下來***的是計算機科學學位,占有19%,工程學16%。當然專門針對數據科學的技術工具通常不會設在大學課程中,但是可以通過專門的訓練營或在線課程習得。
課程之外:2個要點
Hank Yun是威爾康奈爾醫學院肺科的一名助理研究員,同時也是NYC數據科學學院的學生。他建議有抱負的數據科學家圍繞他們將要從事的工作進行計劃,并找到一位導師。
- Hank Yun:https://medium.com/@jhaseon
他說:“不要犯我曾經犯過的錯誤。那時我對自己說,我知道數據科學,因為我參加了課程并獲得了證書。”這確實是個不錯的開始,但當你開始學的時候,腦海中要有一個計劃。然后在該領域中找到一名導師,并立刻開始一個令你充滿激情的項目。
當你還是個新手,你不知道你不知道什么。所以如果有個人指導你前行,告訴你,什么是對于現在的你最重要的,什么不是,這將很有幫助。別把時間扔在學習那些***根本無法施展的東西!
知道從你的工具包里取出哪樣工具:保持領先的要點
由于數據科學工具的排名不盡相同,有人可能會困惑,到底該把精力集中在哪些上面。Celeste Fralick是McAfee軟件安全公司的***數據科學家。他在CIO article上強調了這個問題:“一名數據科學家需要處在調查曲線的前端,但別忘了去明白,什么技術該什么時候用。” 這句話意思是,別被新鮮與性感的外表蠱惑,而實際問題需要更多工作。意識到對于生態系統的計算成本,可解釋性,延遲,帶寬,和其它系統邊界條件,還有客戶的到期時間,它本身就能幫助數據科學家知道,使用什么技術最合適。
- CIO article:https://www.cio.com/article/3263790/data-science/the-essential-skills-and-traits-of-an-expert-data-scientist.html
基本軟技能:另外6個要點
Fralick提到了數據科學工作需要的非技術性技能。這也是為什么KDnuggests清單包括了這4項:求知欲,團隊合作,溝通技巧和商業頭腦。Zhan給列出的清單中也包含了一些關鍵的軟技能,如 “有效溝通能力”,“領域經驗” 與上面的 “商業頭腦” 類似。總之,都是指將數據科學實際應用到商業中。
Olivia Parr-Rud提供了她自己的想法,又加入了另外2項軟技能:創新,勇于堅持。她說:“我認為數據科學是科學也是藝術。它需要利用大腦兩側的力量。很多人談及數據科學,說它主要使用左腦。但我發現,想要成功,數據科學家就得充分調用他們的全腦。”
她解釋道,在該領域前行,不僅需要技術能力,還要有創造性和領導性遠見。
大多數左腦/線性任務可以被自動化或外包。為了提供身為一名數據科學家的競爭優勢,我們必須能識別大量信息中的模式(patterns)和綜合性(synthesize),也就要用到左右腦。我們必須是有創造力的思考者。很多優秀的結論都是來自于左右腦的協同工作。
她還強調為什么清晰地表達遠見是基本的:
- “作為數據科學家,我們的目標是幫助客戶增長利潤。大多數主管不理解我們是做什么的,我們是如何去做的。所以我們需要像***一樣去思考,以股東們可以理解和信任的方式,表達我們的發現與建議。”
總結
這個提示單里包含大量地技術工具,技能,和能力,還有可量化的品質,像創造力,領導力。數據科學不僅僅是個數字游戲。數據科學家也不是在虛空中建模,而是要能提出實用的,能解決商業中實際問題的灼見。那些可以在該領域中獲得成功的人,不僅僅精通技術,還能理解工作中團隊各成員的需求。
譯者簡介:國相潔,馬德里自治大學本科,經濟與金融專業。從數據分析師起步,夢想成為一名優秀的數據科學家。希望在成長的路上,結交志趣相投的朋友,不負青春。