準備好進入數據科學領域了嗎?先問問自己這14個問題
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)。
數據行業被認為是增長最快、價值數十億美元的行業之一。許多公司和組織正嘗試充分利用已有數據,確定仍需捕獲和存儲哪些數據。與此同時,數據科學家仍然迫切需要了解數字,挖掘針對棘手業務問題的可能解決方案。最近一項研究表明,2020年大多數高科技工作需要數據科學技能。
數據科學領域確實有很多令人興奮的機會。但在進入數據科學領域前,有必要看看以下問題,以評估數據科學是否真的適合你。
1. 什么是數據科學?
數據科學是一個廣闊的領域,包括幾個細分領域,如數據準備和探索、數據表示和轉換、數據可視化、預測分析、機器學習、深度學習、人工智能等。數據科學能力可分為三個等級:1級(初級);2級(中級);和3級(高級)。
2. 數據科學家的職責
數據科學家利用數據得出有意義、有見地的結論,從而推動機構或組織的決策過程。他們的工作職責包括數據收集、數據轉換、數據可視化和分析構建預測模型,提供行動建議,基于數據實施建議。數據科學家在不同的部門工作,如醫療保健、政府、工業、能源、學術界、技術、娛樂等。
一些雇傭數據科學家的頂級公司有亞馬遜、谷歌、微軟、Facebook(臉書)、LinkedIn(領英)、Twitter(推特)、Netflix(網飛)、IBM(國際商業機器股份有限公司)等。
3. 數據科學家的職業前景
數據科學家的職業前景非常樂觀。IBM預測,到2020年,數據科學家的需求量將激增28%。最近使用LinkedIn求職工具進行的一項研究表明,2020年大部分的高科技工作需要具備數據科學技能,包括商業分析、機器學習和云計算。
4. 數據科學家的收入
數據科學家的收入取決于所在組織或公司、教育背景、經驗年限以及所擔任的特定職務。數據科學家的年薪在5萬美元至25萬美元之間,平均約為12萬美元。
5. 如何為數據科學職業做準備
大多數數據科學或商業分析項目需要以下條件:
- 高水平的定量能力
- 解決問題的心態
- 編程能力
- 有效溝通的能力
- 團隊合作能力
6. 應該重點關注哪些編程語言?
如果你對學習數據科學基礎感興趣,需要從某個地方開始。不要被數據科學家招聘廣告中提到的荒謬編程語言清單所嚇住。雖然學習盡可能多的數據科學工具很重要,但筆者建議從一種或兩種編程語言入手。
當你打下扎實基礎之后,就可以挑戰自己,學習能夠增強技能的不同編程語言、平臺或高效工具。筆者認為,Python和R兩種編程語言在數據科學運用中仍位居前列。我建議從Python開始,因為越來越多的學術訓練項目和行業將Python用作數據科學的默認語言。
7. 成為數據科學家要多長時間
如果你有扎實的分析學科背景知識,如物理、數學、工程、計算機科學、經濟學或統計學,基本上可以自學數據科學的基礎知識。你可以從edX、Coursera或DataCamp等平臺上學習免費的在線課程。
6到12個月內可達到初級水平,7 -18個月內可達到中級水平,18- 48個月內可達到高級水平。達到一定水平所需的時間取決于教育背景以及愿意在數據科學研究上投入的時間。通常,具有分析學科背景的人,如物理、數學、科學、工程、會計或計算機科學,需要的時間比不具有數據科學背景的人要少。
8. 當項目遇到瓶頸,我是否有耐心可以堅持下去
圖源:unsplash
數據科學項目周期可能會很漫長,且要求很高。從問題框架到模型構建和應用,整個過程可能需要數周甚至數月,具體時間取決于問題的規模。作為一名實踐數據科學家,不可避免地會碰到項目瓶頸。耐心、堅韌和毅力是成功開展數據科學事業必不可少的關鍵素質。
9. 我是否具有一定的商業頭腦,可以從一個模型中得出有意義的結論,為組織帶來重要的數據驅動型決策?
數據科學是非常實用的領域,謹記,你可能非常擅長處理數據以及構建良好的機器學習算法,但作為數據科學家,實際應用至關重要。每個預測模型都必須產生在現實情況下有意義且可解釋的結果。必須針對現實對預測模型進行驗證,才意義重大。
數據科學家的角色是從數據中提取有意義的見解,這些見解可用于以數據為依據的決策,從而提高公司效率,或改進業務開展方式,或幫助增加利潤。
10. 我有良好的溝通能力嗎?
數據科學家需要能夠跟團隊的其他成員或組織中的業務主管交流想法。良好的溝通能力將起到關鍵作用,以便能夠向很少或根本不了解數據科學技術概念的人們傳達和展示技術性強的信息。良好的溝通能力將有助于與其他團隊成員,例如數據分析師、數據工程師、現場工程師等營造團結協作的氛圍。
圖源:unsplash
11. 我是一名終身學習者嗎?
數據科學是一個不斷發展的領域,因此請準備好接受和學習新技術。與該領域的發展齊頭并進的一種方法是與其他數據科學家建立網絡。某些可以建立這種網絡的平臺包括LinkedIn、GitHub和medium(TowardsData Science和Towards AI出版物)。這些平臺對于獲取有關該領域最新動態的信息大有裨益。
12. 我能成為團隊的一員嗎?
數據科學家將在數據分析師、工程師、主管的團隊中工作,因此你需要良好的溝通技巧,此外也需要成為一名好的傾聽者,尤其是在項目開發的早期階段,你需要依靠工程師或其他人員來設計和構筑一個好的數據科學項目。
成為一名好的團隊合作者有助于你在商業環境中得心應手,并與團隊中的其他成員以及組織的主管或董事保持良好的關系。
13. 我遵守道德規范嗎?
數據科學必須考慮道德和隱私。你需要了解項目的含義,對自己誠實,避免操縱數據或使用有意產生偏差的方法。從數據收集、分析到模型構建、測試和應用的所有階段,都要遵守道德規范。避免出于誤導或操縱觀眾的目的捏造結果。解釋數據科學項目的發現時要遵守道德規范。
14. 有哪些資源可供學習數據科學?
如果情況允許,可以攻讀數據科學或商業分析碩士學位。如果負擔不起碩士學位課程,則可以自學數據科學。通常,如果具有諸如物理學、數學、經濟學、工程學或計算機科學等分析學科的扎實背景,并且對探索數據科學領域感興趣,那么最好的方法是從大規模開放式在線課程開始。
在建立堅實的基礎后,你可能會尋求其他方法來增加知識和專業技能,如可以從教科書中學習,從事項目以及與其他數據科學領域的有志者建立聯系。
以下推薦的MOOC和教科書可助你掌握數據科學的基礎知識。
推薦的MOOC:
- 數據科學專業證書(哈佛edX):https://www.edx.org/professional-certificate/harvardx-data-science
- 分析:基本工具和方法(佐治亞理工學院edX):https://www.edx.org/micromasters/analytics-essential-tools-methods
- 使用Python應用數據科學(密歇根大學 Coursera):https://www.coursera.org/specializations/data-science-python
推薦書籍:
本書作者以一種易于理解的方式解釋了機器學習中的基本概念,另外還介紹了代碼,你可以使用提供的代碼來練習和構建自己的模型。這本書對我作為數據科學家的旅程幫助很大。
還有許多其他出色的數據科學教科書,例如Wes McKinney的《利用Python進行數據分析》、Kuhn&Johnson的《應用預測建模》、Ian H. Witten、Eibe Frank和Mark A. Hall的《數據挖掘:實用機器學習工具和技術》等等。
每個人背景不同,數據科學的旅程也因人而異。但開始旅程之前,先問問自己這14個問題,會讓你的職業生涯更加清晰。