2021年成為數據科學家最需要學習的7項技能
雖然這篇文章可能更多的是軼事,但我覺得這篇文章分享了一個有價值的觀點。我特別不是指從搜集來的招聘信息中獲取的數據,因為從我的經驗來看,職位描述和實際工作之間似乎有很大的脫節。
您可能會注意到,這七個技能中的任何一個都與機器學習或深度學習無關,這不是一個錯誤。當前,對在建模前和建模后階段使用的技能有更高的要求。因此,最受推薦的七種學習技能實際上與數據分析師,軟件工程師和數據工程師的技能重疊。
我寫了一篇文章,專門介紹了為什么不應該首先學習機器學習的原因-您可以在下面查看:
SQL
SQL是數據世界中的通用語言。無論你是數據科學家、數據工程師還是數據分析師,你都需要了解SQL。
SQL用于從數據庫中提取數據,處理數據和創建數據管道。本質上,這對于數據生命周期中幾乎每個預分析/預建模階段都很重要。
開發強大的SQL技能將使您能夠將分析,可視化和建模提高到一個新的水平,因為您將能夠以高級方式提取和操作數據。 而且,對于使用PB級數據的公司而言,編寫高效且可擴展的查詢變得越來越重要。
數據可視化
如果您認為創建數據可視化和講故事特定于數據分析師的角色,那么請往下看。
數據可視化只是指以視覺方式呈現的數據-它可以采用圖表的形式,但也可以采用非常規的方式進行呈現。
數據敘事使數據可視化更上一層樓-數據敘事是指"如何"傳達見解。 可以把它想像成一本圖畫書。 一本好的圖畫書具有良好的視覺效果,但也具有將視覺效果聯系起來的引人入勝且功能強大的敘述。
開發數據可視化和講故事的技能至關重要,因為您始終以數據科學家的身份出售自己的想法和模型。 與其他不懂技術的人交流時,這一點尤其重要。
Python
從我的交流來看,Python似乎是學習首選編程語言。這并不意味著如果你使用R,你就不能成為一名數據科學家,但這只是意味著你將在一種不同于大多數人使用的語言中工作。
學習Python語法很容易,但您應該能夠編寫高效的腳本,并利用Python提供的大量庫和包。Python編程是一個應用程序的構建塊,如操作數據,構建機器學習模型,編寫DAG文件等等…
PANDAS
可以說,用Python中最重要的庫是Pandas,它是一個用于數據處理和分析的程序包。 作為數據科學家,無論您要清理數據,瀏覽數據還是處理數據,您都將一直使用此軟件包。
Pandas之所以成為如此流行的軟件包,不僅因為它具有功能性,而且因為DataFrames已成為機器學習模型的標準數據結構。
Git /版本控制
Git是技術社區中使用的主要版本控制系統。
如果那沒有意義,請考慮以下示例。 在高中或大學中,如果您不得不寫一篇論文,則在進行過程中可能會保存不同版本的論文。 例如:
- Final Essay
- └Essay_v1
- └Essay_v2
- └Essay_final
- └Essay_finalfinal
- └Essay_OFFICIALFINAL
Git是一個功能相同的工具,只是它是分布式系統。 這意味著文件(或存儲庫)既存儲在本地也存儲在中央服務器中。
Git非常重要,其原因有以下幾個:
- 它允許您還原到舊版本的代碼
- 它使您可以與其他數位數據科學家和程序員并行工作
- 即使您正在開發一個完全不同的項目,它也可以使您使用與其他代碼庫相同的代碼庫
Docker
Docker是一個容器化平臺,可讓您部署和運行應用程序,例如機器學習模型。
數據科學家不僅知道如何構建模型,而且也知道如何部署模型,這一點變得越來越重要。 實際上,許多職位招聘現在需要在模型部署方面有一定經驗。
學習如何部署模型如此重要的原因是,在將模型與與其關聯的流程/產品進行實際集成之前,它不會產生任何商業價值。
Airflow
Airflow是一種工作流程管理工具,可讓您自動化…良好的工作流程。 更具體地說,Airflow允許您為數據管道和機器學習管道創建自動化的工作流。
Airflow功能強大,因為它使您可以將要用于進一步分析或建模的表格進行生產化,并且它也是可用于部署機器學習模型的工具。
謝謝閱讀!
我希望這有助于指導您的學習,并為您提供新年的方向。 有很多東西要學習,所以我肯定會選擇一些聽起來最有趣的技能,然后再去學習。