Kaggle精選:6門精品數據科學課程
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)。
很多網站都提供數據科學在線課程,而筆者最鐘愛的就是Kaggle平臺,使用它的次數最多,比如查看代碼、下載數據和查看其他Jupyter筆記本等。領英也提供課程,但筆者更愿意在已有學習經歷的網站上參加課程。
根據Kaggle上的示例和數據,筆者已經在這個網站上練習了大量的機器學習算法及對應的代碼。老司機帶路,為你篩選一些 Kaggle上可學習的精品數據科學課程。
Kaggle
Kaggle是可以了解數據科學的網站,你可以在上面查看其他數據科學家們開發的機器學習模型,也可以查看數百行代碼,參加機器學習競賽,從大量有用的數據集中下載資源,最終修煉成更優秀的數據科學家。
其上有許多直擊重點的好課,不同于其他常見的數據科學課程,你不必花上數周或數月,可以在幾小時或幾天內就完成整套課程。
課程
這些課程中有些非常簡單,而有些則在學習數據科學和實踐技能方面具有獨特性和優勢,能讓你成為與眾不同的數據科學家。這些課程由數據科學、機器學習和人工智能的領軍者教授或創建。向下拉動課程列表就可以在開始新課程之前看到所需要的必備技能。
其他平臺上的許多課程可能會注重特定的函數、列表、數組、查詢技術,但是Kaggle的這些課程始終注重它們與數據科學項目的聯系,以幫助學習者了解和改進整個數據科學過程。下面列出這14門課程:
- Python
- 機器學習基礎
- 中級機器學習
- 數據可視化
- Pandas
- 特征工程
- 深度學習
- SQL基礎
- 高級SQL
- 地理空間分析
- 微挑戰
- 機器學習的可解釋性
- 自然語言處理
- 游戲人工智能和強化學習基礎
圖源:unsplash
其中有6門我力薦的精品課程:
1. 特征工程
這門課程之所以重要,是因為大多數數據科學家們在職業生涯中都不會收到一個完美的精選數據集,能夠直接納入他們的模型。它在實際應用中是不可或缺的,你總是需要完善特征工程的藝術。本課程重點介紹基線模型、分類編碼、特征生成和特征選擇的過程。
- 基線模型:在基線模型部分,學習者會練習加載數據、準備目標列、轉換時間戳、準備分類變量、創建訓練、驗證和測試拆分、訓練模型,以及對該模型進行預測和評估。
- 分類編碼:特征工程這部分的優勢是假定學習者熟悉獨熱編碼(one-hot encoding)和級別編碼(level encoding)。它提出了一些筆者以前不知道的新方法,包括計數編碼、目標編碼和CatBoost編碼。
- 特征生成:現在將介紹本課程真正精妙的部分,即生成特征。該主題涵蓋交互(結合分類變量)以及時間和數字特征(與課程的特定示例相關)。
- 特征選擇:特征太多會導致模型不佳并難以使用。本部分介紹單變量特征選擇和L1正則化。雖然筆者知道并曾使用過這些方法,但完全不了解sklearn中的feature_selection庫,包括SelectKBest、f_classif和SelectFromModel。
2. 高級SQL
雖然SQL課程沒什么特別之處,但筆者非常喜歡看其中一些部分,這些部分使用了我所見過最有用的SQL的視覺效果以及BigQuery的示例。課程涵蓋的主要主題是:
- 連接和聯合——合并來自多個表的信息
- 分析函數——OVER、PARTITION BY、ORDER BY、窗框子句、分析聚合函數、分析導航函數和分析編號函數
- 嵌套和重復數據——嵌套數據的STRUCT和RECORD、重復數據的ARRAY和UNNEST()
- 編寫高效查詢—查詢優化器、show_amount_of_data_scanned()和show_time_to_run()、僅選擇所需列、讀取較少數據、避免N:N連接
3. 地理空間分析
圖源:pexels
這門課是我目前見過的最好的視覺化示例之一。在本課程中,您可以執行許多自定義地圖,這在其他程序中通常是無法執行的。本課程包括幾個部分:
- 你的第一張地圖——GeoPandas
- 坐標參考系統——地圖投影
- 交互式地圖——熱圖、分級統計圖
- 處理地理空間數據——空間關系
- 同質分析——測量距離和相鄰點
4. 機器學習的可解釋性
該課程概述了SHAP值,這是一個非常有用的庫,幫助數據科學家們向自己和其他非技術相關人員解釋機器學習的結果。在這個特別的課程中你將學習到:模型洞察的用例、排列重要性、Patrial Plot圖、SHAP值、SHAP值的高級用法。
5. 自然語言處理
在筆者的職業生涯中,數據科學中的這一部分用得最多。總是會有重要的、典型的數字數據,但是文本數據幾乎一樣普遍。可以將文本作為特征添加到多個機器學習模型中。
本課程涵蓋NLP入門、文本分類和詞向量。盡管這個話題在數據科學領域似乎有些陌生,但數據科學的這一方面多年以來已司空見慣了。例如,谷歌搜索引擎很可能一直在使用自然語言處理來生成搜索建議。
6. 游戲人工智能和強化學習入門
在數據科學的學習經歷以及緊跟當前數據科學趨勢過程中,筆者從未見過這樣的課程。這些課程中最有趣的部分或許是可以學習如何制作電子游戲。本課程重點關注的其他主題是:
- 玩游戲:游戲代理
- One-Step前瞻:啟發式和博弈樹
- N-Step前瞻:極小極大算法
- 深度強化學習:神經網絡
圖源:unsplash
數據科學課程在網上幾乎隨處可見,但選項太多有時也會造成困擾,因此筆者非常貼心地為你挑選好啦。課程的選擇最終取決于你在尋找什么,如果你想要直接的、非常有益的、真實的數據科學課程應用,Kaggle就是最佳選擇。