Github最新5大開源機器學習項目!數據計算快至80倍!
通過這5個具有挑戰性的開源機器學習項目,正確地開始2020年的學習吧!這些機器學習項目涵蓋了廣泛的領域,包括Python編程和NLP。

越來越多的人正在尋找一種過渡到數據科學的方法。無論是應屆大學畢業生,還是該行業相對較新的參與者,還是中級專業人員,還是只是對機器學習感到好奇的人,每個人都希望從數據科學中分一杯羹。
我挑選了5個開源機器學習項目(于2020年1月創建),讓你熟悉最新的最新框架和庫。 你會看到從自然語言處理(NLP)到Python編程的所有內容。
1、Reformer– PyTorch中的高效遷移
Transformer體系結構改變了自然語言處理(NLP)格局。 它催生了許多NLP框架,例如BERT,XLNet,GPT-2等。

但是有一個問題,我敢肯定,你們中的大多數都將與之相關–這些以變壓器為動力的模型很大。 他們取得了最先進的結果,但價格太昂貴,超出了大多數想要學習和實施它們的人們的范圍。該項目的作者提供了一個簡單而有效的示例以及整個代碼,以幫助您構建自己的模型。
2、PandaPy –最受歡迎的Python庫
上周我發現了PandaPy,并且已經在我當前的項目中使用了它。 這是一個迷人的Python庫,具有成為主流的巨大潛力。
如果您正在使用混合數據類型(int,float,datetime,str等)進行機器學習項目,則應嘗試使用PandaPy而不是Pandas。 對于這些數據類型,它消耗的內存比Pandas少大約三分之一!
這是您會發現有趣的三個關鍵領域(我從PandaPy GitHub存儲庫中逐字逐句地總結了這些觀點):
1)對于小型數據集(即加號,多號,對數)的簡單計算,PandaPy比Pandas快25倍-80倍
2)對于小型數據集上的表函數(即組,樞紐,放置,連接,填充,填充),PandaPy比Pandas快5倍-100倍。
3)對于大多數使用小數據的用例,PandaPy比Dask,Modin Ray和Pandas快
3、Google Earth Engine – 300多個Jupyter筆記本可分析地理空間數據
多么出色的GitHub存儲庫! 我有很多有抱負的數據科學家在社交平臺上與我聯系,詢問如何開始進行地理空間分析。 這是一個非常有趣的領域,提供了PB級的數據。 我們只需要一種結構化的方法來清理和分析它。這個驚人的資料庫是300多個Jupyter筆記本的集合,其中包含使用Google Earth Engine數據的示例。
這些筆記本依靠三個Python庫來執行代碼:
- Earth Engine Python API
- Folium
- Geehydro
GitHub存儲庫包含大量帶有Python代碼的示例,以幫助新手入門。
4、Automated Visual Analytics 自動化視覺分析
這是為新手提供的另一種高質量的數據可視化創意。 在沒有任何實質性框架的情況下,使數據探索步驟自動化的想法已經浮出了一段時間。 Automated Visual Analytics 旨在使視覺分析由AI驅動和自動化。

5、Fast Neptune–加速機器學習項目
如今,無論是在研究領域還是行業中,可重復性都是任何機器學習項目的關鍵方面。 我們需要跟蹤我們執行的每個測試,每個迭代,我們的機器學習模型的每個參數以及結果。
Fast Neptune庫使我們能夠快速記錄啟動機器學習實驗所需的所有信息。 換句話說,Fast Neptune是您在閱讀以上段落時可能會問到的可重復性問題的答案。
以下是Fast Neptune用來幫助我們進行快速實驗的功能:
- 有關運行代碼的計算機的元數據,包括操作系統和操作系統版本
- 運行實驗的筆記本的要求
- 體驗期間使用的參數,表示要跟蹤的變量的值的名稱
- 在運行期間要記錄的代碼
最先進的技術持續快速發展,對于新來者來說,如何跟上進度,勢必會變得不知所措。stay hungry!