用于數(shù)據(jù)科學和機器學習的GitHub存儲庫和Reddit主題(5月)
GitHub和Reddit都是比較有趣的平臺,在這里,我不僅學習了數(shù)據(jù)科學的一些***應用,而且還了解數(shù)據(jù)科學家們是如何編程的。
一直以來,GitHub都是開發(fā)人員之間進行協(xié)作的***平臺,并且,我們也看到了數(shù)據(jù)科學和機器學習社區(qū)以同樣的熱情來改善它。
而Reddit仍然是一個很好的數(shù)據(jù)科學領域知識和見解的來源。人們在這個平臺上共享代碼、數(shù)據(jù)科學新聞、尋求幫助和意見、發(fā)表研究論文等。
這篇文章總結了Reddit平臺上5月份的一些關于數(shù)據(jù)科學的討論,其中包括數(shù)據(jù)科學家在未來3年的作用以及有史以來***的機器學習論文集。在GitHub社區(qū)中,英特爾開放了其NLP架構庫,微軟推出ML.NET以支持Dot Net開發(fā)者進行機器學習等。
讓我們來看看GitHub上的***存儲庫以及Reddit上個月發(fā)生的有趣討論吧。下面是之前四個月較為流行的GitHub存儲庫和***Reddit討論(從四月起):
ML.NET
https://github.com/dotnet/machinelearning?spm=a2c4e.11153940.blogcont603064.13.33f65291LqhERf

ML.NET是一個開源機器學習框架。不需要任何構建機器學習模型的經(jīng)驗,機器學習和.NET開發(fā)人員就可以輕松使用.NET開發(fā)自己的模型。這是預發(fā)行版本,包含了基本的分類和回歸算法。
ML.NET最初由Microsoft創(chuàng)建的,并且已用于各種產(chǎn)品,如Windows,Excel,Access,Bing等。此版本還捆綁了用于各種模型訓練任務的.NET API。
NLP Architect
https://github.com/NervanaSystems/nlp-architect?spm=a2c4e.11153940.blogcont603064.14.33f65291LqhERf

NLP Architect是一個開源Python庫,由英特爾實驗室的研究人員開發(fā)和開源,旨在幫助數(shù)據(jù)科學家夠探索自然語言處理(NLP)和自然語言理解(NLU)領域***進的深度學習技術。
這個庫中我最喜歡的組件之一就是可視化組件,可視化組件很整潔的顯示了模型的注釋。更多NLP Architect的信息請點擊https://www.analyticsvidhya.com/blog/2018/05/nlp-architect-an-awesome-open-source-nlp-python-library-from-intel-ai-lab-with-github-link/?spm=a2c4e.11153940.blogcont603064.15.33f65291LqhERf。
Amazon Scraper
https://github.com/tducret/amazon-scraper-python?spm=a2c4e.11153940.blogcont603064.16.33f65291LqhERf
Python包可以讓開發(fā)人員在亞馬遜上搜索和提取產(chǎn)品信息。你需要分析哪些產(chǎn)品,只需使用該包即可,而不再需要編碼來確定。只需輸入想要搜索的關鍵字和***產(chǎn)品數(shù)量(可選),就可以輸出CSV格式,然后進行分析。
PIGO – Face Detection in Go
https://github.com/esimov/pigo?spm=a2c4e.11153940.blogcont603064.17.33f65291LqhERf

Pigo是基于《基于像素強度比較的對象檢測》論文、用Go語言開發(fā)的人臉檢測庫。Pigo庫的主要特點如下:
- 處理速度快。
- 在檢測前不需要做圖像預處理。
- 不需要計算積分圖像,圖像金字塔,HOG金字塔或其他類似的數(shù)據(jù)結構。
人臉檢測基于以二進制文件數(shù)據(jù)樹結構編碼的像素強度比較
RL-Adventure-2: Policy Gradients
https://github.com/higgsfield/RL-Adventure-2?spm=a2c4e.11153940.blogcont603064.18.33f65291LqhERf
這是所有強化學習(RL)愛好者所喜歡的庫。深度學習推動了強化學習編寫了一個人工智能機器人以人類專家級技能來玩Atari游戲。 該存儲庫涵蓋了策略梯度算法的新擴展,這是目前解決強化學習問題***的默認選擇之一。 這些擴展縮短了訓練時間、優(yōu)化了強化學習的整體表現(xiàn)。
Reddit討論
實時手勢姿態(tài)估計
https://www.reddit.com/r/MachineLearning/comments/8n04hp/p_realtime_multihand_pose_estimation_demo/?spm=a2c4e.11153940.blogcont603064.19.33f65291OiQ7QC

這個視頻引起了數(shù)據(jù)科學家和機器學習發(fā)燒友的廣泛關注,我希望你能看完這個視頻,然后你就會很好地了解這項技術是如何實施的。
你會選擇哪篇研究論文來證明機器學習是***的?
https://www.reddit.com/r/MachineLearning/comments/8kbmyn/d_if_you_had_to_show_one_paper_to_someone_to_show/?spm=a2c4e.11153940.blogcont603064.20.33f65291OiQ7QC
如果你是一個機器學習菜鳥,又或者是正在尋找一些用來閱讀或參考的研究論文,這是一個很好的話題。這個話題中列舉了一些優(yōu)秀的機器學習研究論文,每個數(shù)據(jù)科學家都將從中受益匪淺。該討論包括從基本機器學習概念(如高斯模型)到高級概念(如神經(jīng)藝術風格轉(zhuǎn)換),使用簡單功能的增強級聯(lián)等快速對象檢測等論文。這是一個必讀話題。
目前,我們對泛化有什么了解? 對于泛化,我們接下來應該提什么問題?
https://www.reddit.com/r/MachineLearning/comments/8mpxmm/d_what_do_we_currently_know_about_generalization/?spm=a2c4e.11153940.blogcont603064.21.33f65291OiQ7QC
深度學習中的泛化一直都是一個爭議不斷的話題。正如作者所說的那樣,我們?nèi)匀恍枰诓簧賵鼍爸信崿F(xiàn)泛化。這個話題圍繞目前泛化現(xiàn)狀進行了深入探討,以及它為什么在深度和強化學習中很難理解。這個話題帖子很長,如果你是這個領域的菜鳥,對于你來說可能會有點復雜。不過,我建議無論如何都要閱讀這個話題,因為這個話題中包含了一些經(jīng)驗豐富和知識淵博的數(shù)據(jù)科學家的看法。
醫(yī)療行業(yè)的機器學習狀況
https://www.reddit.com/r/MachineLearning/comments/8mqh2r/d_machine_learning_deployed_in_health_care_and/?spm=a2c4e.11153940.blogcont603064.22.33f65291OiQ7QC
該話題專門研究了醫(yī)療行業(yè)的機器學習現(xiàn)狀。醫(yī)療領域數(shù)據(jù)科學家分享了他們工作中的經(jīng)驗和觀點。想要查看任何生命科學領域機器學習和深度學習的任何信息,請參閱該話題!
數(shù)據(jù)科學家3年后潛在的職業(yè)發(fā)展方向
https://www.reddit.com/r/datascience/comments/8m0zev/what_are_the_potential_career_paths_for_data/?spm=a2c4e.11153940.blogcont603064.23.33f65291OiQ7QC
這是大多數(shù)人在進入該領域之前非常關心的一個問題。隨著自動化機器學習工具的迅速采用,公司在幾年內(nèi)會需要數(shù)據(jù)科學家嗎?本話題收集了數(shù)據(jù)科學中不同人員對未來幾年內(nèi)的職業(yè)發(fā)展方向的看法。想要尋求職業(yè)方向的指導,請查看這一話題!