2018年下半年,別錯過這些深度學習項目!
大數據文摘出品
編譯:fuma、倪倪、蔣寶尚
深度學習現在是一個非常火爆的領域,很難對其快速的發展一一記錄。
今年早些時候,作為嘗試記錄深度學習領域進展的***步,本文作者Ross Taylor創建了網站Papers With Code。該網站是一個將深度學習研究論文與其實現代碼相連接的社區。
Papers With Code:www.paperswithcode.com
這個網站也使得作者對深度學習領域有了一個全面的了解。基于此,通過本文我們可以看到AI的研究趨勢是什么,社區正在采用哪些框架,以及哪些技術正在受到青睞。
***的發布:BERT,vid2vid和graph_nets
Google AI的BERT論文在10月份引起了深度學習界的關注。本文提出了一種深度雙向編碼器模型,該模型可實現11種NLP任務的***進性能,包括斯坦福問答(SQUAD)數據集。 Google AI開源了他們論文的代碼,這是深度學習庫類別中,獲得最多的“星星”的開源代碼。
- 論文下載地址:https://arxiv.org/abs/1810.04805
- 論文代碼:https://github.com/google-research/bert
NVIDIA的一篇關于視頻到視頻合成的論文,是生成建模的又一個驚人結果,生成模型是過去幾年中***的深度學習領域之一。該文利用新穎的順序生成器體系結構,以及諸如前景和背景先驗等許多其他設計特征,修復了時間不連貫的問題、提高性能。 NVIDIA開源了他們的代碼,歡迎程度位居第二。
- 論文下載地址:https://arxiv.org/abs/1808.06601/
- 代碼地址:https://github.com/NVIDIA/vid2vid/
谷歌DeepMind關于圖形網絡的論文在今年年中受到了很多關注。圖形網絡是深度學習開始嘗試的新型結構化數據(大多數深度學習應用都是基于向量和序列)。此開源庫的受歡迎程度排列第三。
- 論文下載地址:https://arxiv.org/abs/1806.01261v3
- 代碼:https://github.com/deepmind/graph_nets/
***的社區:DeOldify,BERT和Fast R-CNN
1. DeOldify
DeOldify使用SA-GAN,這是一個從PG-GAN獲得靈感的架構,應用兩個時間尺度的更新規則。
DeOldify項目非常迷人。作者Jason Antic復現了許多生成建模領域的論文,包括自注意力GAN,逐步增長的GAN和兩個時間尺度的更新規則。在撰寫本文時,該項目的代碼在GitHub上有超過4,000顆星。
DeOldify:https://github.com/jantic/DeOldify
2. BERT
基于PyTorch框架而實現的BERT也非常受歡迎。深度學習社區不斷涌現的代碼往往不是基于Tensorflow就是基于PyTorch,同時用兩個框架實現的需求越來越大,這樣可以方便整個深度學習社區使用它們。 作者Junseong Kim的工作清楚地說明了這一點。目前,這個項目的代碼在github上享有超過1,500個星星。
BERT:https://github.com/codertimo/bert-pytorch
3. Mask R-CNN
***,Waleed Abdulla的基于Keras / TensorFlow實現Mask R-CNN是GitHub第三個獲得星數最多的代碼。在架構上,該實現使用特征金字塔網絡和ResNet101基礎網絡,并且該庫可用于許多應用,例如3D建筑物重建,自動駕駛汽車的物體檢測,地圖中的建筑物類型探測等。該庫在GitHub上有超過8,000顆星。
- 論文下載地址:https://arxiv.org/abs/1703.06870
- 代碼:https://github.com/matterport/Mask_RCNN
最熱門應用:NLP和GAN
在前50個流行的實現應用中,生成模型和自然語言處理(NLP)是兩大最熱門領域。對生成模型而言,GitHub上的流行實現包括:vid2vid,DeOldify,CycleGAN和faceswaps。而在NLP中,流行的GitHub庫包括BERT,HanLP,jieba,AllenNLP和fastText。
7篇新論文中1篇有代碼
你的研究沒有代碼,你在社區上就不會備受關注,規則就是這樣簡單。以下是作者分析他自己平臺上的論文代碼復現情況:
分析基數是過去5年中60,000多份機器學習論文,在6萬篇論文中,將近12%有代碼實現。在過去的6個月中,約15%的新發表論文(即七分之一的論文)都發布了實現代碼。
每隔20分鐘,就有一篇新的機器學習論文
自7月以來,機器學習論文的增長率一直在每月3.5%左右,以此計算,每年的增長率約為50%。這意味著每月大約2,200篇機器學習論文,預計明年將有大約30,000篇新的機器學習論文。
在過去3年中,作者網站上的機器學習論文的數量似乎比摩爾定律的增長速度更快,這讓你感覺人們相信這將是未來計算技術價值的出處。
框架雙頭壟斷:TensorFlow和PyTorch
雖然PyTorch并不落后,但網站上的大多數實現似乎都是基于TensorFlow的。其他的框架(MXNet,Torch和Caffe2)在生態系統中的存在要小得多。鑒于兩個框架中都發生了變化:TensorFlow正朝著即刻執行和由Keras激發靈感的新API方向發展;PyTorch則希望能夠更輕松地把模型產品化。
相關報道:
https://medium.com/atlas-ml/state-of-deep-learning-h2-2018-review-cc3e490f1679
【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】