成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用兩萬篇論文告訴你:機器學習在過去五年中發生了什么

人工智能 機器學習
來自斯坦福大學計算機學院的博士畢業生、OpenAI 的高級科學家 Andrej Karpathy 基于一份 arXiv 機器學習論文大數據,從論文數量、開源框架、數學模型和優化算法等多個方面對過去五年中的機器學習變化趨勢進行了詳細分析。

[[188225]]

arXiv.org 是一個專門收集物理學、數學、計算機科學與生物學論文預印本的網站。數據顯示,截至 2014 年底的時候,arXiv 已經達到了一百萬篇以上的論文藏量,并且還在以每月8000篇的速率增長。算是目前全球***規模的論文數據庫之一。

近日,來自斯坦福大學計算機學院的博士畢業生、OpenAI 的高級科學家 Andrej Karpathy 基于一份 arXiv 機器學習論文大數據,從論文數量、開源框架、數學模型和優化算法等多個方面對過去五年中的機器學習變化趨勢進行了詳細分析,并將分析結果發布在個人博客上。

想必你一定聽說過谷歌趨勢(Google Trends)或者百度指數這種工具,任意輸入一個關鍵詞,就能立刻看到關于該詞在過去幾個月甚至幾年之內的變化趨勢。受此啟發,碰巧我手邊正好有一份 arXiv 論文數據集,它收集了過去五年中機器學習相關的 28303 篇論文。那么與谷歌趨勢類似,從這些論文中,我們能否看到一些機器學習領域的科研發展趨勢呢?我就此進行了詳細的數據分析,發現這個結果相當有趣,因此在這里把它分享出來。

論文總量

首先我們看一下論文數量。在過去五年中,arXiv 收集的機器學習論文數量變化情況如下圖所示。

從上圖可以看到,論文總數在 2017 年 3 月出現了一次激增,從時間上看可能是由于 NIPS 和 ICML 等大型會議的論文提交截止日期正好在 3 月。而且有一點需要說明的是,arXiv 的論文數據集雖然全面,但也并不能完全代表整個機器學習行業的變化趨勢,因為畢竟不是所有人都習慣于將自己的論文投遞到 arXiv 網站上。不過,從上圖我們仍然可以看到一個明顯的上升趨勢,這說明機器學習的熱度的確在持續地上升中。

下面我們將以這些論文作為研究材料,看看其中包含著怎樣的變化趨勢。

深度學習框架

首先看看深度學習框架的情況。這里我記錄了在 2017 年 3 月上傳的所有論文中(包括參考書目和論文內容)提到的機器學習框架情況:

可以看到,在 2017 年 3 月份提交的所有論文中大約有 10% 都提到了 TensorFlow。當然,并不是每一篇論文都聲明了框架的使用,但是如果我們假設論文以某一固定的概率分布來聲明框架,并且這個概率與框架本身無關的話,那么大概有高達 40% 的社區都在使用 TensorFlow(如果也算上用 TensorFlow 作為 Keras 后端的論文,這一比例將會更大)。下面是這些框架隨時間變化的趨勢:

可以看到,Theano 已經高速發展了一段時間了,但近期它的增速正在放緩。Caffe 從 2014 年前后開始快速爆發,但在過去幾個月中已經被強大的 TensorFlow 反超。Torch(以及最近的 PyTorch)也處于上升期,雖然增速略顯緩慢,不過增長穩定。我估計再過幾個月再來看這個結果會更有趣,因為根據我的估計,未來 Caffe 和 Theano 將會緩慢衰落,而由于 PyTorch 的崛起,TensorFlow 的增速可能會放緩。

卷積神經網絡模型(CNN)

下面再看一下卷積神經網絡的情況,從下面的圖表中可以清楚地看到,作為 CNN 領域里重要里程碑的 ResNets(深度殘差網絡)在 2016 年底的激增情況,在 2017 年 3 月提交的所有論文中甚至有大約 9% 都提到了 ResNets。

另外,這里還能看到在谷歌 InceptionNet 之前,實際上已經有論文提到了 inception 的概念。

優化算法

在優化算法方面,Adam 算法可以算是應用最多的一個,大約有高達 23% 的論文都提到了它。這里需要說明的是,在實際使用中 Adam 算法的采用率可能更高,因為許多論文都不會顯式地聲明優化算法,更有一部分論文甚至不會闡述關于神經網絡優化的內容。另外,從圖表中還能看出,在 2014 年 12 月 Adam 優化算法被正式提出之前,實際上也有一些論文提到了 “Adam” 關鍵詞,它的概率大約維持在 5% 左右,我猜想可能是因為有許多作者的名字也叫 Adam 的緣故。

研究者

這里我還很好奇地研究了一下深度學習領域各位大牛的名字在論文中的變化情況,結果如下圖所示。需要說明的是,這里的僅根據關鍵詞統計的方式很粗糙,另外我還做了一些歸一化操作。

從圖表中可以看到,在所有提交的論文中,大約有 35% 提到了 bengio,但這里實際上有兩個人: Samy 和 Yoshua,圖中是兩人加起來的結果。另外需要特別指出的是,在所有新論文中有超過 30% 都提到了 Geoff Hinton 大神,這一點很強大。

關鍵詞

***一部分是關鍵詞。這里我首先統計了所有一元關鍵詞和二元關鍵詞在論文中的出現情況 ,并對當下和一年之前這些詞匯的***采用率做了對比。這里我作為基準采用的論文都是一些近兩年被引用次數***的優秀論文。以下是一些排名靠前的關鍵詞:

以 ResNet 舉例來說,它的相對熱度之所以是 8.17,是因為它在 2016 年 3 月所有論文中的采用比是 1.044%,而到了今年 3 月,它的采用比則增長到了 8.53%,用兩個百分比相除,就得到了 8.17。

從以上圖表可以看出,在過去一年中最火熱的機器學習創新技術包括:ResNets、GAN、Adam 和 BatchNorm。在研究方向上熱詞包括:風格轉換(style transfer)、深度強化學習(deep RL)、神經網絡翻譯以及圖像生成等。***,在模型方面可以看到:全卷積網絡(FCN)、 LSTMs/GRUs、Siamese Nets 以及 Encoder decoder nets 等熱詞。

與之相反,哪些關鍵詞在過去一年中出現了下滑,變成了最冷門的關鍵詞?我整理了以下排名:

可以看到,fractal(分形) 和 bayesian(貝葉斯)相關的內容在近一年的時間中熱度衰減嚴重。

總結

話說,看完了所有的分析結果,你不趕緊寫一篇基于全卷積神經網絡、BatchNorm、ResNet 和 GAN 技術,通過 Adam 算法優化,并應用于風格轉換的論文么。

責任編輯:武曉燕 來源: 36大數據
相關推薦

2019-04-19 19:30:20

區塊鏈數字貨幣比特幣

2012-11-26 10:42:41

2021-04-11 10:40:16

Git軟件開發

2018-12-20 11:50:46

Python房租分析

2023-03-31 08:12:30

操作系統nanosleep信號

2016-01-05 11:56:34

2020-12-21 10:19:39

商業智能BI疫情

2012-02-10 09:08:57

運維2012宕機

2021-05-17 08:54:52

AI 數據人工智能

2017-09-06 17:55:17

用戶體驗UE社交媒體

2022-08-23 10:02:56

桌面環境Linux

2023-03-07 11:23:04

2021-05-11 10:33:17

首席信息官首席財務官CIO

2021-10-16 07:21:03

IPv6網絡互聯網

2021-01-17 16:31:46

漏洞網絡安全網絡攻擊

2022-01-25 11:33:14

數據泄露網絡攻擊

2020-04-07 10:29:46

容器微服務開發

2020-07-09 13:49:21

Python開發技術

2023-11-29 16:15:48

CIOCISO

2017-12-27 22:13:34

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日干夜干| 精品国产一区二区三区性色av | 中文字幕三区 | 欧洲成人| 久久久久久美女 | 亚洲一区二区久久 | 国产黄色在线观看 | 91精品国产色综合久久 | 一区二区三区回区在观看免费视频 | 天天综合网91 | 欧美乱码精品一区二区三区 | 国产精品美女久久久久久免费 | 人人干人人干人人 | 91中文字幕在线观看 | 综合久久久 | 性一交一乱一透一a级 | 亚洲色视频 | 美国av毛片| 国产成人一区二区 | 国产精品一区久久久 | 亚洲免费在线观看 | 日韩成人一区 | 欧美日韩一区二区电影 | 午夜精品久久久久99蜜 | 日本aaaa| 国产精品视频久久久 | 一区二区福利视频 | www.国产| 欧美日韩一区二区三区不卡视频 | 婷婷色国产偷v国产偷v小说 | 色在线免费 | 欧美日韩久久精品 | 亚洲精品国产第一综合99久久 | 欧美国产91| 国产馆| 精品国产一区二区三区性色av | 亚洲+变态+欧美+另类+精品 | 国产成人久久 | 精品久久久久久久久久久 | 精品一二三区在线观看 | 亚洲精品天堂 |