LSTM之父再稱ResNet、GAN等網(wǎng)絡(luò)都有他的功勞，網(wǎng)友：自負(fù)>引用數(shù)

作者：佚名 2021-09-10 10:01:34

新聞

作為21世紀(jì)被引用次數(shù)最多的神經(jīng)網(wǎng)絡(luò)，Jürgen說它引用了他們的Highway Net、然后把它做成了另一個(gè)版本。

[[423032]]

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

“現(xiàn)在引用最多的幾個(gè)神經(jīng)網(wǎng)絡(luò)都是建立在我的實(shí)驗(yàn)室成果之上的！”

能說出此話的不是別人，正是在深度學(xué)習(xí)領(lǐng)域作出了巨大貢獻(xiàn)的LSTM之父——Jürgen Schmidhube。

但這也不是他第一次為“自己的開創(chuàng)性工作沒得到足夠的尊重”而公開發(fā)聲。

LSTM之父再稱ResNet、GAN等網(wǎng)絡(luò)都有他的功勞，網(wǎng)友：自負(fù)>引用數(shù)

在這篇“直抒胸臆”的推文里，他還專門鏈出了個(gè)博客，里面歷數(shù)了他和他的團(tuán)隊(duì)在LSTM、ResNet、AlexNet和VGG、GAN以及Transformer變體——這五個(gè)赫赫有名的神經(jīng)網(wǎng)絡(luò)上的早期貢獻(xiàn)。

來看看他是怎么說的。

“五大神經(jīng)網(wǎng)絡(luò)都是建立在我的實(shí)驗(yàn)室成果之上”

首先是LSTM （Long Short-Term Memory）。這是Jürgen和他的學(xué)生們?cè)?997年提出的一種新的RNN，解決了神經(jīng)網(wǎng)絡(luò)長短期記憶的難題。

根據(jù)谷歌學(xué)術(shù)，這是20世紀(jì)被引用次數(shù)最多的神經(jīng)網(wǎng)絡(luò)。

現(xiàn)在已經(jīng)“滲透”進(jìn)醫(yī)療保健、學(xué)習(xí)機(jī)器人(learning robot)、游戲、語音處理、機(jī)器翻譯等領(lǐng)域，每天被無數(shù)人使用數(shù)十億次。

其厲害之處不用多說，大家對(duì)Jürgen的這項(xiàng)成就也沒啥異議。主要看另外四個(gè)：

ResNet

作為21世紀(jì)被引用次數(shù)最多的神經(jīng)網(wǎng)絡(luò)，Jürgen說它引用了他們的Highway Net、然后把它做成了另一個(gè)版本。

Highway Net，是他的學(xué)生們發(fā)明的第一個(gè)具有100多層的真正的深度前饋神經(jīng)網(wǎng)絡(luò)。

它用跳層連接解決了非常深度的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，其性能也與ImageNet上的ResNet差不多。

這倆的爭議很多人都有分析過，雖然兩者都用了跳層連接技術(shù)，但選擇的機(jī)制不同；多數(shù)人認(rèn)為ResNet應(yīng)該只是受到了Highway Net的啟發(fā)。

但Jürgen不這么認(rèn)為，他還專門強(qiáng)調(diào)了一下，Highway Net也是基于LSTM的思想才得以解決深度訓(xùn)練的問題的。意思是ResNet“一脈相承”了他兩個(gè)成果。

AlexNet和VGG Net

對(duì)于這倆在引用次數(shù)排第二、第三的神經(jīng)網(wǎng)絡(luò)，Jürgen表示：都類似DanNet——他們?cè)?011年提出的第一個(gè)贏得圖像識(shí)別比賽的深度卷積神經(jīng)網(wǎng)絡(luò)，并且DanNet在AlexNet出現(xiàn)之前贏了4場。

因?yàn)?012年出生的AlexNet論文中引用了DanNet，用到了Jürgen團(tuán)隊(duì)提出的摒棄無監(jiān)督預(yù)訓(xùn)練為純監(jiān)督學(xué)習(xí)的DNN思想。

而VGG則是同樣采用了DanNet使用小卷積濾波器增加神經(jīng)網(wǎng)絡(luò)深度的track。

GAN

博文中寫道，大名鼎鼎的GAN也是Jürgen本人在1990年提出的Adversarial Curiosity原則的應(yīng)用，它們都由兩個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行“對(duì)抗”（Adversarial Curiosity則是一個(gè)叫生成器，一個(gè)叫預(yù)測器）。

“炮轟”GAN可不是第一次了，Jürgen甚至還公開和GAN的提出者battle過，但很多學(xué)者分析，GAN并不能視為Adversarial Curiosity的一個(gè)簡單變種。