純干貨 | 深度學習研究綜述

作者：Edison_G 2017-07-06 13:18:37

深度學習已經在很多領域得到了大力的發展，尤其是語音，圖像，視頻等領域都得到了較大的進步，都優于以前的方法。現在比較熱門的是人臉檢測識別(刷臉)，智能管理(考勤，車牌檢測，監控)，醫學檢查與預測(腦電波返回圖可預測疾病等)等技術。

[[195952]]

一、深度學習

說到深度學習，估計只要有接觸的您，一定會知曉一二，其實深度學習就是機器學習領域的一個新研究方向。

剛剛開始的階段，在語音識別和計算機視覺等多類應用中取得了突破性的進展，尤其在語音領域。其動機在于建立模型模擬人類大腦的神經大體結構，在處理訓練數據(圖像、語音或文本)信號時，通過多個變換階段分層對數據特征進行描述，進而給出數據的表達，以圖像數據為例，靈長類的視覺系統中對這類信號的處理依次為：首先是檢測邊緣，紋理等簡單的初始形狀特征，然后再逐步形成更復雜的視覺形狀，同樣地，深度學習通過組合低層特征形成更加抽象的高層表示、屬性類別或特征，給出數據的分層特征表示。

作為深度學習的“深度”，到底是怎么理解的???

深度學習之所以被稱為“深度” ，其實想相對于那些傳統機器學習而言。就好比我們的模型深度更加深入，在學習過程中，非線性操作的層級數比之前多很多。淺層學習主要是依賴人工特征，也就是依賴人工以往的經驗去提取數據的特征，用模型學習后的特征表示是沒有層次機構的單層特征。而深度學習是在原始輸入數據上，通過逐層變化提取特征，將樣本數據在原始的數據空間特征表示轉換到新的特征空間(就好比SVM對于線性不可分的情況，可以利用核的思想，將原數據的特征空間投影到更高的空間去表達)，然后自動去學習得到層次化的特征表示，從而更有利于物體的分類或特征的可視化。深度學習理論的另一個理論動機是：如果一個函數可用K層結構以簡潔的形式表達，那么用 K-1層的結構表達則可能需要指數級數量的參數( 相對于輸入信號) ，且泛化能力不足。

深度學習的概念最先有這個想法的是G.E. Hinton等人在2006年提出，主要就是將樣本數據通過一定的訓練方法得到多層網絡結構的機器學習過程。傳統的神經網絡隨機初始化網絡中的權值，導致網絡很容易收斂到局部最小值，為解決這一問題，Hinton提出使用無監督預訓練方法優化網絡權值的初值，再進行權值微調的方法，拉開了深度學習的序幕。

其實深度學習就是通過結構中大量單一神經元，每個神經元與海量其他神經元連接，其中連接強度就是我們所說的權值，是下訓練學習過程中不斷的去修改并決定網絡的具體功能。

深度神經網絡是由多個單層非線性網絡疊加而成的，常見的單層網絡按照編碼解碼情況分為3 類：只包含編碼器部分、只包含解碼器部分、既有編碼器部分也有解碼器部分。編碼器提供從輸入到隱含特征空間的自底向上的映射，解碼器以重建結果盡可能接近原始輸入為目標將隱含特征映射到輸入空間。

單層卷積的變換過程：

二、深度學習應用

深度學習已經在很多領域得到了大力的發展，尤其是語音，圖像，視頻等領域都得到了較大的進步，都優于以前的方法。現在比較熱門的是人臉檢測識別(刷臉)，智能管理(考勤，車牌檢測，監控)，醫學檢查與預測(腦電波返回圖可預測疾病等)等技術。下面根據所處理數據類型的不同，對深度學習的應用進行介紹。

5. 1 深度學習在語音識別、合成及機器翻譯中的應用

微軟研究人員使用深度信念網絡對數以千計的senones( 一種比音素小很多的建模單元) 直接建模，提出了第 1 個成功應用于大詞匯量語音識別系統的上下文相關的深層神經網絡——隱馬爾可夫混合模型(CD-DNN-HMM)，比之前最領先的基于常規 CDGMM-HMM 的大詞匯量語音識別系統相對誤差率減少16%以上。

隨后又在含有300h語音訓練數據的Switchboard標準數據集上對CD-DNN-HMM模型進行評測。基準測試字詞錯誤率為18. 5%，與之前最領先的常規系統相比，相對錯誤率減少了33%。

H. Zen等人提出一種基于多層感知機的語音合成模型。該模型先將輸入文本轉換為一個輸入特征序列，輸入特征序列的每幀分別經過多層感知機映射到各自的輸出特征，然后生成語音參數，最后經過聲紋合成生成語音。訓練數據包含由一名女性專業演講者以美國英語錄制的3.3萬段語音素材，其合成結果的主觀評價和客觀評價均優于基于HMM方法的模型。

K. Cho等人提出一種基于循環神經網絡(recurrent neural network，RNN) 的向量化定長表示模型(RNNenc 模型) ，應用于機器翻譯。該模型包含2個RNN 一個RNN用于將一組源語言符號序列編碼為一組固定長度的向量，另一個RNN將該向量解碼為一組目標語言的符號序列。

在該模型的基礎上，D. Bahdanau等人克服了固定長度的缺點(固定長度是其效果提升的瓶頸) ，提出了RNNsearch 的模型。該模型在翻譯每個單詞時，根據該單詞在源文本中最相關信息的位置以及已翻譯出的其他單詞，預測對應于該單詞的目標單詞。該模型包含一個雙向RNN作為編碼器，以及一個用于單詞翻譯的解碼器。在進行目標單詞位置預測時，使用一個多層感知機模型進行位置對齊。采用BLEU評價指標，RNNsearch模型在ACL2014 機器翻譯研討會( ACL WMT 2014) 提供的英 /法雙語并行語料庫上的翻譯結果評分均高于RNNenc 模型的評分，略低于傳統的基于短語的翻譯系統Moses (本身包含具有4.18億個單詞的多語言語料庫) 。另外，在剔除包含未知詞匯語句的測試預料庫上，RNNsearch的評分甚至超過了Moses。

5. 2 深度學習在圖像分類及識別中的應用

5. 2. 1 深度學習在大規模圖像數據集中的應用

A. Krizhevsky等人首次將卷積神經網絡應用于ImageNet大規模視覺識別挑戰賽(ImageNet large scale visual recognition challenge，ILSVRC) 中，所訓練的深度卷積神經網絡在ILSVRC—2012挑戰賽中，取得了圖像分類和目標定位任務的第一。其中，圖像分類任務中，前5選項錯誤率為15. 3%，遠低于第 2 名的26. 2% 的錯誤率;在目標定位任務中，前5選項錯誤率34%，也遠低于第 2 名的50%。

在ILSVRC—2013 比賽中，M.D. Zeiler 等人采用卷積神經網絡的方法，對文獻的方法進行了改進，并在每個卷積層上附加一個反卷積層用于中間層特征的可視化，取得了圖像分類任務的第一名。其前5選項錯誤率為11. 7% ，如果采用ILSVRC—2011數據進行預訓練，錯誤率則降低到11. 2% 。在目標定位任務中，P. Sermanet等人采用卷積神經網絡結合多尺度滑動窗口的方法，可同時進行圖像分類、定位和檢測，是比賽中唯一一個同時參加所有任務的隊伍。多目標檢測任務中，獲勝隊伍的方法在特征提取階段沒有使用深度學習模型，只在分類時采用卷積網絡分類器進行重打分。

在ILSVRC—2014比賽中，幾乎所有的參賽隊伍都采用了卷積神經網絡及其變形方法。其中GoogLeNet小組采用卷積神經網絡結合Hebbian理論提出的多尺度的模型，以6.7%的分類錯誤，取得圖形分類“指定數據”組的第一名; CASIAWS小組采用弱監督定位和卷積神經網絡結合的方法，取得圖形分類“額外數據” 組的第一名，其分類錯誤率為11%。

在目標定位任務中，VGG小組在深度學習框架Caffe 的基礎上，采用 3 個結構不同的卷積神經網絡進行平均評估，以26%的定位錯誤率取得“指定數據”組的第一名;Adobe組選用額外的2000類ImageNet數據訓練分類器，采用卷積神經網絡架構進行分類和定位，以30%的錯誤率，取得了“額外數據” 組的第一名。

在多目標檢測任務中，NUS小組采用改進的卷積神經網絡——(network in network，NIN)與多種其他方法融合的模型，以37%的平均準確率(mean average precision，mAP) 取得“提供數據” 組的第一名;GoogLeNet以44%的平均準確率取得“額外數據” 組的第一名。從深度學習首次應用于ILSVRC挑戰賽并取得突出的成績，到2014年挑戰賽中幾乎所有參賽隊伍都采用深度學習方法，并將分類識錯率降低到6.7%，可看出深度學習方法相比于傳統的手工提取特征的方法在圖像識別領域具有巨大優勢。

5. 2. 2 深度學習在人臉識別中的應用

基于卷積神經網絡的學習方法，香港中文大學的DeepID項目以及FB的DeepFace項目在戶外人臉識別(labeled faces in thewild，LFW)數據庫上的人臉識別正確率分別達97.45%和97.35%，只比人類識別 97. 5%的正確率略低一點點。DeepID項目采用4層卷積神經網絡(不含輸入層和輸出層)結構，DeepFace 采用 5 層卷積神經網絡(不含輸入層和輸出層，其中后3層沒有采用權值共享以獲得不同的局部統計特征)結構。

之后，采用基于卷積神經網絡的學習方法，香港中文大學的DeepID2項目將識別率提高到了99.15%，超過目前所有領先的深度學習和非深度學習算法在LFW數據庫上的識別率以及人類在該數據庫的識別率。DeepID2項目采用和DeepID項目類似的深度結構，包含4個卷積層，其中第3層采用2×2鄰域的局部權值共享，第 4 層沒有采用權值共享，且輸出層與第 3、4層都全連接。

5. 3 深度學習在視頻分類及行為識別中的應用

A. Karpathy等人基于卷積神經網絡提供了一種應用于大規模視頻分類上的經驗評估模型，將Sports-1M數據集的100萬段YouTube視頻數據分為487類。該模型使用4種時空信息融合方法用于卷積神經網絡的訓練，融合方法包括單幀( single frame) 、不相鄰兩幀 (late fusion) 、相鄰多幀(early fusion) 以及多階段相鄰多幀( slow fusion);此外提出了一種多分辨率的網絡結構，大大提升了神經網絡應用于大規模數據時的訓練速度。該模型在Sports-1M上的分類準確率達63.9%，相比于基于人工特征的方法(55.3%)，有很大提升。此外，該模型表現出較好的泛化能力，單獨使用slow fusion 融合方法所得模型在UCF101動作識別數據集上的識別率為65.4%，而該數據集的基準識別率為43.9% 。

S. Ji 等人提出一個三維卷積神經網絡模型用于行為識別。該模型通過在空間和時序上運用三維卷積提取特征，從而獲得多個相鄰幀間的運動信息。該模型基于輸入幀生成多個特征圖通道，將所有通道的信息結合獲得最后的特征表示。該三維卷積神經網絡模型在TRECVID數據上優于其他方法，表明該方法對于真實環境數據有較好的效果;該模型在KTH 數據上的表現，遜于其他方法，原因是為了簡化計算而縮小了輸入數據的分辨率。

M. Baccouche等人提出一種時序的深度學習模型，可在沒有任何先驗知識的前提下，學習分類人體行為。模型的第一步，是將卷積神經網絡拓展到三維自動學習時空特征。接下來使用RNN方法訓練分類每個序列。該模型在KTH上的測試結果優于其他已知深度模型，KTH1和KTH2上的精度分別為94.39%和92.17%。事實上，深度學習的應用遠不止這些，但是本文只是分別從數據的維度上(音頻文本，一維;圖像，二維;視頻，三維)對深度學習的典型應用進行詳細介紹，目的在于突出深度學習帶來的優越性能以及其對不同數據的應用能力。其他應用還包括圖像超分辨率重建、紋理識別、行人檢測、場景標記、門牌識別等。

三、深度學習的問題及趨勢

深度學習算法在計算機視覺(圖像識別、視頻識別等)和語音識別中的應用，尤其是大規模數據集下的應用取得突破性的進展，但仍有以下問題值得進一步研究：

無標記數據的特征學習

目前，標記數據的特征學習仍然占據主導地位，而真實世界存在著海量的無標記數據，將這些無標記數據逐一添加人工標簽，顯然是不現實的。所以，隨著數據集和存儲技術的發展，必將越來越重視對無標記數據的特征學習，以及將無標記數據進行自動添加標簽技術的研究。

模型規模與訓練速度、訓練精度之間的權衡

一般地，相同數據集下，模型規模越大，訓練精度越高，訓練速度會越慢。例如一些模型方法采用ReLU非線性變換、GPU 運算，在保證精度的前提下，往往需要訓練5～7d。雖然離線訓練并不影響訓練之后模型的應用，但是對于模型優化，諸如模型規模調整、超參數設置、訓練時調試等問題，訓練時間會嚴重影響其效率。故而，如何在保證一定的訓練精度的前提下，提高訓練速度，依然是深度學習方向研究的課題之一。

與其他方法的融合

從上述應用實例中可發現，單一的深度學習方法，往往并不能帶來最好的效果，通常融合其他方法或多種方法進行平均打分，會帶來更高的精確率. 因此，深度學習方法與其他方法的融合，具有一定的研究意義。

責任編輯：龐桂玉來源： 36大數據

深度學習應用問題及趨勢

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

純干貨 | 深度學習研究綜述