15大結構梳理CNN網絡的發展

發布于 2024-6-25 10:13

瀏覽

0收藏

CNN基本部件介紹

1. 局部感受野

在圖像中局部像素之間的聯系較為緊密，而距離較遠的像素聯系相對較弱。因此，其實每個神經元沒必要對圖像全局進行感知，只需要感知局部信息，然后在更高層局部信息綜合起來即可得到全局信息。卷積操作即是局部感受野的實現，并且卷積操作因為能夠權值共享，所以也減少了參數量。

2. 池化

池化是將輸入圖像進行縮小，減少像素信息，只保留重要信息，主要是為了減少計算量。主要包括最大池化和均值池化。

3. 激活函數

激活函數的用是用來加入非線性。常見的激活函數有sigmod, tanh, relu，前兩者常用在全連接層，relu常見于卷積層

4. 全連接層

全連接層在整個卷積神經網絡中起分類器的作用。在全連接層之前需要將之前的輸出展平

經典網絡結構

1. LeNet5

由兩個卷積層，兩個池化層，兩個全連接層組成。卷積核都是5×5，stride=1，池化層使用maxpooling

15大結構梳理CNN網絡的發展-AI.x社區

2. AlexNet

模型共八層（不算input層），包含五個卷積層、三個全連接層。最后一層使用softmax做分類輸出

AlexNet使用了ReLU做激活函數；防止過擬合使用dropout和數據增強；雙GPU實現；使用LRN

15大結構梳理CNN網絡的發展-AI.x社區

3. VGG

全部使用3×3卷積核的堆疊，來模擬更大的感受野，并且網絡層數更深。VGG有五段卷積，每段卷積后接一層最大池化。卷積核數目逐漸增加。

總結：LRN作用不大；越深的網絡效果越好；1×1的卷積也很有效但是沒有3×3好

15大結構梳理CNN網絡的發展-AI.x社區

4. GoogLeNet(inception v1)

從VGG中我們了解到，網絡層數越深效果越好。但是隨著模型越深參數越來越多，這就導致網絡比較容易過擬合，需要提供更多的訓練數據；另外，復雜的網絡意味更多的計算量，更大的模型存儲，需要更多的資源，且速度不夠快。GoogLeNet就是從減少參數的角度來設計網絡結構的。

GoogLeNet通過增加網絡寬度的方式來增加網絡復雜度，讓網絡可以自己去應該如何選擇卷積核。這種設計減少了參數，同時提高了網絡對多種尺度的適應性。使用了1×1卷積可以使網絡在不增加參數的情況下增加網絡復雜度。

15大結構梳理CNN網絡的發展-AI.x社區

Inception-v2

在v1的基礎上加入batch normalization技術，在tensorflow中，使用BN在激活函數之前效果更好；將5×5卷積替換成兩個連續的3×3卷積，使網絡更深，參數更少

Inception-v3

核心思想是將卷積核分解成更小的卷積，如將7×7分解成1×7和7×1兩個卷積核，使網絡參數減少，深度加深

Inception-v4結構

引入了ResNet，使訓練加速，性能提升。但是當濾波器的數目過大（>1000）時，訓練很不穩定，可以加入activate scaling因子來緩解

5.Xception

在Inception-v3的基礎上提出，基本思想是通道分離式卷積，但是又有區別。模型參數稍微減少，但是精度更高。Xception先做1×1卷積再做3×3卷積，即先將通道合并，再進行空間卷積。depthwise正好相反，先進行空間3×3卷積，再進行通道1×1卷積。核心思想是遵循一個假設：卷積的時候要將通道的卷積與空間的卷積進行分離。而MobileNet-v1用的就是depthwise的順序，并且加了BN和ReLU。Xception的參數量與Inception-v3相差不大，其增加了網絡寬度，旨在提升網絡準確率，而MobileNet-v1旨在減少網絡參數，提高效率。

15大結構梳理CNN網絡的發展-AI.x社區

6. MobileNet系列

使用depthwise separable convolutions；放棄pooling層，而使用stride=2的卷積。標準卷積的卷積核的通道數等于輸入特征圖的通道數；而depthwise卷積核通道數是1；還有兩個參數可以控制，a控制輸入輸出通道數；p控制圖像（特征圖）分辨率。

15大結構梳理CNN網絡的發展-AI.x社區

相比v1有三點不同：1.引入了殘差結構；2.在dw之前先進行1×1卷積增加feature map通道數，與一般的residual block是不同的；3.pointwise結束之后棄用ReLU，改為linear激活函數，來防止ReLU對特征的破環。這樣做是因為dw層提取的特征受限于輸入的通道數，若采用傳統的residual block，先壓縮那dw可提取的特征就更少了，因此一開始不壓縮，反而先擴張。但是當采用擴張-卷積-壓縮時，在壓縮之后會碰到一個問題，ReLU會破環特征，而特征本來就已經被壓縮，再經過ReLU還會損失一部分特征，應該采用linear。

15大結構梳理CNN網絡的發展-AI.x社區

互補搜索技術組合：由資源受限的NAS執行模塊集搜索，NetAdapt執行局部搜索；網絡結構改進：將最后一步的平均池化層前移并移除最后一個卷積層，引入h-swish激活函數，修改了開始的濾波器組。

V3綜合了v1的深度可分離卷積，v2的具有線性瓶頸的反殘差結構，SE結構的輕量級注意力模型。

15大結構梳理CNN網絡的發展-AI.x社區

7. EffNet

EffNet是對MobileNet-v1的改進，主要思想是：將MobileNet-1的dw層分解層兩個3×1和1×3的dw層，這樣第一層之后就采用pooling，從而減少第二層的計算量。EffNet比MobileNet-v1和ShuffleNet-v1模型更小，進度更高。

15大結構梳理CNN網絡的發展-AI.x社區

8. EfficientNet

研究網絡設計時在depth, width, resolution上進行擴展的方式，以及之間的相互關系。可以取得更高的效率和準確率。

15大結構梳理CNN網絡的發展-AI.x社區

9. ResNet

VGG證明更深的網絡層數是提高精度的有效手段，但是更深的網絡極易導致梯度彌散，從而導致網絡無法收斂。經測試，20層以上會隨著層數增加收斂效果越來越差。ResNet可以很好的解決梯度消失的問題（其實是緩解，并不能真正解決），ResNet增加了shortcut連邊。

15大結構梳理CNN網絡的發展-AI.x社區

10. ResNeXt

基于ResNet和Inception的split+transform+concate結合。但效果卻比ResNet、Inception、Inception-ResNet效果都要好。可以使用group convolution。一般來說增加網絡表達能力的途徑有三種：1.增加網絡深度，如從AlexNet到ResNet，但是實驗結果表明由網絡深度帶來的提升越來越小；2.增加網絡模塊的寬度，但是寬度的增加必然帶來指數級的參數規模提升，也非主流CNN設計；3.改善CNN網絡結構設計，如Inception系列和ResNeXt等。且實驗發現增加Cardinatity即一個block中所具有的相同分支的數目可以更好的提升模型表達能力。

15大結構梳理CNN網絡的發展-AI.x社區

11. DenseNet

DenseNet通過特征重用來大幅減少網絡的參數量，又在一定程度上緩解了梯度消失問題。

15大結構梳理CNN網絡的發展-AI.x社區

12. SqueezeNet

提出了fire-module：squeeze層+expand層。Squeeze層就是1×1卷積，expand層用1×1和3×3分別卷積，然后concatenation。squeezeNet參數是alexnet的1/50，經過壓縮之后是1/510，但是準確率和alexnet相當。

15大結構梳理CNN網絡的發展-AI.x社區

13. ShuffleNet系列

通過分組卷積與1×1的逐點群卷積核來降低計算量，通過重組通道來豐富各個通道的信息。Xception和ResNeXt在小型網絡模型中效率較低，因為大量的1×1卷積很耗資源，因此提出逐點群卷積來降低計算復雜度，但是使用逐點群卷積會有副作用，故在此基礎上提出通道shuffle來幫助信息流通。雖然dw可以減少計算量和參數量，但是在低功耗設備上，與密集的操作相比，計算、存儲訪問的效率更差，故shufflenet上旨在bottleneck上使用深度卷積，盡可能減少開銷。

15大結構梳理CNN網絡的發展-AI.x社區