成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深度學習的“深度”有什么意義?

人工智能 深度學習
深度學習的”深度”, 早幾年討論的挺多的,身邊有不同的理解:深度=更大規模的網絡,也有認為:深度=更抽象的特征,近年來物理上也有人側面顯示:深度=玻璃相轉變,如果后者的觀點成立,那么僅僅引入GPU甚至FPGA硬件的目的只是加快, 沒有算法的幫助(調參也算一種算法,后面會解釋)是不會加深的!

深度學習的”深度”, 早幾年討論的挺多的,身邊有不同的理解:深度=更大規模的網絡,也有認為:深度=更抽象的特征,近年來物理上也有人側面顯示:深度=玻璃相轉變,如果后者的觀點成立,那么僅僅引入GPU甚至FPGA硬件的目的只是加快, 沒有算法的幫助(調參也算一種算法,后面會解釋)是不會加深的!(注:等號表示強關系,不表示等價)

度量”深“

這個”深“同復雜度的聯系是很緊密的。神經網絡的復雜度,我們可以使用層數,神經元數目,或者連接權重數目作為度量。相對的,數據本身的復雜度,我們用帶標簽的數據的比例和不帶標簽的數據的比例來衡量。

深度=規模?網絡復雜性同分類誤差之間的聯系:

70-90年代關于神經網絡的數學結論可謂多如牛毛,基本上很多討論了規模和泛化之間的關系,尤其是分類問題,關于分類的訓練誤差和測試誤差(泛化能力),基本上歸結為幾個基本要求和限制:

  1. 模型要多復雜: 增加復雜度總是能擬合好訓練樣本,而要獲得良好的泛化能力,普遍認為復雜度應該為訓練數據數目的某種冪次,才能有較好的泛化能力。而且冪次要求小于1,若不然,每增加一個訓練樣本,都必須要擴充網絡,這種模型沒有任何實際意義。謝天謝地,神經網絡可以滿足這個要求,參考文獻3。
  2. 要多少訓練數據:如果網絡節點數為 N,連接權重數為W,那么泛化誤差小于任意指定值ε 的一個合理的要求便是: 訓練數據的數目 >(W/ε)Log(N/ε),這說明復雜的模型需要更多的訓練以獲得優秀的泛化能力!事實上,不斷提高數據量,多層感知器模型也能達到目前深度學習的水平(參考文獻2),認為深度學習=普通多層神經網絡,的確有現實的理由。
  3. 奧卡姆剃刀疑惑:理論上,帶一層隱藏層的核基神經網絡可以將任意數據擬合好(理解為級數展開,每個項就是一個隱藏神經元),那么提高復雜度的作用是啥?無法爭辯的事實是,數據量足夠高以后,簡單的分類器都能給出優秀的結果。關于這一點從相變角度能解釋為何需要實際工程需要一個“過度復雜的網絡”,而不是一個大小“剛剛好的”網絡。
  4. 復雜的代價:一個基本的定理,測試誤差 >= 訓練誤差 + 模型復雜度,過度復雜的代價便是過擬合。防止過擬合的方法沒有通論,業界通稱“黑魔法”。

上面4點告訴我們的表象是,針對靜態非時序分類問題,我們貌似可以不要高大上的算法,只要數據量足夠,網絡足夠復雜,機器夠大,速度夠快,懂點“黑魔法”,在現在的工業界的數據量和模型通常都是用億來衡量其規模的時代,此乃現世王道。

深度=更多抽象特征?一連串問題來了,何為特征?何為好的特征?深度學習的特征為何被稱為抽象的?多層和抽象的關系是啥?

  • 特征=函數展開的基函數?數學上將基函數理解成特征是可以的,當然不必要完備,也不必要正交。比如下圖,圖片特征提取,稀疏編碼就是在一堆特征當中尋找最少且擬合最好的特征組,前提假設是圖片都可以被分解為這些特征的線性疊加。然而前提要求分解仍然是線性的,使得機器上好計算,但是實際問題需要的特征通常是不同類型的組合,強行線性組合就像是吃正宗粵菜的時候來個山東煎餅果子一樣。(圖取自吳恩達的slide)

深度學習的“深度”有什么意義?

特征=低維流形嵌入?

產生成千上萬個沒經驗證的特征總是容易的,但去除冗余特征,也就是去掉那些添不添加都不影響結果的特征,就需要相當的技巧。一種便是通過低維流形去尋找最重要的結構,這種方法可以利用多層自編碼去逐層壓縮維度,也可以用傳統多層神經網絡+Isomap類似的方法一步到位地壓縮維度,然后不斷調整使得嵌入低維的數據點“互相分離的最遠”。由于數據點靠的近表示相似,故此這種方法能將數據本身的平移旋轉按順序嵌入到每塊低維子流形當中。反過來說,如果訓練數據已經包含有其本身的旋轉平移,其低維子流形將會被填充得“更加的豐滿”(如綠色的圓圈,因為手寫數字1無論如何寫都是“ |” 的某種旋轉拉伸),其低維的邊界就更容易被發現。然而這種方法是假設數據的可解釋性隱藏在其低維流形結構上,難免讓人費解,而且不同標簽的嵌入子流形能否被充分分離也是非常困難的事情。(參考G.E.Hinton 06年 nature, Y LeCun,etc)

深度學習的“深度”有什么意義?

  1. 特征=數據拓撲?似乎研究訓練數據本身復雜性的不多,都強調模型對數據的解釋能力。實際上,不論任何數據,任何奇怪的類型,拓撲都是比人設模型更泛的工具。不少人直觀認為拓撲學的概括性過強,用作特征沒法表示數據的內稟結構。其實不然,目前比較火的,如代數拓撲里面有個Persistent homology,其對數據主要特征如此敏感,甚至可以用來當作蛋白質結構的拓撲指紋,有數學家通過這些指紋,甚至發現一些蛋白數據庫的結構錯誤。(參考文獻4,5)
  2. 是特征提升“深度”,還是“深度”提升特征?

深度=玻璃相轉變?何為玻璃相?它對泛化誤差的影響是啥?

  1. 相,作為區分兩種狀態的詞,有個非?,F實和直觀的影響便是,外部條件不變的話,從一種相跨到另一種相是有很大難度的!比如水在低溫會結冰,同樣條件,讓水不結冰的概率,雖然按照玻爾茲曼分布來看并非為零,過冷水便是一例。但這種狀態是非常不穩定的,一旦擾動很快就變成冰,不可能回到液體。
  2. 相變過程=搜索能量最小點,這是一個粗淺的理解,在給定條件下(比如溫度T),相變就是從能量高的狀態(低溫水)找到能量低的狀態(冰)。但是該過程不是直線式的下陂過程,期間要翻過一些很小的山頭,描述這些小山頭的阻礙我們用一個正的能量壘ΔE來表示。其阻礙時間按照阿倫尼烏斯的觀點,正比于N*E^(ΔE/T),指數型的拖延。前面的參數N用來形容山頭的多寡。
  3. 玻璃相。假設這些小山頭不是一個,而是體系自由度的指數,雖然每個山頭的高度不高,累計的阻礙仍然非??捎^,甚至嚴重影響你尋找最小能量態的可能性,進入這種像踩到瀝青的區域,我們用玻璃相來形容。如下圖,比如蛋白質折疊的能量漏斗模型(能量landscape),從計算機模擬上來看,穿過玻璃轉變區(glass transition)進入能量最小值是最消耗時間的一個區域。這個過程硬件提速固然重要,但是并行加速是線性的提高,只解決空間復雜,不解決時間復雜!玻璃區域是包含有時間復雜的,一旦規模巨大后,沒有算法技巧,尋找能量最低點,在這種非凸的模型上,基本無望。

深度學習的“深度”有什么意義?

玻璃世界的山頭類型,這里的山頭不僅包括語義上的山,也包括低谷。數學上嚴格描述應該理解為梯度為零的點,梯度為零的點有兩種,鞍點和極值點。梯度下降法中,鞍點總是可以找到出路的,到了極小點就無望了。物理上,鞍點數目可能會隨著能量不斷下降而慢慢轉換成極小點,如下圖便是Lennard-Jones液固轉變的模擬計算(文獻7),y軸描述鞍點數目,系統還沒到達最小能量(變成固體)就被包圍在一堆極小值附近了,這時候采用梯度下降搜索萬億年都是徒勞的。然而這也告訴我們一個希望,沒必要擔心局部極小,因為一旦到了真正的局部極小,也非常接近最小值了,畢竟大部分區域都是被鞍點割據著。

深度學習的“深度”有什么意義?

智能是非凸的過程!這是一個非常老的觀點,按照早期的計算能力來看,可想而知地不受歡迎。任何訓練都是在最小化某個損失函數L(W)

或叫能量函數也可。Y LeCun(文獻6)等人近來研究的觀點顯示,多層卷積神經網絡的損失函數雖然是非凸的,但是阻礙其通向最優點的山頭屬鞍點居多,是鞍點意味著總是可以找到出路。但是小index的鞍點阻礙能力甚高,而且隨機矩陣理論和模擬顯示,神經網絡在一定能量以上的某個區域全都是這類鞍點,非常類似物理上的Lennard-Jones液固轉變過程,這也能理解為何訓練一個神經網絡會慢慢開始黏在一個區域不動,這個區域的鞍點山頭阻礙都十分可怕(參考8)。(下圖y軸描述鞍點數,橫軸就是損失函數,第4張圖說明能量高到一定程度,鞍點都會消失)

深度學習的“深度”有什么意義?

深度=跨越玻璃相?這里要給個問號,畢竟目前理論都不是在真實工業界的模型下計算出來的,像是一個猜測。想法是,既然訓練存在玻璃阻礙,為何不一開始就把系統初始化到鞍點盡量少的區域,可惜在高維空間判斷鞍點少的區域是個十分復雜的問題。但是我們可以降低維度去判斷,比如引入少量外部控制變量—序參數(權重的平方和,類似SVM中的間隔,輸入層的偏置,無標簽/有標簽數據數目等),然后約束這些序參數,按照某種權重平均掉這些鞍點Wi的貢獻(重要性抽樣說明這約等于將所有W積掉)。由于鞍點多的地方貢獻相對大,序參數調整不好會導致平均結果同其它區域有明顯不同,因此可以用來判斷相區。如下圖,log(ε)表示泛化能力的對數,越小泛化能力越強。β表示無標簽樣本的數目,α表示有標簽樣本數。不同顏色的線是不同偏置,藍色線的偏置最小。不論那條顏色的線,增大無標簽的樣本原則上可以降低誤差,但是理論上存在“相區”,如藍色線的上半支和下半支,中間不穩定,難以逗留長時間,會存在一支相的誤差一直無法下降。它卡住了!

深度學習的“深度”有什么意義?

預訓練能加深!有了控制變量,我們可以通過調整這些值,將損失函數拖到感興趣的區域,從而回避相的影響,這個拖動過程由一個日本人今年的研究表明(文獻9),就是無標簽的預訓練!如下圖,預訓練越多,有標簽的調優能越早找到最小值區域!(log(ε)表示泛化能力的對數,越小泛化能力越強。β表示無標簽樣本的數目,α表示有標簽樣本數,預訓練是RBM之流,激活函數是ReLu)

深度學習的“深度”有什么意義?

不止有預訓練?雖然相的觀點仍然說明這只是一個初始化“黑魔法”而已。但這個步驟確確實實在削弱玻璃相區的阻礙。因此本人也有個臆測,加大規模,加大樣本,提取深層特征的深度學習是跨越相一個表面技巧而已!或許我們能找到一種跨越或者回避相區的通用方法,一旦達到此目的,由此獲得的特征或者才是真正的內稟表示。

責任編輯:未麗燕 來源: 36大數據
相關推薦

2023-10-15 22:34:36

深度學習機器學習

2021-03-08 11:28:59

人工智能深度學習Python

2020-04-16 11:19:55

深度學習神經網絡網絡層

2016-12-07 19:55:33

大數據深度學習

2023-09-20 09:56:18

深度學習人工智能

2021-02-25 10:07:42

人工智能AI機器學習

2022-03-28 11:51:00

深度學習機器學習模型

2011-12-21 10:00:42

Linux 11.12意義

2019-03-06 09:55:54

Python 開發編程語言

2021-05-06 09:05:11

深度學習

2017-05-10 13:12:11

深度學習神經網絡圖像處理

2017-03-06 16:56:37

深度學習本質現狀

2021-04-16 11:31:24

人工智能深度學習

2017-06-27 14:49:20

深度學習機器學習

2021-03-02 14:23:06

人工智能深度學習

2023-11-15 16:12:41

人工智能機器學習深度學習

2017-12-15 14:10:20

深度學習本質邊緣識別

2020-09-29 17:00:33

人工智能

2021-11-12 15:16:32

深度學習數據合成人工智能

2017-03-06 16:13:41

深度學習人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩综合一区 | 国产精品夜夜夜一区二区三区尤 | 亚洲看片| 国产色 | 午夜影院官网 | 成人精品久久 | 亚av在线 | 精品少妇一区二区三区在线播放 | 午夜亚洲| aaa国产大片 | 日韩在线一区二区三区 | 久久精品国产一区二区三区 | 国产亚洲精品精品国产亚洲综合 | 成人在线免费视频 | 成人免费淫片aa视频免费 | 欧美日韩综合一区 | 精品国产一区二区三区性色av | 性欧美精品一区二区三区在线播放 | 久久九九99| 日韩欧美在线免费观看 | 99精品国产一区二区三区 | 国产不卡一区 | 日本三级电影在线观看视频 | 国产 日韩 欧美 中文 在线播放 | 日韩不卡在线观看 | 中文日本在线 | 欧美日韩久| 岛国毛片 | 久久涩涩 | 日韩免费在线观看视频 | 亚洲狠狠丁香婷婷综合久久久 | 日韩在线精品 | 91麻豆产精品久久久久久 | 日本不卡免费新一二三区 | 亚洲精品日韩一区二区电影 | 日韩亚洲欧美综合 | 污片在线免费观看 | 午夜精品视频在线观看 | 久久免费精品 | 在线免费激情视频 | 午夜影院在线播放 |