成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

為什么小批量可以使深度學習獲得更大的泛化

人工智能 深度學習
批大小是機器學習中重要的超參數之一。這個超參數定義了在更新內部模型參數之前要處理的樣本數量。

 批大小是機器學習中重要的超參數之一。這個超參數定義了在更新內部模型參數之前要處理的樣本數量。 

為什么小批量會可以使深度學習獲得更大的泛化 

上圖為使用 SGD 測試不同批量大小的示例。

批量大小可以決定許多基于深度學習的神經網絡的性能。 有很多研究都在為學習過程評估最佳批量大小。 例如,對于 SGD可以使用批量梯度下降(使用批量中的所有訓練樣本)或小批量(使用一部分訓練數據),甚至在每個樣本后更新(隨機梯度下降)。 這些不同的處理方式可以改變模型訓練的的效果。 

為什么小批量會可以使深度學習獲得更大的泛化 

準確性并不是我們關心的唯一性能指標。 模型的泛化能力可能更加重要。 因為如果我們的模型在看不見的數據上表現不佳它就毫無用處。使用更大的批量會導致更差的網絡泛化。 論文“ON LARGE-BATCH TRAINING FOR DEEP LEARNING: GENERALIZATION GAP AND SHARP MINIMA”的作者試圖調查這種現象并找出為什么會發生這種情況。 他們的發現很有趣,所以我將在本文中進行詳細介紹。 了解這一點將能夠為自己的神經網絡和訓練方式做出更好的決策。

理解論文的假設

要理解任何論文,首先要了解作者試圖證明的內容。 作者聲稱他們發現了為什么大批量會導致更差的泛化。 他們“提供了支持大批量方法趨向于收斂到訓練和測試函數的sharp minima(尖銳的最小值)的觀點的數值證據——眾所周知,sharp minima會導致較差的泛化。 而小批量方法始終收斂到flat minima(平坦的最小值),論文的實驗支持一個普遍持有的觀點,即這是由于梯度估計中的固有噪聲造成的。” 我們將在本篇文章中做更多的說明,所以讓我們一步一步來。 下圖描繪了尖銳最小值和平坦最小值之間的差異。 

為什么小批量會可以使深度學習獲得更大的泛化 

對于尖銳的最小值,X 的相對較小的變化會導致損失的較大變化

一旦你理解了這個區別,讓我們理解作者驗證的兩個(相關的)主要主張:

  • 使用大批量將使訓練過程有非常尖銳的損失情況。 而這種尖銳的損失將降低網絡的泛化能力。
  • 較小的批量創建更平坦的損失圖像。 這是由于梯度估計中的噪聲造成的。

作者在論文中強調了這一點,聲明如下: 

為什么小批量會可以使深度學習獲得更大的泛化 

我們現在將查看他們提供的證據。 他們設置實驗的一些方法很有趣,會教會我們很多關于設置實驗的知識。

定義銳度

銳度是一個易于掌握和可視化的直觀概念。 但是它也存在有一些問題。 例如機器學習對高維數據進行計算/可視化可能很費資源和時間。 作者也提到了這一點, 所以他們使用更簡單的啟發式方法:通過相鄰點來進行銳度的檢查, 該函數的最大值就可以用于靈敏度的計算。

論文原文中說到:

我們采用了一種敏感性度量,雖然不完美,但在計算上是可行的,即使對于大型網絡也是如此。 它基于探索解決方案的一個小鄰域并計算函數 f 在該鄰域中可以達到的最大值。 我們使用該值來測量給定局部最小值處訓練函數的靈敏度。 由于最大化過程是不準確的,并且為了避免被僅在 Rn 的微小子空間中獲得較大 f 值的情況所誤導,我們在整個空間 Rn 以及隨機流形中都執行了最大化

需要注意的是,作者將一定程度的交叉驗證集成到程序中。 雖然從解決方案空間中獲取多個樣本似乎過于簡單,但這是一種非常強大的方法并且適用于大多數情況。 如果你對他們計算的公式感興趣,它看起來像這樣。 

為什么小批量會可以使深度學習獲得更大的泛化 

查看相關的證明

我們了解了作者提出的基本術語/定義,讓我們看看提出的一些證據。 本篇文章中無法分享論文/附錄中的所有內容,所以如果你對所有細節感興趣可以閱讀論文的原文。 

為什么小批量會可以使深度學習獲得更大的泛化 

在上面的圖中可以看到交叉熵損失與銳度的關系圖。從圖中可以看到,當向右移動時損失實際上越來越小。那么這個圖表是什么意思呢?隨著模型的成熟(損失減少),Large Batch 模型的清晰度會增加。用作者的話來說,“對于在初始點附近的較大的損失函數值,小批次 和 大批次 方法產生相似的銳度值。隨著損失函數的減小,與 大批次 方法相對應的迭代的銳度迅速增加,而對于 小批次 方法銳度最初保持相對恒定然后降低,這表明在探索階段之后會收斂到平坦的最小化器。”

作者還有其他幾個實驗來展示結果。除了在不同類型的網絡上進行測試外,他們還在小批量和大批量網絡上使用了熱啟動。結果也與我們所看到的非常一致。 

為什么小批量會可以使深度學習獲得更大的泛化 

我在論文中發現的一個有趣的觀點是,當他們證明了這種較低的泛化與使用較大批大小時的模型過擬合或過度訓練無關時。 很容易假設過擬合是低泛化的原因(一般情況下我們都這么理解),但作者反對這一點。 要了解他們的論點,請查看此表。 

為什么小批量會可以使深度學習獲得更大的泛化 

小批量訓練通常具有更好的訓練性能。 即使在我們使用小批量訓練的訓練精度較低的網絡中,我們也注意到會有更高的訓練精度。 作者以下原文可以作為重點,“我們強調,泛化差距不是由于統計中常見的過擬合或過度訓練造成的。 這種現象以測試準確度曲線的形式表現出來,該曲線在某個迭代峰值處,然后由于模型學習訓練數據的特性而衰減。 這不是我們在實驗中觀察到的。 F2 和 C1 網絡的訓練-測試曲線見圖 2,它們是其他網絡的代表。 因此,旨在防止模型過擬合的早停的啟發式方法并不能夠縮小泛化差距。” 

為什么小批量會可以使深度學習獲得更大的泛化 

看看網絡收斂到測試精度的速度有多快

簡而言之,如果這是過度擬合的情況,將不會看到 大批次 方法的性能始終較低。 相反通過更早的停止,我們將避免過擬合并且性能會更接近。 這不是我們觀察到的。 我們的學習曲線描繪了一幅截然不同的表現。 

為什么小批量會可以使深度學習獲得更大的泛化

 

 

責任編輯:華軒 來源: 今日頭條
相關推薦

2012-12-11 10:36:52

AMD成本小批量

2021-03-08 11:28:59

人工智能深度學習Python

2022-03-28 11:51:00

深度學習機器學習模型

2020-04-16 11:19:55

深度學習神經網絡網絡層

2022-07-06 10:23:13

深度學習神經網絡

2017-12-15 14:10:20

深度學習本質邊緣識別

2024-05-23 13:26:27

2019-06-12 12:08:50

戴爾

2017-09-29 14:56:28

深度學習CTR預估

2021-11-29 11:40:46

FPGA芯片數據中心

2011-05-24 16:39:09

Cfree()

2025-04-21 16:29:15

機器人人形機器人人工智能

2022-06-09 16:48:10

TensorFlow機器學習

2021-01-08 20:14:40

AI

2024-10-24 16:34:45

深度學習CUDA人工智能

2017-07-03 10:52:20

深度學習人工智能

2017-05-08 16:13:33

深度學習神經網絡深度

2016-10-21 13:01:47

金雅拓

2021-09-17 10:19:56

HP Sudo漏洞root權限
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91在线精品视频 | 在线观看视频一区 | 日本午夜网站 | 精品久久久久久久 | 偷拍自拍网 | 日韩在线中文字幕 | 久久精品福利 | 酒色成人网 | 久久久久成人精品 | 中文字幕亚洲精品在线观看 | 午夜久草 | 国产一区久久久 | 成人精品国产 | 在线精品国产 | 国产目拍亚洲精品99久久精品 | 国产乱码精品一品二品 | 欧美精品片| 免费观看一级特黄欧美大片 | 精品一区二区三区四区视频 | 91操操操 | 亚洲www.| 99久热 | 欧美xxxx性| 精品亚洲91 | 欧美精品乱码99久久影院 | 国产香蕉视频在线播放 | 亚洲91精品| 精品国产31久久久久久 | 亚洲色欲色欲www | 做a视频| 日本欧美大片 | 国产亚洲欧美日韩精品一区二区三区 | 久久成人人人人精品欧 | 色婷婷av一区二区三区软件 | 日本网站免费观看 | 精品久久亚洲 | 欧美一区二区三区在线观看视频 | 一级黄色片在线看 | 香蕉婷婷| 综合久久av| 国产一区二区三区色淫影院 |