亞當與夏娃:解決深度學習問題的利器
譯文【51CTO.com快譯】近年來,深度學習的大潮席卷了互聯網的各個角落。從金融科技到電商,從反欺詐到推薦系統,隨處都可以見到深度學習的身影。深度學習的本質是神經網絡,而由于神經網絡的深度較深,如何能夠快速高效的進行計算成為了深度學習很重要的課題。針對訓練神經網絡的隨機梯度下降問題,學者們分別提出了亞當方法(Adam)和夏娃(Eve)方法,成為了解決深度學習問題的利器。
我們先來看一下什么是亞當(Adam)方法:
Hiroaki Hiyashi , Jayanth Koushik , Graham Neubig 在論文 Eve: A Gradient Based Optimization Method with Locally and Globally Adaptive Learning Rates 中提出了一種改進 Adam (亞當) 算法的方法,命名為 Eve (夏娃)方法。 夏娃方法是在亞當算法的基礎上進行了改進,我們先來看一下算法的偽代碼:
***,在針對數據的穩定性問題和平滑性問題,我們對學習速率進行處理,就得到了***在算法偽代碼中展示的步驟。
Adam 算法和 Eve 算法在 CNN 和 RNN 模型的測評結果如下圖所示:
可以看到 Eve 算法在 CNN 上取得了比其他算法都要好的效果,而在 RNN 上的效果也表現不錯。
機器學習和數據挖掘流行了這么多年,其實離不開統計概率和***化的根基。平常大多數機器學習和數據挖掘的從業者都是在工業界深耕,因此對于數學本身的掌握程度要求沒有那么高深。特別是在中國的企業,一般能做到跟進國際***的潮流就可以了。
然而有的時候沉寂下來,用心鉆研一下數學對于自己技術上的理解和深造是很有幫助的。Adam 算法和 Eve 算法本身的數學原理并不復雜,用到的唯一的統計學概念是無偏統計量,值得廣大從業者認真學習其簡單優美的思路。
汪昊,恒昌利通大數據部負責人/資深架構師,美國猶他大學本科/碩士,對外經貿大學在職MBA。曾在百度,新浪,網易,豆瓣等公司有多年的研發和技術管理經驗,擅長機器學習,大數據,推薦系統,社交網絡分析等技術。在 TVCG 和 ASONAM 等國際會議和期刊發表論文 8 篇。本科畢業論文獲國際會議 IEEE SMI 2008 ***論文獎。
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】