在工程領域中，機器學習的數學理論基礎尤為重要

作者：機器之心編譯 2018-08-17 04:27:16

近日加州大學圣巴巴拉分校的 Paul J. Atzberger 回顧了機器學習中的經驗風險與泛化誤差邊界，他認為在科學和工程領域中，我們需要從基本理論與數學出發(fā)高效使用現有方法，或開發(fā)新方法來整合特定領域與任務所需要的先驗知識。

數學在機器學習中非常重要，但我們通常只是借助它理解具體算法的理論與實際運算過程。近日加州大學圣巴巴拉分校的 Paul J. Atzberger 回顧了機器學習中的經驗風險與泛化誤差邊界，他認為在科學和工程領域中，我們需要從基本理論與數學出發(fā)高效使用現有方法，或開發(fā)新方法來整合特定領域與任務所需要的先驗知識。

[[240406]]

近期研究人員越來越多地關注將機器學習方法應用到科學、工程應用中。這主要是受自然語言處理(NLP)和圖像分類(IC)領域近期發(fā)展的影響。但是，科學和工程問題有其獨特的特性和要求，對高效設計和部署機器學習方法帶來了新挑戰(zhàn)。這就對機器學習方法的數學基礎，以及其進一步的發(fā)展產生了強大需求，以此來提高所使用方法的嚴密性，并保證更可靠、可解釋的結果。正如近期當前***結果和統(tǒng)計學習理論中「沒有免費的午餐」定理所述，結合某種形式的歸納偏置和領域知識是成功的必要因素。因此，即使是現有廣泛應用的方法，也對進一步的數學研究有強需求，以促進將科學知識和相關歸納偏置整合進學習框架和算法中。本論文簡單討論了這些話題，以及此方向的一些思路。

在構建機器學習方法的理論前，簡要介紹開發(fā)和部署機器學習方法的多種模態(tài)是非常重要的。監(jiān)督學習感興趣的是在不***條件下找出輸入數據 x 的標注與輸出數據之間的函數關系 f，即 y = f ( x) + ξ，不***條件包括數據有限、噪聲 ξ 不等于 0、維度空間過大或其他不確定因素。其他模態(tài)包括旨在發(fā)現數據內在結構、找到簡潔表征的無監(jiān)督學習，使用部分標注數據的半監(jiān)督學習，以及強化學習。本文聚焦監(jiān)督學習，不過類似的挑戰(zhàn)對于其他模態(tài)也會存在。

應該強調近期很多機器學習算法的成功(如 NLP、IC)，都取決于合理利用與數據信號特質相關的先驗知識。例如，NLP 中的 Word2Vec 用于在預訓練步驟中獲取詞標識符的詞嵌入表示，這種表示編碼了語義相似性。在 IC 中，卷積神經網絡(CNN)的使用非常普遍，CNN 通過在不同位置共享卷積核權重而整合自然圖像的先驗知識，從而獲得平移不變性這一重要的屬性。先驗知識的整合甚至包括對這些問題中數據信號的內在層級和構造本質的感知，這促進了深層架構這一浪潮的興起，深層架構可以利用分布式表征高效捕捉相關信息。

在科學和工程領域中，需要類似的思考才能獲取對該領域的洞察。同時我們需要對機器學習算法進行調整和利用社區(qū)近期進展，以便高效使用這些算法。為了準確起見，本文對監(jiān)督學習進行了簡要描述。

與傳統(tǒng)的逼近理論(approximation theory)相反，監(jiān)督學習的目的不僅是根據已知數據逼近***解 f，還要對抗不確定因素，使模型在未見過的數據上也能獲得很好的泛化性能。這可以通過最小化損失函數 L 來獲得，其中 L 的期望定義了真實風險。L 有很多不同的度量方法，如最小二乘法中的 ℓ (x, y, f) = (f (x) − y)^2，或***似然方法 ℓ (x, y, f) = − log(p (y|x, f))。但是，R (f) 在實踐中是無法計算的，因為模型從數據中獲得的關于分布 D 的信息有限，這促進我們在實踐中使用替代誤差(surrogate error)，如經驗風險。

從統(tǒng)計學上來說，使用經驗風險也有很大的成本，因為當數據量不夠大時 R hat 可能不會均勻地收斂至真實風險 R(f)。但是，因為 f 來自離散假設空間 H，且 H 在任意選擇的復雜度 c(f) 下可能都是***空間，若 c (f) 滿足時，你可以在 m 個樣本上推出泛化誤差邊界：

其中，概率 1 − δ 適用于隨機數據集。類似的邊界也可以從具備其他復雜度(如 VC 維或 Rademacher 復雜度)的連續(xù)假設空間中推導出。這在數學層面上捕捉了當前很多對應 RHS 優(yōu)化的訓練方法和學習算法。常見的選擇是適用于有限空間的經驗風險最小化，使用 c(f) = log(|H|)，其中 c 不再在正則化中發(fā)揮作用。

我們可以了解到如何通過對假設空間 H 和 c(f) 的謹慎選擇來實現更好的泛化與更優(yōu)的性能。對于科學和工程應用而言，這可能包括通過設計 c(f) 或限制空間 H 來整合先驗信息。例如限制 H 僅保持符合物理對稱性的函數、滿足不可壓縮等限制、滿足守恒定律，或者限制 H 滿足更常見的線性或非線性 PDE 的類別。這可以更好地對齊優(yōu)秀的 c(f) 和 R hat，并確保更小的真實風險 R(f)。盡管傳統(tǒng)上這是機器學習的重點，但這不是唯一策略。

正如近期深度學習方法所展示的那樣，你可以使用復雜的假設空間，但不再依賴于隨機梯度下降等訓練方法，而是支持更低復雜度的模型以僅保留與預測 Y 相關的輸入信號 X。類似的機會也存在于科學和工程應用中，這些應用可獲得關于輸入信號相關部分的大量先驗知識。例如，作為限制假設空間的替代方法，訓練過程中你可以在輸入數據上執(zhí)行隨機旋轉，以確保選擇的模型可以在對稱情況下保持預測結果不變。還有很多利用對輸入數據和最終目標的洞察來結合這些方法的可能性。

我們看到即使在本文提到的泛化邊界類型方面也可以獲取大量新觀點。針對改進邊界和訓練方法做進一步的數學研究，可能對高效使用現有方法或開發(fā)新方法來整合先驗知識方面大有裨益。我們希望本文可以作為在一般理論和當前訓練算法中進行數學研究的開端，開發(fā)出更多框架和方法來更好地適應科學和工程應用。

原文地址：https://arxiv.org/pdf/1808.02213.pdf

【本文是51CTO專欄機構“機器之心”的原創(chuàng)文章，微信公眾號“機器之心( id: almosthuman2014)”】

戳這里，看該作者更多好文

責任編輯：趙寧寧來源： 51CTO專欄

機器學習數學理論工程領域

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

在工程領域中，機器學習的數學理論基礎尤為重要