成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

在工程領域中,機器學習的數學理論基礎尤為重要

開發(fā) 開發(fā)工具
近日加州大學圣巴巴拉分校的 Paul J. Atzberger 回顧了機器學習中的經驗風險與泛化誤差邊界,他認為在科學和工程領域中,我們需要從基本理論與數學出發(fā)高效使用現有方法,或開發(fā)新方法來整合特定領域與任務所需要的先驗知識。

數學在機器學習中非常重要,但我們通常只是借助它理解具體算法的理論與實際運算過程。近日加州大學圣巴巴拉分校的 Paul J. Atzberger 回顧了機器學習中的經驗風險與泛化誤差邊界,他認為在科學和工程領域中,我們需要從基本理論與數學出發(fā)高效使用現有方法,或開發(fā)新方法來整合特定領域與任務所需要的先驗知識。

[[240406]]

近期研究人員越來越多地關注將機器學習方法應用到科學、工程應用中。這主要是受自然語言處理(NLP)和圖像分類(IC)領域近期發(fā)展的影響。但是,科學和工程問題有其獨特的特性和要求,對高效設計和部署機器學習方法帶來了新挑戰(zhàn)。這就對機器學習方法的數學基礎,以及其進一步的發(fā)展產生了強大需求,以此來提高所使用方法的嚴密性,并保證更可靠、可解釋的結果。正如近期當前***結果和統(tǒng)計學習理論中「沒有免費的午餐」定理所述,結合某種形式的歸納偏置和領域知識是成功的必要因素。因此,即使是現有廣泛應用的方法,也對進一步的數學研究有強需求,以促進將科學知識和相關歸納偏置整合進學習框架和算法中。本論文簡單討論了這些話題,以及此方向的一些思路。

在構建機器學習方法的理論前,簡要介紹開發(fā)和部署機器學習方法的多種模態(tài)是非常重要的。監(jiān)督學習感興趣的是在不***條件下找出輸入數據 x 的標注與輸出數據之間的函數關系 f,即 y = f ( x) + ξ,不***條件包括數據有限、噪聲 ξ 不等于 0、維度空間過大或其他不確定因素。其他模態(tài)包括旨在發(fā)現數據內在結構、找到簡潔表征的無監(jiān)督學習,使用部分標注數據的半監(jiān)督學習,以及強化學習。本文聚焦監(jiān)督學習,不過類似的挑戰(zhàn)對于其他模態(tài)也會存在。

應該強調近期很多機器學習算法的成功(如 NLP、IC),都取決于合理利用與數據信號特質相關的先驗知識。例如,NLP 中的 Word2Vec 用于在預訓練步驟中獲取詞標識符的詞嵌入表示,這種表示編碼了語義相似性 。在 IC 中,卷積神經網絡(CNN)的使用非常普遍,CNN 通過在不同位置共享卷積核權重而整合自然圖像的先驗知識,從而獲得平移不變性這一重要的屬性。先驗知識的整合甚至包括對這些問題中數據信號的內在層級和構造本質的感知,這促進了深層架構這一浪潮的興起,深層架構可以利用分布式表征高效捕捉相關信息。

在科學和工程領域中,需要類似的思考才能獲取對該領域的洞察。同時我們需要對機器學習算法進行調整和利用社區(qū)近期進展,以便高效使用這些算法。為了準確起見,本文對監(jiān)督學習進行了簡要描述。

與傳統(tǒng)的逼近理論(approximation theory)相反,監(jiān)督學習的目的不僅是根據已知數據逼近***解 f,還要對抗不確定因素,使模型在未見過的數據上也能獲得很好的泛化性能。這可以通過最小化損失函數 L 來獲得,其中 L 的期望定義了真實風險。L 有很多不同的度量方法,如最小二乘法中的 ℓ (x, y, f) = (f (x) − y)^2,或***似然方法 ℓ (x, y, f) = − log(p (y|x, f))。但是,R (f) 在實踐中是無法計算的,因為模型從數據中獲得的關于分布 D 的信息有限,這促進我們在實踐中使用替代誤差(surrogate error),如經驗風險

從統(tǒng)計學上來說,使用經驗風險也有很大的成本,因為當數據量不夠大時 R hat 可能不會均勻地收斂至真實風險 R(f)。但是,因為 f 來自離散假設空間 H,且 H 在任意選擇的復雜度 c(f) 下可能都是***空間,若 c (f) 滿足時,你可以在 m 個樣本上推出泛化誤差邊界:

其中,概率 1 − δ 適用于隨機數據集。類似的邊界也可以從具備其他復雜度(如 VC 維或 Rademacher 復雜度)的連續(xù)假設空間中推導出。這在數學層面上捕捉了當前很多對應 RHS 優(yōu)化的訓練方法和學習算法。常見的選擇是適用于有限空間的經驗風險最小化,使用 c(f) = log(|H|),其中 c 不再在正則化中發(fā)揮作用。

我們可以了解到如何通過對假設空間 H 和 c(f) 的謹慎選擇來實現更好的泛化與更優(yōu)的性能。對于科學和工程應用而言,這可能包括通過設計 c(f) 或限制空間 H 來整合先驗信息。例如限制 H 僅保持符合物理對稱性的函數、滿足不可壓縮等限制、滿足守恒定律,或者限制 H 滿足更常見的線性或非線性 PDE 的類別。這可以更好地對齊優(yōu)秀的 c(f) 和 R hat,并確保更小的真實風險 R(f)。盡管傳統(tǒng)上這是機器學習的重點,但這不是唯一策略。

正如近期深度學習方法所展示的那樣,你可以使用復雜的假設空間,但不再依賴于隨機梯度下降等訓練方法,而是支持更低復雜度的模型以僅保留與預測 Y 相關的輸入信號 X。類似的機會也存在于科學和工程應用中,這些應用可獲得關于輸入信號相關部分的大量先驗知識。例如,作為限制假設空間的替代方法,訓練過程中你可以在輸入數據上執(zhí)行隨機旋轉,以確保選擇的模型可以在對稱情況下保持預測結果不變。還有很多利用對輸入數據和最終目標的洞察來結合這些方法的可能性。

我們看到即使在本文提到的泛化邊界類型方面也可以獲取大量新觀點。針對改進邊界和訓練方法做進一步的數學研究,可能對高效使用現有方法或開發(fā)新方法來整合先驗知識方面大有裨益。我們希望本文可以作為在一般理論和當前訓練算法中進行數學研究的開端,開發(fā)出更多框架和方法來更好地適應科學和工程應用。

原文地址:https://arxiv.org/pdf/1808.02213.pdf

【本文是51CTO專欄機構“機器之心”的原創(chuàng)文章,微信公眾號“機器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2011-06-10 10:01:05

數據庫性能

2018-11-14 10:32:24

互聯(lián)網

2022-12-30 17:22:29

人工智能開發(fā)

2020-09-29 09:46:16

網絡安全

2022-07-10 14:59:57

機器學習人工智能預測模型

2024-07-01 09:05:00

2011-07-28 16:08:15

2012-08-10 14:35:40

云計算投資回報率ROI

2016-11-08 18:00:44

機器學習

2017-05-12 13:00:40

2017-04-01 14:23:35

PythonR機器學習

2011-03-22 09:33:39

J-Hi

2022-02-16 07:44:48

機器學習模型

2011-08-01 14:24:42

數據加密加密

2017-02-27 14:24:12

機器學習深度學習數學

2019-08-14 07:54:08

物聯(lián)網教育領域IOT

2014-12-09 12:35:11

人工智能機器學習開源項目

2024-10-21 17:33:58

2024-09-24 12:39:52

2018-11-07 20:12:51

APP方法工具
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲国产网址 | 羞羞午夜 | 激情欧美日韩一区二区 | 2020天天操| 日韩免费视频 | 能免费看的av | 国产一区二区三区免费观看在线 | 中文字字幕在线中文乱码范文 | 激情久久久久 | 99tv| 亚洲国产欧美国产综合一区 | 亚洲在线一区二区 | 久久中文字幕视频 | 国产一区二区 | 奇米视频777 | 日韩一及片 | 一区二区三区小视频 | 免费看黄视频网站 | 国产精品久久久久久婷婷天堂 | 亚洲精品一区二区网址 | 欧美成人激情 | 在线观看中文字幕av | 高清人人天天夜夜曰狠狠狠狠 | 亚洲成人999| 天天操狠狠操 | 毛片免费看 | 久久久资源 | 日韩免费在线观看视频 | 久久精品小短片 | 91视频免费黄 | 日韩视频在线观看一区二区 | 91大神新作在线观看 | 久久国产亚洲 | 久久久精品网 | 一级黄色片一级黄色片 | 欧美精品91 | 国产美女自拍视频 | 国产9999精品 | 亚洲一区二区不卡在线观看 | 亚洲一区二区av在线 | 欧美精品一区二区三区视频 |