成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機(jī)器學(xué)習(xí)的一般范式

人工智能 機(jī)器學(xué)習(xí)
在這里,我將機(jī)器學(xué)習(xí)的問題簡(jiǎn)化為兩種統(tǒng)計(jì)學(xué)習(xí)。 因?yàn)槲艺J(rèn)為無監(jiān)督學(xué)習(xí)沒有明確的定義,所以我不使用最常見的有監(jiān)督/無監(jiān)督分類。

在這里,我將機(jī)器學(xué)習(xí)的問題簡(jiǎn)化為兩種統(tǒng)計(jì)學(xué)習(xí)。 因?yàn)槲艺J(rèn)為無監(jiān)督學(xué)習(xí)沒有明確的定義,所以我不使用最常見的有監(jiān)督/無監(jiān)督分類。

[[329426]]

1. 生成模型

訓(xùn)練集是一些數(shù)據(jù){x_1,x_2,…,x_n},目標(biāo)是表示這些數(shù)據(jù)的概率分布p(x)。 例如,給定許多貓的照片,我們的目標(biāo)是找到這些貓的照片整體的規(guī)律,以便獲得可以生成看起來像貓的照片的生成功能。 如何畫貓。 同樣,我們希望使用人工制作的示例來教機(jī)器如何講話,如何寫作以及如何撰寫文章。

2. 判別模型

訓(xùn)練集是一對(duì)數(shù)據(jù)和標(biāo)簽{(x_1,y_1),(x_2,y_2),…,(x_n,y_n)},其中x_i是數(shù)據(jù),y_i是標(biāo)簽,并且 目的是在給定數(shù)據(jù)的情況下表達(dá)標(biāo)簽的條件概率,即p(y | x)。 例如,我們有很多照片x_i,每張照片都有一個(gè)標(biāo)簽,告訴我們?cè)撜掌秦堖€是狗。 然后,y_i有兩個(gè)可能的值,y_i = cat或y_i = dog。 我們希望機(jī)器學(xué)習(xí)如何區(qū)分貓和狗,以便當(dāng)我們有了新圖片x 時(shí),機(jī)器還可以通過計(jì)算p(y = cat | x )和p(y = dog | x * )是貓還是狗。 這些問題也被廣泛使用,例如圖像識(shí)別,語音識(shí)別,醫(yī)學(xué)診斷等。

盡管在某些情況下無法同時(shí)包含這兩種模型,但通常可以在進(jìn)行較小的更改的情況下將它們包括在內(nèi)。 在這里,我們將不討論這些次要問題。

通常,我們的目標(biāo)是從某個(gè)數(shù)據(jù)集中找到一個(gè)好的函數(shù),以表示所需的概率分布p(x)或p(y | x)。 但是,許多問題仍未解決。 有無數(shù)種概率分布。 我們應(yīng)該選擇哪些功能? 函數(shù)空間是無限維的,應(yīng)該以哪種方式有限地表示這些函數(shù)? 對(duì)于兩個(gè)候選人的概率分布,我們?nèi)绾闻袛嗨鼈? 如何找到這些功能中最好的。 這些問題將在下面一一回答。 我們將解決機(jī)器學(xué)習(xí)問題的過程概括為以下幾部分。

3. 數(shù)據(jù)集

您要學(xué)習(xí)的對(duì)象。為了避免過度擬合的現(xiàn)象,對(duì)于歧視問題,通常將數(shù)據(jù)集分為訓(xùn)練集(測(cè)試集)和測(cè)試集(測(cè)試集)。模型僅在訓(xùn)練過程中接觸訓(xùn)練集,而訓(xùn)練后的測(cè)試集將用于測(cè)試模型的效果。例如,我們假設(shè)高考和模擬考試的問題相似,但并不完全相同,因此在模擬考試訓(xùn)練之后,高考用于測(cè)試最終的學(xué)習(xí)水平。如果存在遺漏問題的問題,只要在不理解的情況下強(qiáng)行記住高考的真實(shí)問題,一個(gè)人就能在高考中取得良好的成績(jī)。過度擬合將這種現(xiàn)象描述為"死記硬背,而不是類推"。實(shí)際上,訓(xùn)練集也應(yīng)該分成一個(gè)驗(yàn)證集,但是為了簡(jiǎn)化問題,我們這里不再討論。

4. 模型空間

所有可能的概率分布函數(shù)都是一個(gè)巨大的集合。在這里找到最佳功能就像在大海撈針。因此,我們經(jīng)常選擇一些候選函數(shù)并在其中搜索。這個(gè)選擇非常重要,因?yàn)槿绻覀冞x擇的這些替代功能不合適,那么即使我們?cè)谄渲姓业搅俗罴呀鉀Q方案,也仍然無法很好地解決問題。模型空間的選擇幾乎決定了機(jī)器學(xué)習(xí)算法的本質(zhì)。無論是線性回歸,各種基于樹的方法還是由隱馬爾可夫模型表示的圖形模型,最大的區(qū)別之一在于模型空間的選擇。一般來說,機(jī)器學(xué)習(xí)算法是指模型空間和以下將要描述的模型表示。 VC維數(shù)理論向我們揭示了每個(gè)問題的最佳模型(空間)可以最好地解決問題。太大的模型空間很容易導(dǎo)致過度擬合,反之亦然。 )。當(dāng)我們談?wù)撋疃葘W(xué)習(xí)時(shí),我們將回到這個(gè)問題。

5. 模型的表示(參數(shù)化/體系結(jié)構(gòu))

這是一個(gè)相對(duì)模糊的概念,但是我個(gè)人認(rèn)為,它對(duì)于解釋深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)之間的差異具有重要意義。首先,即使我們將模型空間限制在相對(duì)較小的程度,我們?nèi)匀恍枰业揭环N方法來表示空間中的每個(gè)函數(shù),或者需要為該替代函數(shù)命名。舉個(gè)例子,如果我們選擇模型空間作為所有二次函數(shù),即S = {p(x)= a_1 x²+ b_1 x + c_1,對(duì)于任何a_1,b_1,c_1},我們可以指向通過長(zhǎng)度為三的向量(a_1,b_1,c_1)在每個(gè)S中使用該函數(shù)。但是,S可以寫為不同。例如,對(duì)于任何a_2,b_2,c_2,d_2},S也可以表示為S = {p(x)=(a_2 * x + b_2)(c_2 x + d_2),這樣,我們可以也用向量(a_2,b_2,c_2,d_2)表示每個(gè)候選函數(shù)。作為一個(gè)集合,兩個(gè)函數(shù)空間完全相同,但是作為幫助我們找到最佳函數(shù)的指南,不同的表示形式可能會(huì)有很大的不同。還有一類非參數(shù)模型(非參數(shù))無法簡(jiǎn)化為這種情況,例如kNN(k最近鄰),但它們不是本文的重點(diǎn)。

6. 目標(biāo)函數(shù)(object / loss function)

為了判斷哪種函數(shù)是好的,我們需要引入一個(gè)可量化的標(biāo)準(zhǔn),通常稱為目標(biāo)函數(shù)(object function),也通常稱為損失函數(shù)(loss function)。 ,因此表示為L(zhǎng)。對(duì)于每個(gè)候選函數(shù)p(x),L將給出評(píng)估L(p),L(p)越小意味著p(x)越好。通常,L與訓(xùn)練集有關(guān),因?yàn)長(zhǎng)應(yīng)該反映p(x)是否包含訓(xùn)練集中包含的信息。對(duì)于判別問題,最簡(jiǎn)單的選擇之一可以是訓(xùn)練集上p(y | x)的準(zhǔn)確性。精度越高,訓(xùn)練集中包含的信息p(y | x)就越多。但是這里也存在過度擬合的危險(xiǎn),因?yàn)橛?xùn)練集的高精度不一定意味著測(cè)試集的高精度,所以p(y | x)可能只是記錄了樣本中的大多數(shù)示例。訓(xùn)練集(記憶),僅此而已。除了限制模型空間外,我們還可以向目標(biāo)函數(shù)添加正則化以限制這種情況的發(fā)生。簡(jiǎn)單來說,常規(guī)術(shù)語代表我們對(duì)不同模型的偏好。對(duì)于具有相似性能的兩個(gè)不同模型,我們將根據(jù)正則項(xiàng)的大小進(jìn)行選擇。例如,根據(jù)奧卡姆(Occam)的剃刀原則,我們可以設(shè)計(jì)一個(gè)常規(guī)術(shù)語,以便在某種意義上可以選擇一個(gè)盡可能簡(jiǎn)單的模型。最后,除了準(zhǔn)確性外,常見的目標(biāo)函數(shù)還包括均方估計(jì)(L2),均值絕對(duì)估計(jì)(L1),鉸鏈損失,負(fù)對(duì)數(shù)似然和交叉熵。其中,交叉熵通常可以從KL散度導(dǎo)出。

7. 優(yōu)化算法

在準(zhǔn)備的前四個(gè)步驟之后,我們可以嚴(yán)格地將機(jī)器學(xué)習(xí)問題定義為優(yōu)化問題,即找到最大值/最小值的問題。給定數(shù)據(jù)集,選擇與數(shù)據(jù)集相關(guān)的目標(biāo)函數(shù)L,定義模型空間S,并通過一些參數(shù)化將其表示為S = {p_w:對(duì)于T中的任何w},其中T通常是多維歐幾里得的子集空間,即w是滿足某些條件的向量。那么,我們需要解決的優(yōu)化問題是min_ {w in T} L(p_w),即找到T中的w以使L(p_w)的值最小。

對(duì)于不同的機(jī)器學(xué)習(xí)問題,此優(yōu)化問題可能具有非常不同的屬性,最合適的優(yōu)化算法自然也有所不同。許多機(jī)器學(xué)習(xí)模型都有特定的優(yōu)化算法,例如支持向量機(jī)(support vector machine)SMO算法和混合模型(mixture model)EM算法。另外,影響優(yōu)化結(jié)果的因素是初始化。許多優(yōu)化算法可以看作是在定義域中沿著特定路徑進(jìn)行的一系列搜索。對(duì)于復(fù)雜的優(yōu)化問題,搜索的起點(diǎn)通常非常重要。初始選擇方法可以看作是優(yōu)化算法的一部分。優(yōu)化算法本身也是一個(gè)很好的研究方向。稍后,我們將繼續(xù)討論有關(guān)優(yōu)化算法和深度學(xué)習(xí)之間的相互作用的主題。

以上五個(gè)步驟基本上總結(jié)了解決機(jī)器學(xué)習(xí)問題或應(yīng)用機(jī)器學(xué)習(xí)算法的整個(gè)過程。 其中,通過優(yōu)化算法求解的過程就是所謂的訓(xùn)練過程(training)。 訓(xùn)練的時(shí)間取決于數(shù)據(jù)集和模型的大小。 在筆記本上,此過程可能需要幾秒鐘,而在計(jì)算群集上,則可能需要幾天。

 

責(zé)任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2017-10-27 18:40:01

機(jī)器學(xué)習(xí)終身機(jī)器學(xué)習(xí)遷移學(xué)習(xí)

2010-10-08 14:23:08

MySQL中INSER

2011-09-08 11:35:18

2017-08-31 14:09:26

數(shù)據(jù)庫MySQLSQL優(yōu)化

2020-10-30 10:23:14

機(jī)器學(xué)習(xí)趨勢(shì)范式

2021-08-19 09:16:29

MySQL數(shù)據(jù)庫優(yōu)化器

2021-08-16 08:42:31

MySQL查詢數(shù)據(jù)庫

2022-04-02 15:08:54

API調(diào)試

2011-04-06 16:41:25

LCPPPPIPCP

2010-09-14 10:55:14

DIV CSS網(wǎng)頁制作

2012-06-27 09:29:49

程序員

2019-06-05 15:23:09

Redis緩存存儲(chǔ)

2018-01-08 15:07:15

java項(xiàng)目后臺(tái)

2023-07-27 08:34:57

軟件迭代管理

2013-01-20 21:55:24

移動(dòng)策略

2010-03-31 09:51:38

CentOS系統(tǒng)

2012-07-25 14:25:08

PrismPrism4MVVM

2010-08-27 12:56:25

數(shù)據(jù)保護(hù)

2011-07-03 23:27:01

SEO

2017-08-09 10:48:45

CIO數(shù)字化轉(zhuǎn)型互聯(lián)網(wǎng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 手机看黄av免费网址 | 成人一区二区三区在线观看 | 亚洲精品1区 | 久久精品99 | 日韩国产精品一区二区三区 | 精品久久久久久久久久久 | 久久6视频 | 毛片网站在线观看视频 | 在线观看视频91 | 国产网站在线免费观看 | 成人a视频在线观看 | 日韩毛片| 日韩中文字幕一区 | 亚洲欧洲一区二区 | 91视视频在线观看入口直接观看 | 欧美一区二区三区四区视频 | 韩国av一区二区 | 特黄特色大片免费视频观看 | 91亚洲国产亚洲国产 | 日韩精品免费在线观看 | 久综合 | 色婷婷一区二区三区四区 | 日韩在线一区二区 | 免费一级黄色电影 | 国产九九精品 | 国产欧美精品区一区二区三区 | 日韩亚洲欧美一区 | 日韩在线h| 91一区二区三区在线观看 | 九色 在线 | 资源首页二三区 | 久久久久成人精品 | 日韩综合在线 | 久久久99国产精品免费 | 欧美成人综合 | 久久影音先锋 | 精品一区二区三区中文字幕 | 91视视频在线观看入口直接观看 | 午夜一区二区三区 | 日本午夜精品一区二区三区 | 亚洲国产网 |