成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

直接壓縮一切!OpenAI首席科學(xué)家Ilya Sutskever這么看無(wú)監(jiān)督學(xué)習(xí)

人工智能 新聞
Sutskever 先從監(jiān)督學(xué)習(xí)談起。他表示,監(jiān)督學(xué)習(xí)方面已經(jīng)有了重要的形式化工作,這是多位研究者在多年前得到的成果;這些成果通常被稱(chēng)為統(tǒng)計(jì)學(xué)習(xí)理論。

近日,OpenAI 首席科學(xué)家 Ilya Sutskever 在專(zhuān)注于計(jì)算理論研究的 Simons Institute 作了一次講座,一句話總結(jié)就是我們可以通過(guò)壓縮的視角來(lái)看待無(wú)監(jiān)督學(xué)習(xí)。此外他還分享了不少其它有趣的見(jiàn)解。機(jī)器之心整理了該演講的大體內(nèi)容,希望借此幫助讀者更深入地理解無(wú)監(jiān)督學(xué)習(xí)。

Sutskever 首先談到了自己的研究方向的變化,他說(shuō):「不久前,我將全部的研究重心都轉(zhuǎn)移到了 AI 對(duì)齊研究上。」這說(shuō)的是 OpenAI 前段時(shí)間成立的「Superalignment(超級(jí)對(duì)齊)」團(tuán)隊(duì),由他與 Jan Leike 共同領(lǐng)導(dǎo)。Sutskever 表示他們已經(jīng)在 AI 對(duì)齊方面取得了一些研究成果,但這并非這次演講關(guān)注的話題。對(duì)此感興趣的讀者可參閱《用 AI 對(duì)齊 AI?超級(jí)對(duì)齊團(tuán)隊(duì)領(lǐng)導(dǎo)人詳解 OpenAI 對(duì)齊超級(jí)智能四年計(jì)劃》。

這次演講的主題為「An observation on Generalization(對(duì)泛化的一種觀察)」,而 Ilya Sutskever 具體談?wù)摰闹攸c(diǎn)是一種解釋無(wú)監(jiān)督學(xué)習(xí)的理論。

圖片

首先,Ilya Sutskever 提出了一連串有關(guān)「學(xué)習(xí)」的廣義問(wèn)題:學(xué)習(xí)究竟是什么?為什么學(xué)習(xí)有用?為什么學(xué)習(xí)應(yīng)該有用?計(jì)算機(jī)為什么應(yīng)該具備學(xué)習(xí)能力?為什么神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)?為什么機(jī)器學(xué)習(xí)模型可以學(xué)習(xí)到數(shù)據(jù)的規(guī)律?我們能否用數(shù)學(xué)形式來(lái)描述學(xué)習(xí)?

監(jiān)督學(xué)習(xí)

Sutskever 先從監(jiān)督學(xué)習(xí)談起。他表示,監(jiān)督學(xué)習(xí)方面已經(jīng)有了重要的形式化工作,這是多位研究者在多年前得到的成果;這些成果通常被稱(chēng)為統(tǒng)計(jì)學(xué)習(xí)理論。

監(jiān)督學(xué)習(xí)的優(yōu)勢(shì)在于能提供一個(gè)學(xué)習(xí)必定成功的精確數(shù)學(xué)條件。也就是說(shuō),如果你有一些來(lái)自某數(shù)據(jù)分布的數(shù)據(jù),然后你能成功實(shí)現(xiàn)較低的訓(xùn)練損失并且你的訓(xùn)練數(shù)據(jù)足夠多(多于數(shù)據(jù)分布的自由度),那么你的測(cè)試誤差必定很低。

從數(shù)學(xué)上講,如果能在一類(lèi)函數(shù)中找到能實(shí)現(xiàn)較低訓(xùn)練損失的函數(shù),那么學(xué)習(xí)就必定成功。也因此,監(jiān)督學(xué)習(xí)非常簡(jiǎn)單。

研究者在相關(guān)研究中已經(jīng)發(fā)現(xiàn)了一些定理,如下便是一例。Sutskever 表示解釋這個(gè)定理大概需要五分鐘,但很顯然他的演講時(shí)間有限。

圖片

總而言之,這個(gè)定理很「優(yōu)雅」,只用三行數(shù)學(xué)推導(dǎo)便能證明監(jiān)督學(xué)習(xí)過(guò)程。

所以相對(duì)而言,監(jiān)督學(xué)習(xí)已經(jīng)得到很好的理解。我們知道其必定會(huì)成功的原因 —— 只要我們能收集到大規(guī)模的監(jiān)督學(xué)習(xí)數(shù)據(jù)集,那么就完全可以相信模型必定越來(lái)越好。當(dāng)然另一點(diǎn)也很重要,也就是保證測(cè)試分布和訓(xùn)練分布一致;只有這樣,監(jiān)督學(xué)習(xí)理論才是有效的。

圖片

所以監(jiān)督學(xué)習(xí)的概念是很簡(jiǎn)單的。我們也已經(jīng)有了監(jiān)督學(xué)習(xí)為什么有效的答案 —— 我們知道語(yǔ)音識(shí)別和圖像分類(lèi)為什么可以實(shí)現(xiàn),因?yàn)樗鼈兌蓟谟行矣袛?shù)學(xué)保證的監(jiān)督學(xué)習(xí)。

這里 Ilya Sutskever 順帶提了提 VC 維度。他提到很多統(tǒng)計(jì)學(xué)習(xí)理論的研究者都認(rèn)為 VC 維度是一大關(guān)鍵組件,但 VC 維度被發(fā)明出來(lái)的目的是為了讓模型有能力處理有無(wú)限精度的參數(shù)。

圖片

舉個(gè)例子,如果你的線性分類(lèi)器的每個(gè)參數(shù)都有無(wú)限精度,而現(xiàn)實(shí)中的浮點(diǎn)數(shù)的精度都是有限的,而且精度會(huì)收縮,那么你可以通過(guò) VC 維度實(shí)現(xiàn)一些函數(shù),將這個(gè)線性分類(lèi)器歸約成前面公式描述的監(jiān)督學(xué)習(xí)形式。

無(wú)監(jiān)督學(xué)習(xí)是什么?

接下來(lái)看無(wú)監(jiān)督學(xué)習(xí)。首先什么是無(wú)監(jiān)督學(xué)習(xí)?Ilya Sutskever 表示他目前還沒(méi)看到令人滿意的對(duì)無(wú)監(jiān)督學(xué)習(xí)的闡釋?zhuān)覀円膊恢廊绾螐臄?shù)學(xué)上推理它 —— 最多只能在直覺(jué)上做點(diǎn)推斷。

無(wú)監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域長(zhǎng)久以來(lái)的夢(mèng)想。Sutskever 認(rèn)為這個(gè)目標(biāo)已經(jīng)在實(shí)驗(yàn)研究中達(dá)成,即模型在不被告知數(shù)據(jù)內(nèi)容的前提下觀察數(shù)據(jù)并發(fā)現(xiàn)其中存在的真實(shí)有用的隱藏結(jié)構(gòu)。

這是怎么發(fā)生的?我們能確保這一定會(huì)發(fā)生嗎?Sutskever 表示我們不能,畢竟我們?cè)跓o(wú)監(jiān)督學(xué)習(xí)方面沒(méi)有在監(jiān)督學(xué)習(xí)方面那樣的理論保證。

圖片

人們?cè)缭谏鲜兰o(jì) 80 年代就在探究無(wú)監(jiān)督學(xué)習(xí)了,當(dāng)時(shí)使用的術(shù)語(yǔ)也是類(lèi)似。在實(shí)驗(yàn)中,人們觀察到,當(dāng)數(shù)據(jù)量較小時(shí),不會(huì)出現(xiàn)無(wú)監(jiān)督學(xué)習(xí)現(xiàn)象,但是一些現(xiàn)在流行的開(kāi)發(fā)思路已經(jīng)出現(xiàn)了,比如 BERT、擴(kuò)散模型、老式的語(yǔ)言模型等。當(dāng)時(shí)的無(wú)監(jiān)督學(xué)習(xí)也能生成一些很酷的樣本,但當(dāng)然是比不上現(xiàn)在的技術(shù)。

但因?yàn)槲覀儾恢罒o(wú)監(jiān)督學(xué)習(xí)的工作方式,所以它一直都讓人困惑。

圖片

比如當(dāng)你針對(duì)某個(gè)目標(biāo)(比如圖像重建或預(yù)測(cè)下一個(gè)詞)進(jìn)行優(yōu)化時(shí),你可能也在意另一個(gè)目標(biāo)(比如圖像分類(lèi)或文檔分類(lèi)),而模型可能在這個(gè)未經(jīng)優(yōu)化的目標(biāo)上也能取得不錯(cuò)的表現(xiàn)。但為什么會(huì)這樣呢?不知道,實(shí)驗(yàn)結(jié)果就是如此。Sutskever 說(shuō)這就像是魔法。

難道我們就要放棄理論,在實(shí)證主義上一路走下去嗎?

圖片

我們知道無(wú)監(jiān)督學(xué)習(xí)是學(xué)習(xí)輸入分布中的結(jié)構(gòu),然后從中獲得有助于實(shí)現(xiàn)目標(biāo)的東西。但如果輸入分布是均勻分布(uniform distribution)呢?這時(shí)候各種無(wú)監(jiān)督學(xué)習(xí)算法都會(huì)失效。我們應(yīng)該怎么看待這種現(xiàn)象呢?Sutskever 表示我們需要做些假設(shè)。

一種無(wú)監(jiān)督學(xué)習(xí)方法:分布匹配

接下來(lái),Sutskever 展示了一種思考無(wú)監(jiān)督學(xué)習(xí)的潛在方式。他說(shuō)這種無(wú)監(jiān)督學(xué)習(xí)方式一直沒(méi)有成為主流,但卻非常有趣。它有與監(jiān)督學(xué)習(xí)類(lèi)似的特征,也就是必然有效。為什么會(huì)這樣?這涉及到一種名為分布匹配(distribution matching)的無(wú)監(jiān)督學(xué)習(xí)流程。

圖片

接下來(lái)簡(jiǎn)單說(shuō)明一下。假設(shè)有兩個(gè)數(shù)據(jù)源 X 和 Y,它們之間并無(wú)對(duì)應(yīng)關(guān)系;模型的目標(biāo)是找到函數(shù) F,使得 F (X) 的分布與 Y 的分布近似 —— 這是對(duì) F 的約束(constraint)。

對(duì)于機(jī)器翻譯和語(yǔ)音識(shí)別等許多應(yīng)用場(chǎng)景,這個(gè)約束可能是有意義的。舉個(gè)例子,如果有一個(gè)英語(yǔ)句子的分布,使用函數(shù) F 后,可以得到接近法語(yǔ)句子分布的分布,那么就可以說(shuō)我們得到了 F 的真實(shí)約束。

如果 X 和 Y 的維度都足夠高,那么 F 可能就有大量約束。事實(shí)上,你甚至有可能從那些約束中恢復(fù)完整的 F。這是無(wú)監(jiān)督學(xué)習(xí)的監(jiān)督學(xué)習(xí)(supervised learning of unsupervised learning)的一個(gè)示例,它必定有效,就像監(jiān)督學(xué)習(xí)必定有效一樣。

此外,替代密碼(subsitution cipher)也符合這一框架。

Sutskever 表示自己在 2015 年時(shí)獨(dú)立發(fā)現(xiàn)了這一現(xiàn)象。這讓他不禁思考:也許我們能用某種有意義的數(shù)學(xué)形式來(lái)描述無(wú)監(jiān)督學(xué)習(xí)。

當(dāng)然,上面描述的機(jī)器翻譯場(chǎng)景是簡(jiǎn)化過(guò)的人工場(chǎng)景,并不符合真實(shí)的應(yīng)用情況,對(duì)應(yīng)的無(wú)監(jiān)督學(xué)習(xí)場(chǎng)景自然也是如此。

接下來(lái),Sutskever 將闡述他提出的方法 —— 其能從數(shù)學(xué)上為無(wú)監(jiān)督學(xué)習(xí)提供說(shuō)明以及確保無(wú)監(jiān)督學(xué)習(xí)的結(jié)果優(yōu)良。

眾所周知,壓縮就是一種預(yù)測(cè),每個(gè)壓縮器都可以轉(zhuǎn)換為一個(gè)預(yù)測(cè)器,反之亦然。全體壓縮器與全體預(yù)測(cè)器之間存在一一對(duì)應(yīng)關(guān)系。

Sutskever 指出,為了能更清晰地說(shuō)明對(duì)無(wú)監(jiān)督學(xué)習(xí)的思考,使用壓縮方面的論述方式更具優(yōu)勢(shì)。

圖片

基于此,他給出了一個(gè)思想實(shí)驗(yàn)。

圖片

假設(shè)你有兩個(gè)數(shù)據(jù)集 X 和 Y,它們是你的硬盤(pán)上的兩個(gè)文件;然后你有一個(gè)很棒的壓縮算法 C。再假設(shè)你對(duì) X 和 Y 進(jìn)行聯(lián)合壓縮,也就是先將它們連接起來(lái),然后將其饋送給壓縮器。

現(xiàn)在的重要問(wèn)題是:一個(gè)足夠好的壓縮器會(huì)做什么?

Sutskever 給出了一個(gè)非常直覺(jué)式的答案:壓縮器會(huì)使用 X 中存在的模式來(lái)幫助壓縮 Y;反之亦然。

他表示,預(yù)測(cè)任務(wù)場(chǎng)景其實(shí)也存在類(lèi)似的現(xiàn)象,但在壓縮語(yǔ)境中說(shuō)起來(lái)似乎就更直觀一點(diǎn)。

如果你的壓縮器足夠好,那么對(duì)連接后文件的壓縮結(jié)果應(yīng)該不會(huì)差于分開(kāi)壓縮的結(jié)果。

圖片

因此,通過(guò)連接所獲得的進(jìn)一步壓縮效果是你的壓縮器注意到的某種共有的結(jié)構(gòu)。壓縮器越好,其能提取出的共有結(jié)構(gòu)就越多。

兩種壓縮結(jié)果之間的差就是共有結(jié)構(gòu),即算法互信息(algorithmic mutual information)。

對(duì)應(yīng)地,可以把 Y 視為監(jiān)督任務(wù)的數(shù)據(jù),X 視為無(wú)監(jiān)督任務(wù)的數(shù)據(jù),而你對(duì)這些信息有某種形式的數(shù)學(xué)推理 —— 可以使用 X 中的模式來(lái)幫助 Y 任務(wù)。

圖片

也要注意其如何實(shí)現(xiàn)了對(duì)分布匹配的泛化。如果是在分布匹配情況下,假如 X 是語(yǔ)言 1,Y 是語(yǔ)言 2,并且存在某個(gè)簡(jiǎn)單函數(shù) F 可從一個(gè)分布轉(zhuǎn)換到另一個(gè)分布;那么優(yōu)良的壓縮器也能注意到這一點(diǎn)并將其利用起來(lái),甚至可能在內(nèi)部恢復(fù)出該函數(shù)。

這樣一來(lái),閉環(huán)就形成了。那么我們?nèi)绾斡脭?shù)學(xué)形式描述無(wú)監(jiān)督學(xué)習(xí)呢?

無(wú)監(jiān)督學(xué)習(xí)的數(shù)學(xué)形式化

注意這一部分的描述會(huì)交替使用壓縮場(chǎng)景和預(yù)測(cè)場(chǎng)景的描述。

圖片

首先假設(shè)我們有一個(gè)機(jī)器學(xué)習(xí)算法 A,其作用是壓縮 Y。算法 A 能夠訪問(wèn) X。令 X 為 1 號(hào)文件,Y 為 2 號(hào)文件。我們希望我們的機(jī)器學(xué)習(xí)算法 / 壓縮器能對(duì) Y 進(jìn)行壓縮并且其能在合適的時(shí)候使用 X。目標(biāo)是盡可能地壓縮 Y。

那么我們要問(wèn)自己:使用這個(gè)算法最大的遺憾(regret)是什么?

Sutskever 解釋說(shuō):「如果我很好地完成了工作并且我的遺憾很低,就意味著我已經(jīng)從這未標(biāo)注的數(shù)據(jù)中獲得了所有盡可能的幫助。這些未標(biāo)注數(shù)據(jù)已經(jīng)盡可能地幫助了我。我對(duì)此毫無(wú)遺憾。」也就是說(shuō)已經(jīng)沒(méi)有更好的預(yù)測(cè)值可供更好的壓縮算法使用了。「我已經(jīng)從我的未標(biāo)注數(shù)據(jù)中獲得了最大收益。」

Sutskever 認(rèn)為這是向思考無(wú)監(jiān)督學(xué)習(xí)所邁出的重要一步。你不知道你的無(wú)監(jiān)督數(shù)據(jù)集是否真的有用,但如果你在監(jiān)督學(xué)習(xí)算法上的遺憾很低,那么不管有沒(méi)有用,你都已經(jīng)得到了最佳結(jié)果,不可能會(huì)有更好的結(jié)果了。

現(xiàn)在進(jìn)入有些晦澀難懂的理論領(lǐng)域。

圖片

將 Kolmogorov 復(fù)雜度用作終極壓縮器能為我們提供超低遺憾的算法,但這其實(shí)并不是算法,因?yàn)樗豢捎?jì)算。

先簡(jiǎn)單解釋一下 Kolmogorov 復(fù)雜度:就好比你給我一些數(shù)據(jù),為了壓縮它,我給你提供一個(gè)可能存在的最短的程序。Kolmogorov 復(fù)雜度就等于這個(gè)最短程序的長(zhǎng)度。

圖片

令 C 是一個(gè)可計(jì)算的壓縮器,那么對(duì)于所有 X,Kolmogorov 壓縮器的復(fù)雜度小于壓縮器 C 的任意輸出加上實(shí)現(xiàn)該壓縮器所需的代碼字符數(shù)。

我們可以使用模擬論證(simulation argument)來(lái)證明這一點(diǎn)。假設(shè)有一個(gè)非常棒的壓縮器 C,那么它可能是一個(gè)計(jì)算機(jī)程序,如果將這個(gè)計(jì)算機(jī)程序交給 K 來(lái)運(yùn)行,那么 K 所需的成本就是這個(gè)程序的長(zhǎng)度。Kolmogorov 壓縮器可以模擬其它計(jì)算機(jī)程序和其它壓縮器,也因此它是不可計(jì)算的。它就像是一個(gè)能夠模擬所有計(jì)算機(jī)程序的自由程序,但它也是有可能存在的最好的壓縮器。

現(xiàn)在我們泛化 Kolmogorov 壓縮器,使其可以使用其它信息。我們知道 Kolmogorov 壓縮器是不可計(jì)算的,不可判定的,而像是搜索所有程序。這就像是使用神經(jīng)網(wǎng)絡(luò)通過(guò) SGD(隨機(jī)梯度下降)調(diào)整參數(shù)來(lái)搜索程序。這個(gè)過(guò)程運(yùn)行在有一定資源(內(nèi)存、 步驟數(shù))的計(jì)算機(jī)上,這就像是非常微小的 Kolmogorov 壓縮器。這兩者存在相似之處。

圖片

神經(jīng)網(wǎng)絡(luò)可以模擬小程序,它們是小小的計(jì)算機(jī),有回路 / 電路。我們可以使用 SGD 訓(xùn)練這些計(jì)算機(jī),從數(shù)據(jù)中找到它的「電路」。

模擬論證在這里也適用。如果你想設(shè)計(jì)一個(gè)更好的神經(jīng)網(wǎng)絡(luò)架構(gòu),你會(huì)發(fā)現(xiàn)這很困難,因?yàn)樵鎏砘蛐薷倪B接這些操作雖然可以被其它神經(jīng)網(wǎng)絡(luò)架構(gòu)模擬,但實(shí)際卻難以做到。因?yàn)檫@些是能帶來(lái)巨大提升的罕見(jiàn)情況。正如從 RNN 到 Transformer 轉(zhuǎn)變。RNN 有一個(gè)瓶頸:隱藏狀態(tài)。但如果我們能找到一種方法,讓 RNN 可以擁有非常大的隱藏狀態(tài),那么它的性能表現(xiàn)可能會(huì)重新趕上 Transformer。

所以我們可以把條件 Kolmogorov 復(fù)雜度作為無(wú)監(jiān)督學(xué)習(xí)的解,如下所示:

圖片

其中 C 是一個(gè)可計(jì)算的壓縮器,K (Y|X) 是如果能使用 X,能輸出 Y 的最短程序的長(zhǎng)度。

這是無(wú)監(jiān)督學(xué)習(xí)的超低遺憾的解,只不過(guò)它是不可計(jì)算的,但卻能提供一個(gè)有用的框架。

直接壓縮一切!

Sutskever 又進(jìn)一步提到「直接壓縮一切」也是可行的。

圖片

條件 Kolmogorov 復(fù)雜度 K (Y|X) 在機(jī)器學(xué)習(xí)語(yǔ)境中是不自然的,因?yàn)樗腔?X 來(lái)壓縮 Y,而至少就目前而言,以大型數(shù)據(jù)集為條件還是基本無(wú)法辦到的。我們可以擬合大型數(shù)據(jù)集,但很難以其為條件。

圖片

而上式是表示:如果你想要對(duì)你監(jiān)督的東西 Y 進(jìn)行預(yù)測(cè),使用壓縮 X 和 Y 連接數(shù)據(jù)的常規(guī) Kolmogorov 壓縮器的表現(xiàn)與條件壓縮器一樣好。當(dāng)然實(shí)際細(xì)節(jié)還有更多微妙之處,但這其實(shí)就是表示我們可以使用常規(guī) Kolmogorov 壓縮器來(lái)求解無(wú)監(jiān)督學(xué)習(xí) —— 就是將你的所有數(shù)據(jù)連接起來(lái),然后執(zhí)行壓縮,這樣就能在你關(guān)心的監(jiān)督任務(wù)上得到很好的結(jié)果。

對(duì)此的證明要更復(fù)雜一些,這里就不再繼續(xù)深入了。

圖片

重點(diǎn)的結(jié)論是常規(guī) Kolmogorov 壓縮(無(wú)需以某個(gè)數(shù)據(jù)集為條件)是「以最好的可能方式使用」無(wú)標(biāo)注數(shù)據(jù)。這就是無(wú)監(jiān)督學(xué)習(xí)的解。

聯(lián)合壓縮就是最大似然

Sutskever 在演講中談到的最后一點(diǎn)是:這種聯(lián)合壓縮就是最大似然,只要沒(méi)有過(guò)擬合。

圖片

如果你有一個(gè)數(shù)據(jù)集,那么給定參數(shù)的似然之和就是壓縮該數(shù)據(jù)集的成本。你還需要支付壓縮參數(shù)的成本。而如果你想壓縮兩個(gè)數(shù)據(jù)集,也沒(méi)有問(wèn)題,只需向你的數(shù)據(jù)集添加數(shù)據(jù)點(diǎn)即可,也就是向上面的求和運(yùn)算 sum 添加更多項(xiàng)。

所以通過(guò)連接數(shù)據(jù)來(lái)進(jìn)行聯(lián)合壓縮在機(jī)器學(xué)習(xí)語(yǔ)境中是非常自然的做法。相比而言,通過(guò)條件 Kolmogorov 復(fù)雜度就麻煩多了。

我們甚至可以將其用于解釋神經(jīng)網(wǎng)絡(luò)的工作方式。我們可以將用于大型神經(jīng)網(wǎng)絡(luò)的 SGD 用作我們的大型程序搜索器。神經(jīng)網(wǎng)絡(luò)越大,就能更好地近似常規(guī) Kolmogorov 壓縮器。Sutskever 評(píng)價(jià)說(shuō):「也許這就是我們喜歡大型神經(jīng)網(wǎng)絡(luò)的原因,因?yàn)槲覀兛梢砸源私撇豢蓪?shí)現(xiàn)的無(wú)遺憾常規(guī) Kolmogorov 壓縮器思想。隨著我們訓(xùn)練的神經(jīng)網(wǎng)絡(luò)越來(lái)越大,遺憾會(huì)越來(lái)越低。」

此理論也適用于 GPT 模型嗎?

Sutskever 對(duì)此的答案是肯定的,不過(guò)解釋 GPT 模型的行為時(shí),無(wú)需引述有關(guān)壓縮或監(jiān)督學(xué)習(xí)的說(shuō)明,你可以說(shuō) GPT 的「理論」可以通過(guò)對(duì)文本的條件分布進(jìn)行推理而得到。

圖片

那么,我們能找到其它的直接驗(yàn)證方法來(lái)驗(yàn)證這一理論嗎?我們能用視覺(jué)等其它領(lǐng)域來(lái)解釋嗎?如果我們?cè)谙袼財(cái)?shù)據(jù)上這樣操作,我們能得到優(yōu)良的無(wú)監(jiān)督學(xué)習(xí)嗎?

Sutskever 表示他們已經(jīng)在 2020 年做過(guò)這樣的研究,即 iGPT。當(dāng)然,這主要是一個(gè)驗(yàn)證概念的研究,離實(shí)踐應(yīng)用還有很大距離,詳見(jiàn)論文《Generative Pretraining from Pixels》。

圖片

該論文表明:如果你能做出很棒的下一步預(yù)測(cè)器,那么就能收獲很棒的無(wú)監(jiān)督學(xué)習(xí)效果。這篇論文在圖像領(lǐng)域證明了該論斷。

簡(jiǎn)單來(lái)說(shuō),先將圖片轉(zhuǎn)換成像素序列,每個(gè)像素都有一個(gè)離散的密度值。要做的就是使用同樣的 Transformer 來(lái)預(yù)測(cè)下一個(gè)像素。這不同于 BERT,就是預(yù)測(cè)下一個(gè) token,因?yàn)檫@是最大化壓縮的似然。

下面來(lái)看看結(jié)果:

圖片

如圖所示,這是不同大小的 iGPT 模型在 CIFAR-10 上的線性探查準(zhǔn)確度,也就是在無(wú)監(jiān)督學(xué)習(xí)的像素預(yù)測(cè)任務(wù)上的下一步預(yù)測(cè)準(zhǔn)確度。可以看出,預(yù)測(cè)下一個(gè)像素就和預(yù)測(cè)下一個(gè)詞一樣有效。當(dāng)模型規(guī)模更大時(shí),無(wú)監(jiān)督學(xué)習(xí)的效果也更好。

他們進(jìn)行了實(shí)驗(yàn)研究,結(jié)果發(fā)現(xiàn)在 ImageNet 上,經(jīng)過(guò)多方面擴(kuò)展的 iGPT 的表現(xiàn)可以接近當(dāng)今最佳的監(jiān)督學(xué)習(xí),但依然還有些差距。

圖片

不過(guò) Sutskever 認(rèn)為這就是個(gè)計(jì)算問(wèn)題,因?yàn)?SimCLR 等監(jiān)督學(xué)習(xí)方式使用的是高分辨率的大圖,他們?yōu)榫扌?Transformer(68 億參數(shù))提供的是 64×64 的小圖。這就像是基于一個(gè)大型數(shù)據(jù)集以無(wú)監(jiān)督的方式預(yù)測(cè)下一個(gè)像素,然后在 ImageNet 上擬合線性探針,得到很好的結(jié)果。

而在 CIFAR-10 上,有 13.6 億參數(shù)的 iGPT-L 取得了準(zhǔn)確度 99% 的好成績(jī),如下圖所示。

圖片

線性表征

演講最后,Sutskever 表示他想談?wù)劸€性表征。

圖片

他說(shuō):「我喜歡壓縮理論,因?yàn)樵诖酥斑€沒(méi)有以嚴(yán)格方式思考無(wú)監(jiān)督學(xué)習(xí)的方法。」而現(xiàn)在我們能在一定程度上做到這一點(diǎn)了。但壓縮理論不能直接解釋為什么表征是線性可分的,也無(wú)法解釋?xiě)?yīng)該有線性探針。線性表征是無(wú)處不在的,它們形成的原因必定很深刻。Sutskever 相信我們能在未來(lái)清晰地闡釋它。

他覺(jué)得另一個(gè)有趣的地方是自回歸模型在線性表征方面的表現(xiàn)優(yōu)于 BERT。但目前人們還不清楚其中的緣由。

不過(guò) Sutskever 倒是給出了自己的推測(cè):在根據(jù)之前所有的像素預(yù)測(cè)下一個(gè)像素時(shí),模型需要觀察數(shù)據(jù)的長(zhǎng)程結(jié)構(gòu)。BERT 在處理向量時(shí)會(huì)丟棄一些像素 token,通過(guò)兼顧地考慮一點(diǎn)過(guò)去和一點(diǎn)未來(lái),模型實(shí)際上能得到相當(dāng)好的預(yù)測(cè)結(jié)果。這樣一來(lái)就去除了所有困難任務(wù),任務(wù)的難度就下降了很多。預(yù)測(cè)下一個(gè)像素中最困難的預(yù)測(cè)任務(wù)比 BERT 預(yù)測(cè)情況中最困難的預(yù)測(cè)任務(wù)難多了。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-02-17 15:16:06

ChatGPTAI

2024-05-15 09:28:01

2023-12-20 13:47:28

科學(xué)AI

2023-11-02 13:35:00

訓(xùn)練模型

2023-11-23 15:54:01

人工智能監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)

2022-04-25 09:48:31

數(shù)據(jù)科學(xué)崗位離職

2021-05-31 08:13:39

亞馬遜職場(chǎng)面試

2019-08-26 09:47:56

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析

2024-09-05 12:57:08

2023-12-15 15:10:36

OpenAI人工智能ChatGPT

2023-08-28 00:27:11

模型監(jiān)督

2012-12-06 15:36:55

CIO

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2025-05-14 09:03:00

2020-04-28 17:26:04

監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)

2023-03-16 17:26:09

AI模型

2022-02-23 19:38:46

AI自監(jiān)督無(wú)監(jiān)督學(xué)習(xí)

2009-03-27 09:09:03

GoogleAndroid移動(dòng)OS

2017-06-29 15:53:43

5Gsdnnfv

2024-11-11 15:05:44

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久精品久久久久久 | 久久国产精品免费视频 | 综合激情网| 成人免费三级电影 | 中文一区| 无码一区二区三区视频 | 精品国产三级 | 日本精品久久久久久久 | 久久国产精品视频免费看 | 日韩欧美一级精品久久 | 日韩中文字幕一区 | 91人人澡人人爽 | 亚州成人| 日本在线视频一区二区 | 蜜桃视频在线观看免费视频网站www | 日韩精品免费一区二区在线观看 | www四虎影视| 精品伊人久久 | 午夜亚洲| 日韩中文字幕在线观看 | 国产精品久久久久久婷婷天堂 | 欧美狠狠操 | 亚洲va欧美va天堂v国产综合 | 日韩视频精品 | 日韩欧美国产精品 | 日韩中文字幕区 | 久久99精品国产 | 欧美理论片在线观看 | 丁香六月伊人 | 91精品国产手机 | 日韩三级视频 | 阿v视频在线观看 | 一级黄色毛片免费 | 国产精品精品视频 | 日日艹夜夜艹 | 国产精品视频一二三区 | 欧美视频区 | 久久久久久久久久久久久久久久久久久久 | 国产欧美日韩在线播放 | 日韩欧美精品在线播放 | 国产网站在线免费观看 |