成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

能勝任統(tǒng)計學(xué)家?Transformers超強(qiáng)學(xué)習(xí)機(jī)制「自動算法選擇」

人工智能 新聞
Salesforce AI Research、北京大學(xué)和 UC 伯克利合作的最新論文,發(fā)現(xiàn) Transformer 模型在上下文中學(xué)習(xí)(in-context learning)的新機(jī)制:「自動算法選擇」,類似統(tǒng)計與機(jī)器學(xué)習(xí)專家能夠現(xiàn)實(shí)完成的工作。

ChatGPT 等基于 Transformer 的大語言模型具備極強(qiáng)的在上下文中學(xué)習(xí)(In-Context Learning,ICL)的能力:輸入少量示例樣本,即能夠正確回答同類問題。如何理解這種 ICL 能力?

本文作者實(shí)驗(yàn)發(fā)現(xiàn)并證明一種 ICL 的新機(jī)制:自動算法選擇,可以允許單一 Transformer 模型在不同輸入數(shù)據(jù)上選擇執(zhí)行完全不同的,適合該數(shù)據(jù)的學(xué)習(xí)算法,類似統(tǒng)計與機(jī)器學(xué)習(xí)專家能夠現(xiàn)實(shí)完成的工作。基于量化的 Transformer 構(gòu)造,文章一并給出 Transformer 實(shí)現(xiàn) ICL 的一套全面的統(tǒng)計理論,包含近似精度,預(yù)測表現(xiàn),以及預(yù)訓(xùn)練的樣本復(fù)雜度。

圖片圖片

論文地址:https://arxiv.org/abs/2306.04637

Transformer 能在 ICL 中完成機(jī)器學(xué)習(xí)任務(wù)

ChatGPT 等基于 Transformer 的大模型可以根據(jù)輸入的文本,自上下文中學(xué)習(xí)。如何系統(tǒng)地理解這種能力?NeurIPS 2022 的一篇論文(Garg et al. 2022)考察了 Transformer 從上下文中進(jìn)行機(jī)器學(xué)習(xí)任務(wù)的能力。

將 N 個訓(xùn)練樣本與 1 個測試樣本 (x_1, y_1, …, x_N, y_N, x_{N+1}) 作為一個序列輸入 Transformer,要求 Transformer 輸出 y_{N+1}。這些樣本來自簡單的統(tǒng)計模型,例如線性模型,但每個序列由不同的模型參數(shù)(w_\star)生成。Transformer 如果想總是正確地預(yù)測 y_{N+1},那么就需要從訓(xùn)練樣本中學(xué)習(xí)真正的參數(shù) w_\star,并利用其進(jìn)行預(yù)測。

Garg et al. 發(fā)現(xiàn),訓(xùn)練好的 Transformer 總是能夠精準(zhǔn)地預(yù)測 y_{N+1},并且預(yù)測表現(xiàn)能夠媲美該數(shù)據(jù)上的最優(yōu)算法。例如線性模型上,Transformer 的預(yù)測效果可以媲美最小二乘法(Least Squares),稀疏線性模型上媲美 Lasso,決策樹上能超過 Gradient Boosting。

圖片圖片

Figure 1: Transformer 能在 ICL 中完成機(jī)器學(xué)習(xí)任務(wù) (Garg et al. 2022)

Transformer 雖然在各個任務(wù)中實(shí)現(xiàn)最優(yōu)算法,然而這些算法都只是標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)算法,遠(yuǎn)不能完全解釋 ChatGPT 等大模型強(qiáng)大的 ICL 能力。還存在更強(qiáng)的機(jī)制嗎?

自動算法選擇

現(xiàn)實(shí)生活中,統(tǒng)計學(xué)家與機(jī)器學(xué)習(xí)專家會如何分析數(shù)據(jù)?給定一個數(shù)據(jù)集,統(tǒng)計學(xué)家會先確定數(shù)據(jù)的結(jié)構(gòu),規(guī)模等,然后根據(jù)數(shù)據(jù)的特點(diǎn)選擇最適合的算法。如果不確定哪個算法合適,則會同時嘗試多個算法,然后利用驗(yàn)證集(validation split)或交叉驗(yàn)證(cross-validation)等選擇表現(xiàn)最好的算法。

本文作者發(fā)現(xiàn),Transformer 也能夠進(jìn)行類似的自動算法選擇。自動算法選擇允許一個單獨(dú)的 Transformer 模型,在不同的 ICL 問題上選擇不同的算法,類似統(tǒng)計學(xué)家可以現(xiàn)實(shí)完成的工作。

作者給出兩種一般的算法選擇機(jī)制,從理論上證明 Transformer 模型可以實(shí)現(xiàn)這兩個機(jī)制,并且實(shí)驗(yàn)上驗(yàn)證了 Transformer 能夠近似實(shí)現(xiàn)這兩種機(jī)制,達(dá)到了比單一機(jī)器學(xué)習(xí)算法更強(qiáng)的效果。

機(jī)制 1:用驗(yàn)證集做算法選擇

在這一機(jī)制中,Transformer 先將輸入數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集。接下來在訓(xùn)練集上同時執(zhí)行 K 個算法,然后在驗(yàn)證集上測試 K 個算法的表現(xiàn),最終用表現(xiàn)最好的算法 k_star 給出預(yù)測。

Figure 2: 用驗(yàn)證集做算法選擇(右)及實(shí)例(左)。Figure 2: 用驗(yàn)證集做算法選擇(右)及實(shí)例(左)。

應(yīng)用這一機(jī)制,Transformer 可以完成一大類算法選擇。如下圖當(dāng)中,通過恰當(dāng)?shù)念A(yù)訓(xùn)練,Transformer 可同時實(shí)現(xiàn)在兩個帶不同正則化的 ridge regression 算法,并對具體數(shù)據(jù)分布實(shí)現(xiàn)較優(yōu)的那個算法。進(jìn)一步,對這一任務(wù),我們在理論上也能夠證明 Transformer 能夠近似整個任務(wù)的 Bayes 最優(yōu)表現(xiàn)。

圖片Figure 3: 單一 Transformer 可以在兩個帶不同噪音的線性模型中同時接近最優(yōu)。在每個模型中,Transformer 的預(yù)測都接近該模型上 Bayes 最優(yōu)算法(帶不同正則化的 ridge regression)。

機(jī)制 2:提前對數(shù)據(jù)分布進(jìn)行檢驗(yàn)

在這一機(jī)制中,Transformer 通過提前檢驗(yàn)數(shù)據(jù)分布(如計算一些統(tǒng)計量),來決定恰當(dāng)?shù)乃惴ā@缭谙聢D當(dāng)中,單一的 Transformer 可以在回歸問題上實(shí)現(xiàn)回歸算法(如線性回歸),在分類問題上實(shí)現(xiàn)分類算法(如 Logistic Regression)。

Figure 4: 提前對數(shù)據(jù)分布進(jìn)行檢驗(yàn)(右)及實(shí)例(左)。Figure 4: 提前對數(shù)據(jù)分布進(jìn)行檢驗(yàn)(右)及實(shí)例(左)。


圖片

Figure 5: 單一 Transformer 可以同時在回歸問題和分類問題上接近最優(yōu)表現(xiàn):在回歸問題上表現(xiàn)接近最小二乘法,在分類問題上接近 Logistic Regression。

理論框架

除了自動算法選擇,本文的另一大貢獻(xiàn)是給出了 Transformer 進(jìn)行 ICL 的一套完整的統(tǒng)計學(xué)習(xí)理論,涵蓋

  • Transformer 如何實(shí)現(xiàn)各種機(jī)器學(xué)習(xí)算法的具體構(gòu)造,如最小二乘法,Lasso,ridge regression,解廣義線性模型的凸優(yōu)化算法,神經(jīng)網(wǎng)絡(luò)上的梯度下降法等;
  • 對上述 Transformer 大小(層數(shù)、attention head 個數(shù)、權(quán)重矩陣的范數(shù))的精確界;
  • 上述 Transformer 在標(biāo)準(zhǔn)統(tǒng)計假設(shè)下,在 ICL 中的預(yù)測表現(xiàn);
  • Transformer 實(shí)現(xiàn)自動算法選擇時類似的保證;
  • 通過預(yù)訓(xùn)練 Transformer 達(dá)到上述效果的樣本復(fù)雜度。

這套理論給出了 Transformer 進(jìn)行 ICL 的一整套分析框架。作者相信這一框架可以推廣到一大類相關(guān)問題當(dāng)中,給出類似的理論保證。

結(jié)語

本文從理論和實(shí)驗(yàn)上發(fā)現(xiàn) Transformer 模型在 ICL 中能夠進(jìn)行自動算法選擇,并給出了一整套進(jìn)行 ICL 的理論框架。

基于本文的結(jié)論還有很大的探索空間,例如其它進(jìn)行 ICL 或自動算法選擇的機(jī)制;在 ICL 中逼近 Bayes 最優(yōu)表現(xiàn)的其它機(jī)制;預(yù)訓(xùn)練的 Transformer 如何實(shí)現(xiàn)算法選擇的內(nèi)部機(jī)理;對其它 ICL 任務(wù)的分析。作者相信,對這些問題的進(jìn)一步探索,能對大模型有更多有趣的發(fā)現(xiàn)。

作者簡介

本文作者 Yu Bai 現(xiàn)任 Salesforce Research 資深研究科學(xué)家。Fan Chen 本科畢業(yè)于北京大學(xué),即將博士入學(xué)麻省理工大學(xué)。Huan Wang、Caiming Xiong 分別現(xiàn)任 Salesforce Research 研究主管及副總裁。Song Mei 現(xiàn)任 加州大學(xué)伯克利統(tǒng)計系助理教授。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2015-08-28 09:41:24

統(tǒng)計

2017-04-12 09:34:30

數(shù)據(jù)科學(xué)家統(tǒng)計學(xué)家好習(xí)慣

2011-06-14 17:03:03

QML Qt

2019-06-10 06:22:40

編碼數(shù)據(jù)科學(xué)代碼

2014-08-14 08:55:11

2020-08-28 13:49:13

數(shù)據(jù)統(tǒng)計學(xué)面試

2017-04-20 08:51:15

SPSST檢驗(yàn)F檢驗(yàn)

2019-04-09 09:00:01

數(shù)據(jù)科學(xué)代碼編寫

2019-07-03 15:21:47

數(shù)據(jù)科學(xué)統(tǒng)計數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)

2016-09-22 16:30:17

ITPythonSQL queries

2024-03-14 13:46:41

深度學(xué)習(xí)人工智能

2019-08-19 09:31:47

數(shù)據(jù)機(jī)器學(xué)習(xí)統(tǒng)計學(xué)習(xí)

2011-05-13 14:26:08

程序員

2020-04-24 12:50:50

AI算法機(jī)器學(xué)習(xí)

2019-11-26 11:19:40

統(tǒng)計數(shù)據(jù)互聯(lián)網(wǎng)

2023-08-24 17:14:05

統(tǒng)計學(xué)

2020-11-02 17:34:22

數(shù)據(jù)分析人工智能技術(shù)

2010-10-19 15:01:01

2015-08-17 09:43:08

2024-05-30 07:34:42

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美精品一二区 | av免费在线观看网站 | 日本在线网站 | 中文字幕av在线播放 | 日韩免费一区 | 国产一区二区三区四区五区3d | 国产精品美女久久久久久免费 | 中文字幕免费在线观看 | 欧美激情精品久久久久久变态 | 亚洲国产精品久久久 | 成人午夜免费在线视频 | 狠狠做深爱婷婷综合一区 | 欧美精品国产精品 | 狠狠躁躁夜夜躁波多野结依 | 成人三级网址 | 国产精品久久国产精品 | 国产99久久精品一区二区永久免费 | 亚洲欧美中文字幕在线观看 | 91就要激情 | 欧美自拍第一页 | 精品粉嫩aⅴ一区二区三区四区 | 欧美亚洲国产精品 | 999热视频 | 欧美一级小视频 | 国产区一区 | 国产成人a亚洲精品 | 亚洲一区在线免费观看 | 日韩欧美亚洲 | 久久久精品国产 | 国产偷自视频区视频 | 中文精品视频 | 一区二区久久电影 | 一级看片免费视频囗交动图 | 亚洲视频免费观看 | 久久久久国产一区二区三区四区 | 国产精品久久久久久久久久 | 亚洲精品一区中文字幕乱码 | 久久久久久国产精品免费免费狐狸 | 欧美日韩在线免费 | 人人玩人人添人人澡欧美 | 欧美日韩中文字幕在线 |