成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌發(fā)現(xiàn)大模型「領(lǐng)悟」現(xiàn)象!訓(xùn)練久了突然不再死記硬背,多么痛的領(lǐng)悟

人工智能 新聞
隨著訓(xùn)練時(shí)間增加,一些AI會(huì)從“死記硬背”的狀態(tài)中脫離出來(lái),進(jìn)化出“領(lǐng)悟力”(grokking),對(duì)沒(méi)見(jiàn)過(guò)的數(shù)據(jù)表現(xiàn)出概括能力。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

哪怕只有幾十個(gè)神經(jīng)元,AI也能出現(xiàn)泛化能力!

這是幾個(gè)谷歌科學(xué)家在搞正經(jīng)研究時(shí),“不經(jīng)意間”發(fā)現(xiàn)的新成果。

他們給一些很簡(jiǎn)單的AI模型“照了個(gè)X光”——將它們的訓(xùn)練過(guò)程可視化后,發(fā)現(xiàn)了有意思的現(xiàn)象:

隨著訓(xùn)練時(shí)間增加,一些AI會(huì)從“死記硬背”的狀態(tài)中脫離出來(lái),進(jìn)化出“領(lǐng)悟力”(grokking),對(duì)沒(méi)見(jiàn)過(guò)的數(shù)據(jù)表現(xiàn)出概括能力。

這正是AI掌握泛化能力的關(guān)鍵。

基于此,幾位科學(xué)家專門寫了個(gè)博客,探討了其中的原理,并表示他們會(huì)繼續(xù)研究,試圖弄清楚大模型突然出現(xiàn)強(qiáng)理解力的真正原因。

圖片

一起來(lái)看看。

并非所有AI都能學(xué)會(huì)“領(lǐng)悟”

科學(xué)家們先探討了AI出現(xiàn)“領(lǐng)悟力”(grokking)的過(guò)程和契機(jī),發(fā)現(xiàn)了兩個(gè)現(xiàn)象:

  • 一、雖然訓(xùn)練時(shí)loss會(huì)突然下降,但“領(lǐng)悟”并不是突然發(fā)生的,它是一個(gè)平滑的變化過(guò)程。
  • 二、并非所有AI都能學(xué)會(huì)“領(lǐng)悟”。

先來(lái)看第一個(gè)結(jié)論。他們?cè)O(shè)計(jì)了一個(gè)單層MLP,訓(xùn)練它完成“數(shù)奇數(shù)”任務(wù)。

“數(shù)奇數(shù)”任務(wù),指識(shí)別一串長(zhǎng)達(dá)30位“0”“1”序列中的前3位是否有奇數(shù)個(gè)“1”。例如,在000110010110001010111001001011中,前3位沒(méi)有奇數(shù)個(gè)1;010110010110001010111001001011中,前3位有奇數(shù)個(gè)1。

在訓(xùn)練前期階段,模型中各神經(jīng)元的權(quán)重(下圖中的熱圖)是雜亂無(wú)章的,因?yàn)锳I不知道完成這一任務(wù)只需要看前3個(gè)數(shù)字。

但經(jīng)過(guò)一段時(shí)間的訓(xùn)練后,AI突然“領(lǐng)悟了”,學(xué)會(huì)了只看序列中的前3個(gè)數(shù)字。具體到模型中,表現(xiàn)為只剩下幾個(gè)權(quán)重會(huì)隨著輸入發(fā)生變化:

圖片

這個(gè)訓(xùn)練過(guò)程的目標(biāo)被稱之為最小化損失(提升模型輸出準(zhǔn)確率),采用的技術(shù)則被稱之為權(quán)重衰減(防止模型過(guò)擬合)

圖片

訓(xùn)練過(guò)程中,有一些權(quán)重與任務(wù)的“干擾數(shù)字”(30位序列的后27位)相關(guān),下圖可視化為灰色;有一些則與完成任務(wù)的“前3位數(shù)字”有關(guān),下圖可視化為綠色

當(dāng)最后一個(gè)灰色權(quán)重降到接近0,模型就會(huì)出現(xiàn)“領(lǐng)悟力”,顯然這個(gè)過(guò)程不是突然發(fā)生的。

再來(lái)看第二個(gè)結(jié)論。不是所有AI模型都能學(xué)會(huì)“領(lǐng)悟”。

科學(xué)家們訓(xùn)練了1125個(gè)模型,其中模型之間的超參數(shù)不同,每組超參數(shù)訓(xùn)練9個(gè)模型。

最后歸納出4類模型,只有2類模型會(huì)出現(xiàn)“領(lǐng)悟力”。

如下圖,“白色”和“灰色”代表學(xué)不會(huì)“領(lǐng)悟”的AI模型,“黃色”和“藍(lán)色”代表能“領(lǐng)悟”的AI模型。

圖片

總結(jié)概括規(guī)律就是,一旦權(quán)重衰減、模型大小、數(shù)據(jù)量和超參數(shù)的設(shè)置不合適,AI的“領(lǐng)悟力”就有可能消失——

以權(quán)重衰減為例。如果權(quán)重衰減太小,會(huì)導(dǎo)致模型過(guò)擬合;權(quán)重衰減太大,又會(huì)導(dǎo)致模型學(xué)不到任何東西。

嗯,調(diào)參是門技術(shù)活……

了解現(xiàn)象之后,還需要探明背后的原因。

接下來(lái),科學(xué)家們又設(shè)計(jì)了兩個(gè)小AI模型,用它來(lái)探索模型出現(xiàn)“領(lǐng)悟力”、最終掌握泛化能力出現(xiàn)的機(jī)制。

更大的模型學(xué)會(huì)泛化的機(jī)制

科學(xué)家們分別設(shè)計(jì)了一個(gè)24個(gè)神經(jīng)元的單層MLP和一個(gè)5個(gè)神經(jīng)元的單層MLP,訓(xùn)練它們學(xué)會(huì)做模加法(modular addition)任務(wù)。

模加法,指(a + b) mod n。輸入整數(shù)a和b,用它們的和減去模數(shù)n,直到獲得一個(gè)比n小的整數(shù),確保輸出位于0~(n-1)之間。

顯然,這個(gè)任務(wù)的輸出是周期性的,答案一定位于0~66之間。

圖片

首先,給只有5個(gè)神經(jīng)元的單層MLP一點(diǎn)“提示”,設(shè)置權(quán)重時(shí)就加入周期性(sin、cos函數(shù))

圖片

在人為幫助下,模型在訓(xùn)練時(shí)擬合得很好,很快學(xué)會(huì)了模加法。

圖片

然后,試著“從頭訓(xùn)練”具有24個(gè)神經(jīng)元的單層MLP,不特別設(shè)置任何權(quán)重。

可以看到,訓(xùn)練前期,這只MLP模型的權(quán)重(下面的熱圖)變化還是雜亂無(wú)章的:

圖片

然而到達(dá)某個(gè)訓(xùn)練階段后,模型權(quán)重變化會(huì)變得非常規(guī)律,甚至隨著輸入改變,呈現(xiàn)出某種周期性變化:

圖片

如果將單個(gè)神經(jīng)元的權(quán)重拎出來(lái)看,隨著訓(xùn)練步數(shù)的增加,這種變化更加明顯:

圖片

這也是AI從死記硬背轉(zhuǎn)變?yōu)榫哂蟹夯芰Φ年P(guān)鍵現(xiàn)象:神經(jīng)元權(quán)重隨著輸入出現(xiàn)周期性變化,意味著模型自己找到并學(xué)會(huì)了某種數(shù)學(xué)結(jié)構(gòu)(sin、cos函數(shù))

圖片

這里面的頻率(freq)不是固定的一個(gè)值,而是有好幾個(gè)。

之所以會(huì)用到多個(gè)頻率(freq),是因?yàn)?4個(gè)神經(jīng)元的單層MLP還自己學(xué)會(huì)了使用相長(zhǎng)干涉(constructive interference),避免出現(xiàn)過(guò)擬合的情況。

不同的頻率組合,都能達(dá)到讓AI“領(lǐng)悟”的效果:

圖片

用離散傅里葉變換(DFT)對(duì)頻率進(jìn)行隔離,可以發(fā)現(xiàn)和“數(shù)奇數(shù)”類似的現(xiàn)象,核心只有幾個(gè)權(quán)重起作用:

圖片

總結(jié)來(lái)看,就像前面提到的“數(shù)奇數(shù)”任務(wù)一樣,“模加法”實(shí)驗(yàn)表明,參數(shù)量更大的AI也能在這個(gè)任務(wù)中學(xué)會(huì)“領(lǐng)悟”,而這個(gè)過(guò)程同樣用到了權(quán)重衰減

從5個(gè)神經(jīng)元到24個(gè)神經(jīng)元,科學(xué)家們成功探索了更大的AI能學(xué)習(xí)“領(lǐng)悟”的機(jī)制。

接下來(lái),他們還計(jì)劃將這種思路套用到更大的模型中,以至于最后能歸納出大模型具備強(qiáng)理解力的原因

不僅如此,這一成果還有助于自動(dòng)發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,最終讓AI自己設(shè)計(jì)AI。

團(tuán)隊(duì)介紹

撰寫博客的作者來(lái)自谷歌的People + AI Research(PAIR)團(tuán)隊(duì)。

這是谷歌的一個(gè)多學(xué)科團(tuán)隊(duì),致力于通過(guò)基礎(chǔ)研究、構(gòu)建工具、創(chuàng)建框架等方法,來(lái)研究AI的公平性、可靠性等。

圖片

一句話總結(jié)就是,讓“AI更好地造福于人”。

博客地址:https://pair.withgoogle.com/explorables/grokking/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-09-18 16:18:36

AICgen數(shù)據(jù)

2018-05-11 11:56:44

宕機(jī)案例集群

2019-05-28 19:17:34

華為離職技術(shù)

2020-07-02 09:47:40

人工智能技術(shù)教育

2023-08-14 20:18:20

模型神經(jīng)元

2025-02-14 10:23:00

LLM模型谷歌

2024-07-02 13:30:50

2025-06-18 08:51:00

數(shù)據(jù)生成AI模型

2017-09-21 11:43:14

JavascriptHtml5Html

2024-07-23 09:26:20

2017-08-07 18:35:52

機(jī)器學(xué)習(xí)統(tǒng)計(jì)與計(jì)算發(fā)展啟示

2020-08-26 11:50:25

谷歌開(kāi)源工具

2015-07-31 14:33:21

2011-06-20 16:03:03

Qt 控件 鼠標(biāo)

2015-03-12 10:39:56

喬布斯

2015-03-12 11:02:21

喬布斯

2020-04-16 10:55:03

Java虛擬機(jī)字節(jié)碼

2015-11-26 09:05:50

印度程序員生活

2009-07-21 17:16:34

Scala函數(shù)式指令式

2013-04-10 09:58:04

Xbox360微軟
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 狠狠躁躁夜夜躁波多野结依 | 免费日韩av网站 | 亚洲一级毛片 | 不卡一区二区三区四区 | 国产视频福利 | 欧美成视频 | 天堂视频中文在线 | 免费a网站| 中文字幕1区2区 | 在线观看视频你懂得 | 九九九久久国产免费 | 99精品久久久久久 | 日韩在线大片 | 精品国产乱码久久久久久图片 | 亚洲一区在线日韩在线深爱 | 日本aaaa| 国产91在线播放精品91 | 欧美亚洲另类在线 | 天天av网 | 黑人中文字幕一区二区三区 | 国产三级 | 古装人性做爰av网站 | 91私密视频 | 亚洲精选一区 | 国产精品美女久久久久久免费 | 一区二区三区视频在线免费观看 | 97伦理电影 | 91久久精品一区二区二区 | 女同久久另类99精品国产 | 国产亚洲精品久久久久久豆腐 | 91久久精品国产免费一区 | 欧美色影院 | 久久在线视频 | 天天爽夜夜操 | 免费精品| 精品国产欧美一区二区三区成人 | 在线观看免费av网 | 久久久久国产精品一区二区 | 欧美三级视频在线观看 | 麻豆av免费观看 | 在线播放一区二区三区 |