成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型增速遠(yuǎn)超摩爾定律!MIT最新研究:人類快要喂不飽AI了

人工智能 新聞
近日,來自MIT的研究人員發(fā)表了關(guān)于大模型能力增速的研究,結(jié)果表明,LLM的能力大約每8個(gè)月就會(huì)翻一倍,速度遠(yuǎn)超摩爾定律!硬件馬上就要跟不上啦!

我們?nèi)祟惪赡芤B(yǎng)不起AI了!

近日,來自MIT FutureTech的研究人員發(fā)表了一項(xiàng)關(guān)于大模型能力增長(zhǎng)速度的研究,

結(jié)果表明:LLM的能力大約每8個(gè)月就會(huì)翻一倍,速度遠(yuǎn)超摩爾定律!

圖片

論文地址:https://arxiv.org/pdf/2403.05812.pdf

LLM的能力提升大部分來自于算力,而摩爾定律代表著硬件算力的發(fā)展,

——也就是說,隨著時(shí)間的推移,終有一天我們將無法滿足LLM所需要的算力!

如果那個(gè)時(shí)候AI有了意識(shí),不知道會(huì)不會(huì)自己想辦法找飯吃?

圖片

上圖表示不同領(lǐng)域的算法改進(jìn)對(duì)有效計(jì)算翻倍的估計(jì)。藍(lán)點(diǎn)表示中心估計(jì)值或范圍;藍(lán)色三角形對(duì)應(yīng)于不同大?。ǚ秶鷱?K到1B)的問題的倍增時(shí)間;紫色虛線對(duì)應(yīng)于摩爾定律表示的2年倍增時(shí)間。

摩爾定律和比爾蓋茨

摩爾定律(Moore's law)是一種經(jīng)驗(yàn)或者觀察結(jié)果,表示集成電路(IC)中的晶體管數(shù)量大約每?jī)赡攴环?/span>

1965年,仙童半導(dǎo)體(Fairchild Semiconductor)和英特爾的聯(lián)合創(chuàng)始人Gordon Moore假設(shè)集成電路的組件數(shù)量每年翻一番,并預(yù)測(cè)這種增長(zhǎng)率將至少再持續(xù)十年。

圖片

1975年,展望下一個(gè)十年,他將預(yù)測(cè)修改為每?jī)赡攴环瑥?fù)合年增長(zhǎng)率(CAGR)為41%。

雖然Moore沒有使用經(jīng)驗(yàn)證據(jù)來預(yù)測(cè)歷史趨勢(shì)將繼續(xù)下去,但他的預(yù)測(cè)自1975年以來一直成立,所以也就成了“定律”。

因?yàn)槟柖杀话雽?dǎo)體行業(yè)用于指導(dǎo)長(zhǎng)期規(guī)劃和設(shè)定研發(fā)目標(biāo),所以在某種程度上,成了一種自我實(shí)現(xiàn)預(yù)言。

數(shù)字電子技術(shù)的進(jìn)步,例如微處理器價(jià)格的降低、內(nèi)存容量(RAM 和閃存)的增加、傳感器的改進(jìn),甚至數(shù)碼相機(jī)中像素的數(shù)量和大小,都與摩爾定律密切相關(guān)。

數(shù)字電子的這些持續(xù)變化一直是技術(shù)和社會(huì)變革、生產(chǎn)力和經(jīng)濟(jì)增長(zhǎng)的驅(qū)動(dòng)力。

不過光靠自我激勵(lì)肯定是不行的,雖然行業(yè)專家沒法對(duì)摩爾定律能持續(xù)多久達(dá)成共識(shí),但根據(jù)微處理器架構(gòu)師的報(bào)告,自2010年左右以來,整個(gè)行業(yè)的半導(dǎo)體發(fā)展速度已經(jīng)放緩,略低于摩爾定律預(yù)測(cè)的速度。

下面是維基百科給出的晶體管數(shù)量增長(zhǎng)趨勢(shì)圖:

圖片

到了2022年9月,英偉達(dá)首席執(zhí)行官黃仁勛直言“摩爾定律已死”,不過英特爾首席執(zhí)行官Pat Gelsinger則表示不同意。

圖片

從下圖我們可以看出,英特爾還在努力用各種技術(shù)和方法為自己老祖宗提出的定律續(xù)命,并表示,問題不大,你看我們還是直線沒有彎。

Andy and Bill's Law

關(guān)于算力的增長(zhǎng),有一句話是這樣說的:“安迪給的,比爾都拿走(What Andy giveth, Bill taketh away)”。

圖片

這反映了當(dāng)時(shí)的英特爾首席執(zhí)行官Andy Grove每次向市場(chǎng)推出新芯片時(shí),微軟的CEO比爾·蓋茨(Bill Gates)都會(huì)通過升級(jí)軟件來吃掉芯片提升的性能。

——而以后吃掉芯片算力的就是大模型了,而且根據(jù)MIT的這項(xiàng)研究,大模型以后根本吃不飽。

研究方法

如何定義LLM的能力提升?首先,研究人員對(duì)模型的能力進(jìn)行了量化。

基本的思想就是:如果一種算法或架構(gòu)在基準(zhǔn)測(cè)試中以一半的計(jì)算量獲得相同的結(jié)果,那么就可以說,它比另一種算法或架構(gòu)好兩倍。

有了比賽規(guī)則之后,研究人員招募了200多個(gè)語言模型來參加比賽,同時(shí)為了確保公平公正,比賽所用的數(shù)據(jù)集是WikiText-103和WikiText-2以及Penn Treebank,代表了多年來用于評(píng)估語言模型的高質(zhì)量文本數(shù)據(jù)。

專注于語言模型開發(fā)過程中使用的既定基準(zhǔn),為比較新舊模型提供了連續(xù)性。

需要注意的是,這里只量化了預(yù)訓(xùn)練模型的能力,沒有考慮一些“訓(xùn)練后增強(qiáng)”手段,比如思維鏈提示(COT)、微調(diào)技術(shù)的改進(jìn)或者集成搜索的方法(RAG)。

模型定義

研究人員通過擬合一個(gè)滿足兩個(gè)關(guān)鍵目標(biāo)的模型來評(píng)估其性能水平:

(1)模型必須與之前關(guān)于神經(jīng)標(biāo)度定律的工作大致一致;

(2)模型應(yīng)允許分解提高性能的主要因素,例如提高模型中數(shù)據(jù)或自由參數(shù)的使用效率。

這里采用的核心方法類似于之前提出的縮放定律,將Dense Transformer的訓(xùn)練損失L與其參數(shù)N的數(shù)量和訓(xùn)練數(shù)據(jù)集大小D相關(guān)聯(lián):

圖片

其中L是數(shù)據(jù)集上每個(gè)token的交叉熵?fù)p失,E、A、B、α和β是常數(shù)。E表示數(shù)據(jù)集的“不可減少損失”,而第二項(xiàng)和第三項(xiàng)分別代表由于模型或數(shù)據(jù)集的有限性而導(dǎo)致的錯(cuò)誤。

因?yàn)殡S著時(shí)間的推移,實(shí)現(xiàn)相同性能水平所需的資源(N 和 D)會(huì)減少。為了衡量這一點(diǎn),作者在模型中引入了“有效數(shù)據(jù)”和“有效模型大小”的概念:

圖片

其中的Y表示年份,前面的系數(shù)表示進(jìn)展率,代入上面的縮放定律,可以得到:

圖片

通過這個(gè)公式,就可以估計(jì)隨著時(shí)間的推移,實(shí)現(xiàn)相同性能水平所需的更少資源(N和D)的速度。

數(shù)據(jù)集

參與測(cè)評(píng)的包含400多個(gè)在WikiText-103(WT103)、WikiText-2(WT2)和Penn Treebank(PTB)上評(píng)估的語言模型,其中約60%可用于分析。

研究人員首先從大約200篇不同的論文中檢索了相關(guān)的評(píng)估信息,又額外使用框架執(zhí)行了25個(gè)模型的評(píng)估。

然后,考慮數(shù)據(jù)的子集,其中包含擬合模型結(jié)構(gòu)所需的信息:token級(jí)測(cè)試?yán)Щ蠖龋Q定交叉熵?fù)p失)、發(fā)布日期、模型參數(shù)數(shù)量和訓(xùn)練數(shù)據(jù)集大小,最終篩選出231個(gè)模型供分析。

圖片

這231個(gè)語言模型,跨越了超過8個(gè)數(shù)量級(jí)的計(jì)算,上圖中的每個(gè)形狀代表一個(gè)模型。

形狀的大小與訓(xùn)練期間使用的計(jì)算成正比,困惑度評(píng)估來自于現(xiàn)有文獻(xiàn)以及作者自己的評(píng)估測(cè)試。

在某些情況下,會(huì)從同一篇論文中檢索到多個(gè)模型,為了避免自相關(guān)帶來的問題,這里每篇論文最多只選擇三個(gè)模型。

實(shí)證結(jié)果

根據(jù)縮放定律,以及作者引入的有效數(shù)據(jù)、有效參數(shù)和有效計(jì)算的定義來進(jìn)行評(píng)估,結(jié)果表明:有效計(jì)算的中位倍增時(shí)間為8.4個(gè)月,95%置信區(qū)間為4.5至14.3個(gè)月。

圖片

上圖表示通過交叉驗(yàn)證選擇的模型的算法進(jìn)度估計(jì)值。圖a顯示了倍增時(shí)間的匯總估計(jì)值,圖b顯示了從左到右按交叉驗(yàn)證性能遞減(MSE測(cè)試損耗增加)排序。

圖片

上圖比較了2016年至2020年前后的算法有效計(jì)算的估計(jì)倍增時(shí)間。相對(duì)于前期,后期的倍增時(shí)間較短,表明在該截止年之后算法進(jìn)步速度加快。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2015-05-13 09:58:23

摩爾定律

2010-05-05 09:46:03

NVIDIA摩爾定律

2021-09-23 10:20:16

算法模型技術(shù)

2009-04-11 18:02:32

多核服務(wù)器IBM

2009-03-10 11:14:59

2011-05-19 09:06:51

2013-01-09 10:07:37

摩爾定律處理器ARM

2009-04-13 10:47:19

IBM計(jì)算機(jī)摩爾定律

2013-05-14 09:12:01

Intel摩爾定律工藝制程

2010-02-01 10:30:09

摩爾定律“電子自轉(zhuǎn)”

2020-07-09 14:44:07

AI芯片檢驗(yàn)期

2018-12-27 09:39:30

存儲(chǔ)

2023-01-31 15:10:30

AI模型

2015-06-29 09:14:00

云計(jì)算摩爾定律失效

2021-03-12 10:23:02

芯片半導(dǎo)體技術(shù)

2012-12-11 10:35:20

2010-04-13 09:56:45

32納米摩爾定律

2022-08-26 05:42:41

AI技術(shù)人工智能

2013-03-28 09:29:11

英特爾CEO貝瑞特
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美一级在线 | 成人综合在线视频 | 91亚洲欧美 | 男女国产视频 | 亚洲综合电影 | 日韩中出 | 精品国产伦一区二区三区观看体验 | 全免费a级毛片免费看视频免费下 | 午夜精品久久久久久久久久久久久 | 亚洲视频免费在线 | 欧美精品一二区 | 成人精品一区 | 久久99精品久久 | 精品亚洲二区 | 日日夜夜精品视频 | 高清一区二区视频 | 男女羞羞的网站 | 成人免费精品视频 | 国产欧美日韩久久久 | 伊人一区| 国产成人网 | 色婷婷久久久亚洲一区二区三区 | 国产一区二区三区在线视频 | 一区二区三区四区免费在线观看 | 精品一区二区久久久久久久网站 | 中文字幕乱码视频32 | 日韩久久久久久 | 久久久久久久电影 | 日本特黄特色aaa大片免费 | 青青草一区二区 | 久久国产精品久久 | 日韩视频在线免费观看 | 精品久久国产 | 国产伦精品一区二区三区照片91 | 日韩欧美在线观看 | 久久久精品 | 国产精品久久久久久吹潮 | 国产精品久久久久久久久久久新郎 | 亚洲一在线 | 91久久精品视频 | 日韩欧美在线视频 |