成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<li id="yucos"></li>

<noscript id="yucos"></noscript>

<dl id="yucos"></dl>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

人類(lèi)沒(méi)有足夠的高質(zhì)量語(yǔ)料給AI學(xué)了，2026年就用盡，網(wǎng)友：大型人類(lèi)文本生成項(xiàng)目啟動(dòng)！

2023-01-01 13:42:11

要知道，這可是把人類(lèi)語(yǔ)言數(shù)據(jù)增長(zhǎng)率考慮在內(nèi)預(yù)測(cè)出的結(jié)果，換而言之，這幾年人類(lèi)新寫(xiě)的論文、新編的代碼，哪怕全都喂給AI也不夠。

AI胃口太大，人類(lèi)的語(yǔ)料數(shù)據(jù)已經(jīng)不夠吃了。

來(lái)自Epoch團(tuán)隊(duì)的一篇新論文表明，AI不出5年就會(huì)把所有高質(zhì)量語(yǔ)料用光。

要知道，這可是把人類(lèi)語(yǔ)言數(shù)據(jù)增長(zhǎng)率考慮在內(nèi)預(yù)測(cè)出的結(jié)果，換而言之，這幾年人類(lèi)新寫(xiě)的論文、新編的代碼，哪怕全都喂給AI也不夠。

照這么發(fā)展下去，依賴(lài)高質(zhì)量數(shù)據(jù)提升水平的語(yǔ)言大模型，很快就要迎來(lái)瓶頸。

已經(jīng)有網(wǎng)友坐不住了：

這太荒謬了。人類(lèi)無(wú)需閱讀互聯(lián)網(wǎng)所有內(nèi)容，就能高效訓(xùn)練自己。

我們需要更好的模型，而不是更多的數(shù)據(jù)。

還有網(wǎng)友調(diào)侃，都這樣了不如讓AI吃自己吐的東西：

可以把AI自己生成的文本當(dāng)成低質(zhì)量數(shù)據(jù)喂給AI。

讓我們來(lái)看看，人類(lèi)剩余的數(shù)據(jù)還有多少？

文本和圖像數(shù)據(jù)“存貨”如何？

論文主要針對(duì)文本和圖像兩類(lèi)數(shù)據(jù)進(jìn)行了預(yù)測(cè)。

首先是文本數(shù)據(jù)。

數(shù)據(jù)的質(zhì)量通常有好有壞，作者們根據(jù)現(xiàn)有大模型采用的數(shù)據(jù)類(lèi)型、以及其他數(shù)據(jù)，將可用文本數(shù)據(jù)分成了低質(zhì)量和高質(zhì)量?jī)刹糠帧?/p>

高質(zhì)量語(yǔ)料，參考了Pile、PaLM和MassiveText等大型語(yǔ)言模型所用的訓(xùn)練數(shù)據(jù)集，包括維基百科、新聞、GitHub上的代碼、出版書(shū)籍等。

低質(zhì)量語(yǔ)料，則來(lái)源于Reddit等社交媒體上的推文、以及非官方創(chuàng)作的同人小說(shuō)（fanfic）等。

根據(jù)統(tǒng)計(jì)，高質(zhì)量語(yǔ)言數(shù)據(jù)存量只剩下約4.6×10^12~1.7×10^13個(gè)單詞，相比當(dāng)前最大的文本數(shù)據(jù)集大了不到一個(gè)數(shù)量級(jí)。

結(jié)合增長(zhǎng)率，論文預(yù)測(cè)高質(zhì)量文本數(shù)據(jù)會(huì)在2023~2027年間被AI耗盡，預(yù)估節(jié)點(diǎn)在2026年左右。

看起來(lái)實(shí)在有點(diǎn)快……

當(dāng)然，可以再加上低質(zhì)量文本數(shù)據(jù)來(lái)救急。根據(jù)統(tǒng)計(jì)，目前文本數(shù)據(jù)整體存量還剩下7×10^13~7×10^16個(gè)單詞，比最大的數(shù)據(jù)集大1.5~4.5個(gè)數(shù)量級(jí)。

如果對(duì)數(shù)據(jù)質(zhì)量要求不高，那么AI會(huì)在2030年~2050年之間才用完所有文本數(shù)據(jù)。

再看看圖像數(shù)據(jù)，這里論文沒(méi)有區(qū)分圖像質(zhì)量。

目前最大的圖像數(shù)據(jù)集擁有3×10^9張圖片。

據(jù)統(tǒng)計(jì)，目前圖片總量約有8.11×10^12~2.3×10^13張，比最大的圖像數(shù)據(jù)集大出3~4個(gè)數(shù)量級(jí)。

論文預(yù)測(cè)AI會(huì)在2030~2070年間用完這些圖片。

顯然，大語(yǔ)言模型比圖像模型面臨著更緊張的“缺數(shù)據(jù)”情況。

那么這一結(jié)論是如何得出的呢？

計(jì)算網(wǎng)民日均發(fā)文量得出

論文從兩個(gè)角度，分別對(duì)文本圖像數(shù)據(jù)生成效率、以及訓(xùn)練數(shù)據(jù)集增長(zhǎng)情況進(jìn)行了分析。

值得注意的是，論文統(tǒng)計(jì)的不都是標(biāo)注數(shù)據(jù)，考慮到無(wú)監(jiān)督學(xué)習(xí)比較火熱，把未標(biāo)注數(shù)據(jù)也算進(jìn)去了。

以文本數(shù)據(jù)為例，大部分?jǐn)?shù)據(jù)會(huì)從社交平臺(tái)、博客和論壇生成。

為了估計(jì)文本數(shù)據(jù)生成速度，有三個(gè)因素需要考慮，即總?cè)丝凇⒒ヂ?lián)網(wǎng)普及率和互聯(lián)網(wǎng)用戶平均生成數(shù)據(jù)量。

例如，這是根據(jù)歷史人口數(shù)據(jù)和互聯(lián)網(wǎng)用戶數(shù)量，估計(jì)得到的未來(lái)人口和互聯(lián)網(wǎng)用戶增長(zhǎng)趨勢(shì)：

再結(jié)合用戶生成的平均數(shù)據(jù)量，就能計(jì)算出生成數(shù)據(jù)的速率。（由于地理和時(shí)間變化復(fù)雜，論文簡(jiǎn)化了用戶平均生成數(shù)據(jù)量計(jì)算方法）

根據(jù)這一方法，計(jì)算得出語(yǔ)言數(shù)據(jù)增長(zhǎng)率在7%左右，然而這一增長(zhǎng)率會(huì)隨著時(shí)間延長(zhǎng)逐漸下降。

預(yù)計(jì)到2100年，我們的語(yǔ)言數(shù)據(jù)增長(zhǎng)率會(huì)降低到1%。

同樣類(lèi)似的方法分析圖像數(shù)據(jù)，當(dāng)前增長(zhǎng)率在8%左右，然而到2100年圖像數(shù)據(jù)增長(zhǎng)率同樣會(huì)放緩至1%左右。

論文認(rèn)為，如果數(shù)據(jù)增長(zhǎng)率沒(méi)有大幅提高、或是出現(xiàn)新的數(shù)據(jù)來(lái)源，無(wú)論是靠高質(zhì)量數(shù)據(jù)訓(xùn)練的圖像還是文本大模型，都可能在某個(gè)階段迎來(lái)瓶頸期。

對(duì)此有網(wǎng)友調(diào)侃，未來(lái)或許會(huì)有像科幻故事情節(jié)一樣的事情發(fā)生：

人類(lèi)為了訓(xùn)練AI，啟動(dòng)大型文本生成項(xiàng)目，大家為了AI拼命寫(xiě)東西。

他稱(chēng)之為一種“對(duì)AI的教育”：

我們每年給AI送14萬(wàn)到260萬(wàn)單詞量的文本數(shù)據(jù)，聽(tīng)起來(lái)似乎比人類(lèi)當(dāng)電池要更酷？

你覺(jué)得呢？

論文地址：https://arxiv.org/abs/2211.04325

參考鏈接：https://twitter.com/emollick/status/1605756428941246466

責(zé)任編輯：武曉燕來(lái)源：量子位

AI學(xué)項(xiàng)目預(yù)測(cè)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板： 91av视频| 羞羞视频网站 | 一区二区国产在线观看 | 成人精品高清 | 欧美成人h版在线观看 | 在线日韩不卡 | 欧美一区二区综合 | 久久最新精品视频 | 91精品一区| 中文字幕精品一区二区三区精品 | 99精品国产一区二区三区 | 黄色片在线 | 亚洲精品v | 一区二区三区日 | 国产一区二区在线观看视频 | 亚洲精品久久区二区三区蜜桃臀 | 国产一区亚洲二区三区 | 婷婷综合网 | 国产91丝袜在线播放 | 久久99精品久久久久久国产越南 | 久久精品欧美一区二区三区不卡 | 成人av影院 | 一级黄色夫妻生活 | 美女久久 | 久久久影院 | 国产精品久久久久久久岛一牛影视 | 久久久久久久久久久久亚洲 | 精品一区国产 | 在线播放中文字幕 | 国产高清在线精品一区二区三区 | 男女视频免费 | 日韩不卡在线 | 亚洲资源站 | 精品欧美乱码久久久久久1区2区 | 日本三级网站在线 | 国产一区二区三区视频 | 中文字幕在线观看一区二区 | 日本三级网站在线观看 | 99爱视频 | 亚洲人在线播放 | 一区二区三区在线 | 欧 |

<sup id="8uo68"></sup>

<sup id="8uo68"></sup>

<dfn id="8uo68"><samp id="8uo68"></samp></dfn>