成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

訓出GPT-5短缺20萬億token!OpenAI被曝計劃建「數據市場」

人工智能 新聞
全網高質量數據集告急!OpenAI、Anthropic等AI公司正在開拓新方法,訓練下一代AI模型。

全網真的無數據可用了!

外媒報道稱,OpenAl、Anthropic等公司正在努力尋找足夠的信息,來訓練下一代人工智能模型。

圖片

前幾天,OpenAI和微軟被曝出正在聯(lián)手打造超算「星際之門」,解決算力難題。

然而,數據也是訓練下一代強大模型,最重要的一味丹藥。

面對窮盡互聯(lián)網的數據難題,AI初創(chuàng)、互聯(lián)網大廠真的坐不住了。

圖片

GPT-5訓練,用上了YouTube視頻

不論是下一代GPT-5、還是Gemini、Grok等強大系統(tǒng)的開發(fā),都需要從大量的海洋數據中學習。

可以預見的是,互聯(lián)網中高質量公共數據已經變得非常稀缺。

與此同時,一些數據所有者,比如Reddit等機構,制定政策阻止AI公司的訪問數據。

一些高管和研究人員稱,由于對高質量文本數據的需求,可能會在2年內超過供應,這可能會減緩人工智能的發(fā)展。

也包括2022年11月,就有MIT等研究人員警告,機器學習數據集可能會在2026年之前耗盡所有「高質量語言數據」。

圖片

論文地址:https://arxiv.org/pdf/2211.04325.pdf

WSJ報道稱,這些人工智能公司正在尋找未開發(fā)的信息源,并重新思考如何訓練先進的AI系統(tǒng)。

知情人士透露,OpenAI已經在討論如何通過轉錄YouTube公開視頻,來訓練下一個模型GPT-5。

圖片

為了獲取更多真實數據,OpenAI還曾與不同機構合作簽署協(xié)議,以便雙方共享部分內容和技術。

還有一些公司采用AI生成的合成數據,作為訓練材料。

不過,這種方法實際上可能會造成嚴重的故障。

此前,萊斯大學和斯坦福團隊的研究發(fā)現,將AI生成的內容喂給模型,尤其經過5次迭代后,只會導致性能下降。

研究人員對此給出一種解釋,叫做「模型自噬障礙」(MAD)。

論文地址:https://arxiv.org/abs/2307.01850

對于AI合成數據的使用,在這些公司都是秘密進行的。這種解決方案已然被視為一種新的競爭優(yōu)勢。

AI研究Ari Morcos表示,「數據短缺」是一個前沿的研究問題。他在去年創(chuàng)立DatologyAI之前。曾在Meta Platforms和谷歌的DeepMind部門工作。

他的公司建立了改進數據選擇的工具,可以幫助公司以更低的成本訓練AI模型.

「不過目前還沒有成熟的方法可以做到這一點」。

數據稀缺,成為永恒

數據、算力、算法都是訓練強大人工智能重要的資源之一。

對于訓練ChatGPT、Gemini這樣的大模型完全基于互聯(lián)網上獲取的文本數據打造的,包括科學研究、新聞報道和維基百科條目。

這些材料被分成「詞塊」——單詞和單詞的一部分,模型利用這些詞塊來學習如何形成類人的表達方式。

一般來說,AI模型接受訓練的數據越多,能力就越強。

OpenAI正是在這種策略上大大投入,才使得ChatGPT名聲遠揚。

不過一直以來,OpenAI從未透露過關于GPT-4的訓練細節(jié)。

但研究機構Epoch研究人員Pablo Villalobos估計,GPT-4是在多達12萬億個token上訓練的。

他繼續(xù)表示,基于Chinchilla縮放定律的原理,如果繼續(xù)遵循這樣擴展軌跡,像GPT-5這樣的AI系統(tǒng)將需要60萬億-100萬億token的數據。

利用所有可用的高質最語言和圖像數據,仍可能會留下10萬億到20萬億,甚至更多的token的缺口,目前尚不清楚如何彌合這一差距。

兩年前,Villalobos在論文中寫道,到2024年中期,高質量數據供不應求的可能性為50%。到2026年,供不應求的可能概率達到90%。

不過,現在他們變得樂觀了一些,并估計這一時間將推遲到2028年。

圖片

大多數在線數據對于AI的訓練是無用的,因為它們包含了大量的句子片段、污染數據等,或者不能增加模型的知識。

Villalobos估計,只有一小部分互聯(lián)網對模型訓練會有用,可能只有CommonCrawl收集的信息的1/10。

與此同時,社交媒體平臺、新聞出版商和其他公司一直在限制AI公司,使用自家平臺數據進行人工智能訓練,因為擔心公平補償等問題。

而且公眾也不愿意交出私人對話數據(比如iMessage上的聊天記錄)來幫助訓練模型。

然而,小扎最近把Meta在其平臺上獲取數據的能力,吹捧為Al研究工作的一大優(yōu)勢。

他對外公開稱,Meta可以在其網絡(包括Facebook和Instagram)上挖掘數千億張公開共享的圖片和視頻,這些圖片和視頻的總量超過了大多數常用的數據集。

圖片

數據選擇工具的初創(chuàng)公司DatologyAI使用可一種稱為「課程學習」的策略。

在這種策略中,數據以特定的序列被輸入到語言模型中,希望人工智能能夠在概念之間形成更智能的連接。

在2022年的一篇論文中,Datalogy AI研究人員Morcos和合著者估計,如果數據正確,模型可以用一半的時間取得同樣的結果。

圖片

這有可能降低訓練和運行大型生成式人工智能系統(tǒng)的巨大成本。

不過,到目前為止,其他的研究表明,「課程學習」的方法并不有效。

Morcos表示團隊正在調整這一方法,這是深度學習最骯臟的秘密。

OpenAI谷歌要建「數據市場」?

奧特曼曾在去年對外透露,公司正在研究訓模型的新方法。

「我認為,我們正處于這些巨型模型時代的末期。我們會用其他方法讓它們變得更好」。

知情人士表示,OpenAI還討論了創(chuàng)建一個「數據市場」。

在這個市場上,OpenAI它可以建立一種方法,來確定每個數據點對最終訓練模型的貢獻,并向該內容的提供商支付費用。

同樣的想法,也在谷歌內部進行了討論。

目前,研究人員一直努力創(chuàng)建這樣一個系統(tǒng),暫不清楚是否會找到突破口。

據知情人士透露,高管們已經討論過使用其自動語音識別工具Whisper在互聯(lián)網上轉錄高質量的視頻和音頻示例。

其中一些將通過YouTube公共視頻進行,并且部分數據已經用于訓練GPT-4。

下一步,合成數據

一些公司也在嘗試制作自己的數據。

喂養(yǎng)AI生成的文本,被認為是計算機科學領域的「近親繁殖」。

這樣的模型往往會輸出沒有意義的內容, 一些研究人員將其稱為「模型崩潰」。

OpenAI和Anthropic的研究人員正試圖通過創(chuàng)建所謂的更高質量的合成數據來避免這些問題。

在最近的一次采訪中,Anthropic的首席科學家JaredKaplan表示,某些類型的合成數據可能會有所幫助。同時,OpenAI也在探索合成數據的可能性。

圖片

許多研究數據問題的人都樂觀認為,「數據短缺」解決方案終會出現。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-01-20 07:30:00

OpenAIGPT-5模型

2024-01-18 12:30:03

2024-12-24 14:30:00

模型AI訓練

2024-12-23 09:22:00

AI模型訓練

2023-08-02 13:52:59

GPT-5模型

2025-02-10 01:00:00

OpenAIGPT-5GPT-4.5

2023-06-08 07:58:29

2025-05-13 09:02:23

2024-11-11 13:52:31

2024-09-05 21:02:58

2023-09-19 12:45:36

2023-11-07 16:10:18

OpenAIGPTAI

2023-04-13 13:38:59

2025-02-13 10:52:56

2025-06-19 09:06:00

2023-11-14 14:26:29

OpenAIGPT-5

2023-08-10 15:22:48

人工智能OpenAI

2024-06-24 00:02:00

GPT-5GPT-4oOpenAI

2025-02-13 08:56:12

2023-08-11 10:44:20

GPT-5
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久91av| 国产乱码精品一品二品 | 成人精品在线 | 色久影院 | 中国美女一级黄色片 | 亚洲视频中文字幕 | a级免费视频 | 草草视频在线免费观看 | 四虎影院在线播放 | 国产黄色av网站 | 久久久精品影院 | 91精品国产综合久久久久久蜜臀 | 99爱免费 | 久久久久亚洲精品 | 久久久这里只有17精品 | 免费在线视频一区二区 | 久久久久久免费毛片精品 | 青青草社区 | 91在线观看免费 | 国产精品视频入口 | 国产一级免费在线观看 | 成人性生交大片免费看r链接 | 国产精品视频一区二区三区不卡 | 欧美激情精品久久久久 | 粉嫩一区二区三区性色av | 天天操天天射天天 | 天堂一区二区三区四区 | www.日本国产| 欧美一区 | 中文字幕一区二区三区乱码在线 | 精品香蕉一区二区三区 | 久久逼逼| 欧美精品一区二区三区四区 在线 | 久久久夜 | 欧美激情综合色综合啪啪五月 | 精彩视频一区二区三区 | 超碰免费观看 | 日韩一二三 | 国产精品99久久久久久动医院 | 中文字幕亚洲视频 | 亚洲综合无码一区二区 |