訓出GPT-5短缺20萬億token！OpenAI被曝計劃建「數據市場」

作者：新智元 2024-04-09 09:38:16

人工智能新聞

全網高質量數據集告急！OpenAI、Anthropic等AI公司正在開拓新方法，訓練下一代AI模型。

全網真的無數據可用了！

外媒報道稱，OpenAl、Anthropic等公司正在努力尋找足夠的信息，來訓練下一代人工智能模型。

前幾天，OpenAI和微軟被曝出正在聯(lián)手打造超算「星際之門」，解決算力難題。

然而，數據也是訓練下一代強大模型，最重要的一味丹藥。

面對窮盡互聯(lián)網的數據難題，AI初創(chuàng)、互聯(lián)網大廠真的坐不住了。

GPT-5訓練，用上了YouTube視頻

不論是下一代GPT-5、還是Gemini、Grok等強大系統(tǒng)的開發(fā)，都需要從大量的海洋數據中學習。

可以預見的是，互聯(lián)網中高質量公共數據已經變得非常稀缺。

與此同時，一些數據所有者，比如Reddit等機構，制定政策阻止AI公司的訪問數據。

一些高管和研究人員稱，由于對高質量文本數據的需求，可能會在2年內超過供應，這可能會減緩人工智能的發(fā)展。

也包括2022年11月，就有MIT等研究人員警告，機器學習數據集可能會在2026年之前耗盡所有「高質量語言數據」。

論文地址：https://arxiv.org/pdf/2211.04325.pdf

WSJ報道稱，這些人工智能公司正在尋找未開發(fā)的信息源，并重新思考如何訓練先進的AI系統(tǒng)。

知情人士透露，OpenAI已經在討論如何通過轉錄YouTube公開視頻，來訓練下一個模型GPT-5。

為了獲取更多真實數據，OpenAI還曾與不同機構合作簽署協(xié)議，以便雙方共享部分內容和技術。

還有一些公司采用AI生成的合成數據，作為訓練材料。

不過，這種方法實際上可能會造成嚴重的故障。

此前，萊斯大學和斯坦福團隊的研究發(fā)現，將AI生成的內容喂給模型，尤其經過5次迭代后，只會導致性能下降。

研究人員對此給出一種解釋，叫做「模型自噬障礙」（MAD）。

論文地址：https://arxiv.org/abs/2307.01850

對于AI合成數據的使用，在這些公司都是秘密進行的。這種解決方案已然被視為一種新的競爭優(yōu)勢。

AI研究Ari Morcos表示，「數據短缺」是一個前沿的研究問題。他在去年創(chuàng)立DatologyAI之前。曾在Meta Platforms和谷歌的DeepMind部門工作。

他的公司建立了改進數據選擇的工具，可以幫助公司以更低的成本訓練AI模型.

「不過目前還沒有成熟的方法可以做到這一點」。

數據稀缺，成為永恒

數據、算力、算法都是訓練強大人工智能重要的資源之一。

對于訓練ChatGPT、Gemini這樣的大模型完全基于互聯(lián)網上獲取的文本數據打造的，包括科學研究、新聞報道和維基百科條目。

這些材料被分成「詞塊」——單詞和單詞的一部分，模型利用這些詞塊來學習如何形成類人的表達方式。

一般來說，AI模型接受訓練的數據越多，能力就越強。

OpenAI正是在這種策略上大大投入，才使得ChatGPT名聲遠揚。

不過一直以來，OpenAI從未透露過關于GPT-4的訓練細節(jié)。

但研究機構Epoch研究人員Pablo Villalobos估計，GPT-4是在多達12萬億個token上訓練的。

他繼續(xù)表示，基于Chinchilla縮放定律的原理，如果繼續(xù)遵循這樣擴展軌跡，像GPT-5這樣的AI系統(tǒng)將需要60萬億-100萬億token的數據。

利用所有可用的高質最語言和圖像數據，仍可能會留下10萬億到20萬億，甚至更多的token的缺口，目前尚不清楚如何彌合這一差距。

兩年前，Villalobos在論文中寫道，到2024年中期，高質量數據供不應求的可能性為50%。到2026年，供不應求的可能概率達到90%。

不過，現在他們變得樂觀了一些，并估計這一時間將推遲到2028年。

大多數在線數據對于AI的訓練是無用的，因為它們包含了大量的句子片段、污染數據等，或者不能增加模型的知識。

Villalobos估計，只有一小部分互聯(lián)網對模型訓練會有用，可能只有CommonCrawl收集的信息的1/10。

與此同時，社交媒體平臺、新聞出版商和其他公司一直在限制AI公司，使用自家平臺數據進行人工智能訓練，因為擔心公平補償等問題。

而且公眾也不愿意交出私人對話數據（比如iMessage上的聊天記錄）來幫助訓練模型。

然而，小扎最近把Meta在其平臺上獲取數據的能力，吹捧為Al研究工作的一大優(yōu)勢。

他對外公開稱，Meta可以在其網絡（包括Facebook和Instagram）上挖掘數千億張公開共享的圖片和視頻，這些圖片和視頻的總量超過了大多數常用的數據集。

數據選擇工具的初創(chuàng)公司DatologyAI使用可一種稱為「課程學習」的策略。

在這種策略中，數據以特定的序列被輸入到語言模型中，希望人工智能能夠在概念之間形成更智能的連接。

在2022年的一篇論文中，Datalogy AI研究人員Morcos和合著者估計，如果數據正確，模型可以用一半的時間取得同樣的結果。

這有可能降低訓練和運行大型生成式人工智能系統(tǒng)的巨大成本。

不過，到目前為止，其他的研究表明，「課程學習」的方法并不有效。

Morcos表示團隊正在調整這一方法，這是深度學習最骯臟的秘密。

OpenAI谷歌要建「數據市場」？

奧特曼曾在去年對外透露，公司正在研究訓模型的新方法。

「我認為，我們正處于這些巨型模型時代的末期。我們會用其他方法讓它們變得更好」。

知情人士表示，OpenAI還討論了創(chuàng)建一個「數據市場」。

在這個市場上，OpenAI它可以建立一種方法，來確定每個數據點對最終訓練模型的貢獻，并向該內容的提供商支付費用。

同樣的想法，也在谷歌內部進行了討論。

目前，研究人員一直努力創(chuàng)建這樣一個系統(tǒng)，暫不清楚是否會找到突破口。

據知情人士透露，高管們已經討論過使用其自動語音識別工具Whisper在互聯(lián)網上轉錄高質量的視頻和音頻示例。

其中一些將通過YouTube公共視頻進行，并且部分數據已經用于訓練GPT-4。

下一步，合成數據

一些公司也在嘗試制作自己的數據。

喂養(yǎng)AI生成的文本，被認為是計算機科學領域的「近親繁殖」。

這樣的模型往往會輸出沒有意義的內容，一些研究人員將其稱為「模型崩潰」。

OpenAI和Anthropic的研究人員正試圖通過創(chuàng)建所謂的更高質量的合成數據來避免這些問題。

在最近的一次采訪中，Anthropic的首席科學家JaredKaplan表示，某些類型的合成數據可能會有所幫助。同時，OpenAI也在探索合成數據的可能性。

許多研究數據問題的人都樂觀認為，「數據短缺」解決方案終會出現。

責任編輯：張燕妮來源：新智元

OpenAI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

訓出GPT-5短缺20萬億token！OpenAI被曝計劃建「數據市場」

GPT-5訓練，用上了YouTube視頻

數據稀缺，成為永恒

OpenAI谷歌要建「數據市場」？

下一步，合成數據