成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

合成數據:解鎖通用人工智能的“關鍵之鑰”? 原創 精華

發布于 2024-6-26 10:26
瀏覽
0收藏

編者按: 人工智能技術的發展離不開高質量數據的支持。然而,現有可用的高質量數據資源已日漸接近枯竭邊緣。如何解決訓練數據短缺的問題,是當前人工智能領域亟待解決的一個較為棘手的問題。

本期文章探討了一種經實踐可行的解決方案 —— 合成數據(Synthetic Data)。如 AlphaZero、Sora 等已初步證實了合成數據具備的巨大潛力。對于語言模型來說,雖然要生成高質量的合成文本存在一定難度,但通過優化現有數據、從多模態數據中學習等策略,或許能夠大幅降低對新數據的需求量。

如果合成數據真的能解決訓練數據匱乏的難題,其影響必將是極其深遠的。文章進一步分析了可能產生的影響:如互聯網行業可能會被重塑、反壟斷審查可能進一步加強、公共數據資源會獲得更多投資等。不過現在做出這些預測或許還為時尚早,我們需要保持冷靜,耐心觀察合成數據這一技術在未來會取得何種突破性進展。

本文直指人工智能發展面臨的一大瓶頸 —— “高質量數據的日益枯竭”,并提出了一種有爭議但值得探索的解決方案,極具啟發意義。我們后續會持續關注這一技術領域的最新進展,敬請期待!

作者 | Nabeel S. Qureshi

編譯?|?岳揚

合成數據:解鎖通用人工智能的“關鍵之鑰”?-AI.x社區

::: hljs-center
大語言模型是在海量數據上完成訓練的,數據集規模堪比眾多圖書館的藏書總和。然而,如果有一天我們用盡了所有可用的數據,該怎么辦呢?圖片來源:Twitter[1]
:::

01 數據不夠用?

現代大語言模型(LLMs)的一個關鍵事實可概括總結為:數據為王。人工智能模型的行為很大程度上取決于其訓練所用的數據集;其他細節(諸如模型架構等),只是為數據集提供計算能力的一種手段。擁有一份干凈的、高品質的數據集,其價值不可估量。[1]

數據的重要地位在人工智能行業的商業實踐(AI business practice)中可見一斑。OpenAI?近期宣布與 Axel Springer、Elsevier、美聯社及其它內容出版商和媒體巨頭達成數據合作;《紐約時報》(NYT)最近起訴 OpenAI,要求停用利用 NYT 數據訓練的 GPT 模型。與此同時,蘋果公司正以超過五千萬美元的價格,尋求與內容出版商(publishers)的數據合作。在當前的邊際效益(譯者注:邊際效益(Marginal Benefit)是一個經濟學概念,指的是在增加一單位的某種投入(如生產中的勞動力、原材料或者服務中的員工時間)時,所獲得的額外收益或價值的增加。)下,模型從更多數據中獲取的利益遠超單純擴大模型規模帶來的收益。

訓練語料庫(training corpora)的擴容速度令人咋舌。世界上首個現代 LLM 是在維基百科這一知識寶庫上訓練完成的。GPT-3 在 3000 億個 tokens(包括單詞、詞根或標點等)上進行訓練,而 GPT-4 的訓練數據量更是達到了驚人的13萬億個 tokens 。自動駕駛汽車是在數千小時的視頻錄像資料中學習、掌握駕駛技巧的;在編程輔助方面,OpenAI 的 Copilot,依托的是來自 Github 上數百萬行人類編寫的代碼。

這種情況會一直持續下去嗎?2022 年發表在 arXiv[2]?上的一項研究表明:我們正逼近耗盡高質量數據的邊緣,這一轉折點預計會在2023年至2027年間到來。 (這里所謂的“高質量數據”,涵蓋了維基百科(Wikipedia)、新聞(news)、代碼(code)、科學文獻(scientific papers)、書籍(books)、社交媒體對話內容(social media conversations)、精選網頁(filtered web pages)以及用戶原創內容(如 Reddit 上的內容)。)

研究估計,這些高質量數據的存量約為 9e12 個單詞,并且每年以 4 %到 5 %的速度增長。 9e12 具體有多大?舉個例子,莎士比亞全集的字數約為 90 萬(即9e5),相比之下,9e12 這個數量足足是莎翁作品字數總和的 1000 萬倍之巨。

據粗略估計,要達到真正意義上的人類級人工智能(human-level AI),所需數據量可能是當前數據量的 5 到 6 個數量級之上,換言之,至少需要 10 萬至 100 萬倍的數據量擴充。

回顧一下,GPT-4 使用了 13 萬億個 tokens 。不過還有很多尚未充分開采的領域里潛藏著豐富的數據等待挖掘,比如音頻與視頻資料、非英語數據資料、電子郵件、短信、推特動態、未數字化的書籍,以及企業私有數據。通過這些渠道,我們或許能再獲得比目前有用數據多 10 倍甚至 100 倍的數據,然而,要再獲得多 10 萬倍的數據卻如同天方夜譚。

一句話,我們手中的數據還遠遠不夠

除此之外,還有一系列現有的不利因素可能讓獲取優質數據變得更加棘手:

  • 那些依賴用戶來生成內容(User-generated content, UGC)的網站,比如Reddit、Stack Overflow、Twitter/X等,紛紛關上了免費獲取數據大門,對數據使用權開出了天價的的許可費。
  • 作家、藝術家,甚至像《紐約時報》這樣的媒體巨頭,都在維權路上高歌猛進,抗議其作品未經許可就被大語言模型拿去“學習”。
  • 有人擔憂,互聯網正逐漸被大語言模型生成的低質內容所淹沒,這不僅可能引發模型的“drift”(譯者注:在模型持續學習或微調的過程中,如果新增數據質量不高,可能引導模型產生不理想的變化。),還會直接拉低模型響應的質量。

02 合成數據:超級智能的新曙光?

基于前文的分析,我們或許會得出一個比較悲觀的結論:我們目前擁有的數據不足以訓練出超級智能(superintelligence)。然而,現在做出這樣的判斷未免操之過急。解決這一問題的關鍵可能就在于合成數據的創造——即機器為了自訓練(self-training)而自主生成的數據。

盡管聽上去像是天方夜譚,但事實上,一些前沿的現代 AI 系統都是通過合成數據訓練出來的:

  • 專攻棋類的?AlphaZero[3]?就是使用合成數據訓練出來的。具體而言,AlphaZero?通過與自身對戰來生成數據,并從這些對局中汲取教訓,不斷優化策略。(這種數據之所以被稱為合成數據,是因為它完全不需要借鑒真實人類的棋局記錄。)
  • 再來看看 OpenAI 的最新成果之一 ——?Sora[4],這款視頻生成模型能夠依據簡單的文字指令,創造出長達 1 分鐘的虛擬視頻。它的訓練很可能是基于電子游戲引擎(大概率是Unreal Engine 5)生成的合成數據。也就是說,Sora 不僅通過 YouTube 視頻或現實世界的電影來學習,游戲引擎構建的虛擬環境同樣成為了它的學習素材。

所以,這項技術已在棋類博弈與視頻生成應用中得到了證實;真正的問題在于它能否同樣適用于文本處理。 在某些方面,制作供訓練使用的高質量視頻數據,比生成文字訓練數據容易得多:只需一部 iPhone,就能拍攝視頻捕捉現實生活的真實面貌。然而,要想讓合成的文本數據成為有效的訓練數據,它必須是高質量、有趣的,而且在某種意義上是 “真實的”。

關鍵的一點是,創造有價值的合成數據,不僅僅就是從無到有的創作文本那么簡單。比如,一份最新發表的論文[5](2024年1月)指出,利用大語言模型改進抓取到的網絡數據的表達方式,不僅能優化訓練效果,還能提升訓練效率。有時,僅通過篩選并移除數據集中質量最差的數據(這一過程稱為“數據集剪枝”),就能大幅增強大語言模型的表現。有一項針對圖像數據的研究更是驚人地發現,要達到模型的峰值性能(peak model performance),甚至需要舍棄數據集中高達90%的非關鍵信息!

如今,我們已擁有能像孩童般從視頻中觀察與學習的大語言模型。當我們弄清楚如何獲取更高質量的多模態數據(包括視頻、音頻、圖像及文本)的技巧,我們可能會驚喜地發現,大語言模型填補其世界觀缺失部分所需的訓練數據量,遠比原先設想的要少得多。

03 解決合成數據生成問題將帶來的影響

  1. 攻克合成數據的生成這一難題將極大加速人工智能領域的進步:考慮到當前研究者們對合成數據開發的投入、解決這一問題的巨大動力以及這一難題在其他領域已取得的成功,我們有理由相信,在未來幾個月至數年內合成數據的生成將取得重大進展,進一步推動 AI 技術的飛速發展。而這一方面的技術突破,很可能會被各大企業嚴密保護為商業機密。
  2. 互聯網行業或將重塑,減少對廣告的依賴程度:傳統上嚴重依賴廣告收入的互聯網企業,可能轉向一種全新的商業模式,聚焦于訓練數據的生成、創造。如 Reddit 這家近期申請 IPO(S-1) 的互聯網巨頭,其收入的 10%(即約 6000 萬美元)來源于數據銷售,且預計這一比例將持續上升。互聯網上的用戶數據源源不斷(包括 reviews、tweets、comments 等),獲取這些新鮮數據將非常有價值。如果這一點正確,各大企業將競相采取措施,收集更多高價值的人工生成數據,助力人工智能模型的訓練。
  3. 反壟斷審查將趨嚴:獨占如 Reddit、Elsevier 這類高價值數據源所引發的反壟斷問題,預期將受到更為嚴格的審查。大型科技公司憑借其雄厚的財力和龐大的數據集,將進一步鞏固其市場主導地位,加劇小規模企業參與競爭的難度。
  4. 開源項目可能會落后:監管部門需思考如何確保數據集的公平獲取途徑,可能會將數據集視作公共基礎設施,或在特定條件下強制執行數據共享相關要求。構建更多高質量、經過篩選和整理的數據集,對學術界和開源社區維持競爭力尤為重要。各國政府也許會主動建立中央數據資源庫,供所有大語言模型(LLM)開發者使用,從而幫助創造公平的競爭環境。不過短期內,開源項目開發者只能繼續在 private labs?(譯者注:由私營企業或非公有實體運營的研究實驗室,它們的工作成果、研發的技術和產生的數據往往被視為公司的知識產權,對外保密。)制作的優秀模型基礎上對其進行微調,這意味著開源項目在可預見的未來仍可能落后于 private labs 。
  5. 數據被共享為公共資源:某些類型的數據具備公共屬性,往往因投資不足而未得到充分開發。比如,一個匯集人類倫理道德偏好(human ethical preferences),通過對比分析形成的公共數據集,便是一個適宜公開資助或 AI 慈善項目投資的對象。類似的案例不勝枚舉。

在科幻小說《沙丘》中,迷幻劑 melange(小說中俗稱“香料”),被譽為銀河系中的無價之寶。基于以上種種,埃隆·馬斯克(Elon Musk)不久前在推特上的言論[6]——“數據即是香料(data is the spice.)”——便顯得極為意味深長。AI 實驗室都對此心領神會,正緊鑼密鼓地“搗鼓”數據。

【注釋】有一篇由 OpenAI 研究員撰寫的題目為《the ‘it’ in AI models is the dataset(AI模型的核心在于數據集)》( https://nonint.com/2023/06/10/the-it-in-ai-models-is-the-dataset/ )的精彩博客文章,作者一針見血地指出:

“AI 模型的行為特征并非取決于其架構設計、超參數設置或是優化器算法的選擇。真正起決定作用的是數據集本身,除此之外別無他物。所有的架構、參數和優化方法,歸根結底都是為了更高效地處理數據,逼近數據集的真實表現。”

Thanks for reading!

Nabeel S. Qureshi?is a Visiting Scholar at Mercatus. His research focuses on the impacts of AI in the 21st century.

https://nabeelqu.co/

END

參考資料

[1]https://twitter.com/dieworkwear/status/1757203606221340858/photo/2

[2]https://arxiv.org/pdf/2211.04325.pdf

[3]https://en.wikipedia.org/wiki/AlphaZero

[4]https://openai.com/sora

[5]https://arxiv.org/pdf/2401.16380.pdf

[6]https://twitter.com/elonmusk/status/1727813282377957433

本文經原作者授權,由 Baihai IDP 編譯。如需轉載譯文,請聯系獲取授權。

原文鏈接:

https://digitalspirits.substack.com/p/is-synthetic-data-the-key-to-agi

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲欧美日韩精品久久亚洲区 | 九九精品在线 | 密色视频 | 日韩欧美一区二区三区在线播放 | 国内精品视频 | 久久久黄色| 中文字幕在线一区二区三区 | 99国产精品久久久 | 国产成人免费在线 | 亚洲国产成人久久久 | 亚洲36d大奶网 | 草逼网站 | 丝袜天堂| 老司机精品福利视频 | 四虎影院免费在线播放 | 色婷婷av99xx | 日日干日日射 | 成人国产一区二区三区精品麻豆 | 高清亚洲 | 欧美九九 | 国产在线一区二区 | 久久综合99| 欧美综合一区二区三区 | 精品国产乱码久久久久久a丨 | 午夜不卡一区二区 | 精品一区二区三区在线观看国产 | 韩国精品一区 | 国产精品国产成人国产三级 | 青草福利 | 久久综合一区二区三区 | 国产精品不卡视频 | yeyeav| 精品免费视频一区二区 | 国产十日韩十欧美 | 成人精品国产免费网站 | 91中文字幕在线 | 成人在线视频网址 | 日日操av| 国产精品69毛片高清亚洲 | 欧美最猛黑人 | 亚洲成人一区 |