OpenAI曾轉錄100萬小時視頻數據，訓練GPT-4 精華

Aceryt

發布于 2024-4-9 13:06

瀏覽

0收藏

4月7日，紐約時報在官網發布了一篇名為《科技巨頭如何挖空心思，為AI收集數據》的技術文章。

紐約時報表示，OpenAI曾在2021年幾乎消耗盡了互聯網有用的文本數據源。為了緩解訓練數據短缺的難題，便開發了知名開源語音識別模型Whisper。

隨后在OpenAI副總裁Greg Brockman的帶領下，從視頻平臺YT、有聲播客/讀物等轉錄了超過100萬小時的視頻數據，然后轉化成文本數據用于訓練GPT-4。

雖然這一舉措游走在法律的邊緣處于灰色地帶，但也直接反映出了大模型廠商對于訓練數據的饑渴程度。

OpenAI曾轉錄100萬小時視頻數據，訓練GPT-4-AI.x社區

紐約時報指出，不只是OpenAI，谷歌、Meta等科技巨頭因為想搜集高質量訓練數據而修改隱私數據條款，來避免版權法的制裁。

例如，Meta為了追趕OpenAI、微軟，使用了互聯網上幾乎所有公開的英語書籍、散文、詩歌和新聞文章等內容。

甚至想直接買下一家大型出版社，來獲取更高質量的有版權、付費數據。不過沒有人敢輕易相信Meta的數據隱私條例。

這是因為2018年的“劍橋分析丑聞”讓Meta的信譽陷入低谷（那時的名字是Facebook）。

該事件是，一家英國劍橋分析公司通過一款心理測試程序，非法獲取了大約8700萬Facebook用戶的個人隱私數據，包括未經用戶明確同意的信息。

OpenAI曾轉錄100萬小時視頻數據，訓練GPT-4-AI.x社區

用戶在參與測試時，不僅自己的數據被收集，就連Facebook好友的信息也被抓取。該丑聞爆發后，Facebook面臨了前所未有的審查，該公司的數據隱私政策和管理不當受到嚴重處罰。

最后，以扎克伯格出面道歉、參加聽證會才收場。

高質量數據，是生成式AI領域的“黃金”。

當你向ChatGPT、Gemini、Claude等提問獲得文本答案時，心里是否會想過，這種內容的寫法好像在哪里見過？

居然可以輕松寫出古龍、金庸、莫言、莎士比亞、泰戈爾、芥川龍之介、夏目漱石等國內外知名作家風格的內容。

沒錯，大模型最擅長的便是抄襲然后二次創新，但整體框架、敘述方法還是以模仿為基石。

如果只用一句大白話來解釋大模型的原理——通過海量預訓練數據讓大模型學會人類的寫作技巧和習慣（視頻、音頻、圖片架構會更復雜一些，但基本同理），然后進行排列組合、預測生成全新的內容（大模型的文本提示，相當于搜索引擎的關鍵字）。

所以，相比幾千億甚至上萬億的參數，在架構、算法差不多的情況下，訓練數據對于大模型更重要。微軟、Stability AI發布的Orca 2、Stable LM 2等模型也充分證明了——通過高質量數據訓練的小參數模型，性能可以強過大參數模型。

就像上面的作家舉例一樣，A廠商的模型學習了夏目漱石的寫作數據，而B沒有，兩家又都是基于Transformer架構，明顯A的寫作能力要大于B。

也可以把訓練數據看成“內功心法”，當兩位劍客的招式幾乎差不多時，在關鍵時刻比拼的就是誰的內功高，誰便能技高一籌。

此外，為了獲取高質量數據，2023年7月5日，谷歌修改了數據隱私條款，將會抓取用戶公開或來自其他公共來源的數據，用于訓練Gemini（當時用名Bard）、谷歌翻譯和云AI等產品。

OpenAI曾轉錄100萬小時視頻數據，訓練GPT-4-AI.x社區

但好景不長，在公布消息的15天后，谷歌就接到了美國克拉克森律師事務所的起訴。在這份長達90頁的訴訟書中，指控谷歌從網絡秘密竊取大量數據來訓練其AI產品。指控其疏忽、侵犯隱私、盜竊、侵犯版權以及從非法獲取的個人數據中獲利。

谷歌為了獲取高質量數據鋌而走險，可見數據對于大模型的重要性。

合成數據正成為主流

4月2日，華爾街日報在官網發布了一篇名為《對于大量消耗數據的AI企業來說，互聯網太小了》的內容。

華爾街日報指出，對于大模型廠商來說互聯網那點數據，就像一口被挖干的油井根本不夠用。

尤其是對于訓練視頻、音頻、圖像這些比文本更復雜的模型，就像一個“數據黑洞”可以無限吸收各種數據。

OpenAI曾轉錄100萬小時視頻數據，訓練GPT-4-AI.x社區

但常在河邊走哪有不濕鞋的事，各家科技巨頭當然也清楚，游走在灰色地帶只是無奈之舉。所以，他們想了一個新辦法使用合成數據。

合成數據是通過算法、機器學習模型自動合成的“虛擬數據”，以模擬真實世界數據的統計特性。基本上也是以模仿為主，但在法律和應用場景等方面有很多優勢。

良好的隱私保護，合成數據可以在不暴露個人或敏感信息的情況下生成數據，這對于遵守GDPR或HIPAA等隱私法規非常重要。

無限數據源，理論上，可以生成無限量的合成數據，這對于需要大量數據但現實世界數據不足以支持的場景非常有用。

控制數據分布，可以精確控制合成數據的分布，能定制數據以探索特定的情況或增強模型在特定任務上的性能。

成本低，收集和標注大量真實世界數據比較貴，而生成合成數據的成本通常較低，主要由AI自動完成。

但合成數據也并非完美無缺，最致命的缺點便是過度擬合：如果合成數據過于簡化或未能捕捉到真實數據的關鍵特征、表示，用于訓練AI模型可能會過度擬合輸出的內容同質化且繁重無用。

在合成數據應用方面，OpenAI在今年2月15日重磅發布的視頻模型Sora，很多技術大咖就分析，Sora能生成如此高清的視頻和時長，可能使用了虛幻引擎5生成的合成數據。

事實上，根據內測用戶發布Sora生成的視頻，然后與虛幻引擎5的示例視頻進行了多維度對比，大概率是使用了合成的視頻數據來訓練Sora。

所以，使用合成數據訓練AI模型，將成為未來主要趨勢之一。

本文轉自 AIGC開放社區，作者： AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/D7eEvw4TRTBo97Belx-6DQ??

標簽

AI 模型

贊

回復

舉報

回復

相關推薦

超越GPT-4！最強大模型 Claude 3 完全解讀

開發者阿橙 ? 6440瀏覽 ? 0回復
GPT-4推理能力為0？開發者懸賞1萬美金被打臉，神秘提示正確率直沖100%

duhorse ? 3542瀏覽 ? 0回復
Mistral開源8X22B大模型，OpenAI更新GPT-4 Turbo視覺，都在欺負谷歌

輕薄滴假象 ? 2628瀏覽 ? 0回復
OpenAI神秘搞事，GPT-4.5默默上線？推理碾壓GPT-4網友震驚，奧特曼笑而不語

duhorse ? 3376瀏覽 ? 1回復
使用LLMLingua-2壓縮GPT-4和Claude提示

51CTO內容精選 ? 2676瀏覽 ? 0回復
拯救被「掰彎」的GPT-4！西交微軟北大聯合提出IN2訓練治療LLM「中間迷失」

duhorse ? 2292瀏覽 ? 0回復
OpenAI開源GPT-4 SAE，提供1600萬個解釋模式

Aceryt ? 4240瀏覽 ? 0回復
從零開始，用英偉達T4、A10訓練小型文生視頻模型，幾小時搞定

輕薄滴假象 ? 2697瀏覽 ? 0回復
8B尺寸達到GPT-4級性能！北大等提出醫療專家模型訓練方法

duhorse ? 2339瀏覽 ? 0回復
從零開始，用英偉達T4、A10訓練小型文生視頻模型，幾小時搞定！

angel ? 3352瀏覽 ? 0回復
大神卡帕西強烈推薦：通過做項目來學習，堅持“1萬小時定律”

angel ? 3298瀏覽 ? 0回復
無需定制視頻數據，DeepMind讓文生定制視頻變得簡單！

angel ? 2688瀏覽 ? 0回復
如何通過壓縮提示降低GPT-4的成本

51CTO內容精選 ? 2880瀏覽 ? 0回復
無需定制視頻數據，DeepMind讓文生定制視頻變得簡單！

angel ? 2386瀏覽 ? 0回復
OpenAI官方揭秘GPT-4的秘密武器- 指令的藝術

ermulong ? 2412瀏覽 ? 0回復
GPT-4和GPT-4V能否像人類一樣進行抽象推理

lintoms ? 2138瀏覽 ? 0回復
DeepSeek 爆了，普通人如何3小時完全從0訓練自己的大模型

玄姐聊AGI ? 7167瀏覽 ? 0回復
不用魔法，直接訪問微軟 Copilot GPT-4

丟翅膀的魚 ? 1549瀏覽 ? 0回復
剛剛，OpenAI發布GPT-4.1，性能暴漲、100萬上下文

Aceryt ? 1199瀏覽 ? 0回復

Aceryt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

OpenAI曾轉錄100萬小時視頻數據，訓練GPT-4 精華

目錄