成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

英偉達(dá)神秘視頻基礎(chǔ)模型「Cosmos」曝光,數(shù)據(jù)全靠偷

人工智能 新聞
為了這個(gè)視頻模型,英偉達(dá)每天正在瘋狂地爬取相當(dāng)于 80 年時(shí)長(zhǎng)的視頻數(shù)據(jù)。

今天,一則關(guān)于英偉達(dá)要下場(chǎng)做視頻模型的消息引爆了 Reddit。

消息源出自外媒 404 Media,據(jù)它獲得的 Slack 聊天(英偉達(dá)的內(nèi)部聊天平臺(tái))、電子郵件和文件顯示,英偉達(dá)正在從 Youtube 和其他幾個(gè)來源抓取視頻,收集用于其 AI 產(chǎn)品的訓(xùn)練數(shù)據(jù)。

圖片

404 Media 查看的英偉達(dá)內(nèi)部對(duì)話顯示,當(dāng)參與該項(xiàng)目的員工提出有關(guān)使用「禁止商用的研究數(shù)據(jù)集」和「YouTube 視頻」可能產(chǎn)生法律問題時(shí),管理人員告訴他們,他們已獲得公司最高層的批準(zhǔn),可以使用這些內(nèi)容。

一位匿名的前英偉達(dá)員工對(duì)此表示,員工被要求從 Netflix、YouTube 和其他來源抓取視頻,以訓(xùn)練的 Omniverse 3D 世界生成器、自動(dòng)駕駛汽車系統(tǒng)和「數(shù)字人」產(chǎn)品的 AI 模型。

該項(xiàng)目?jī)?nèi)部命名為 Cosmos(但與公司現(xiàn)有的 Cosmos 深度學(xué)習(xí)產(chǎn)品不同),尚未向公眾發(fā)布。該項(xiàng)目領(lǐng)導(dǎo)層發(fā)給員工的電子郵件顯示,Cosmos 的目標(biāo)是構(gòu)建一個(gè)最先進(jìn)的視頻基礎(chǔ)模型,「將光傳輸、物理和智能模擬封裝在一個(gè)地方,以解鎖對(duì)英偉達(dá)至關(guān)重要的各種下游應(yīng)用。」

為了收集訓(xùn)練視頻,英偉達(dá)員工使用名為「 yt-dlp」的開源 YouTube 視頻下載器。他們?cè)噲D從 Netflix 等各種來源下載完整視頻,但主要集中在 YouTube 視頻。404 Media 查看的電子郵件顯示,項(xiàng)目經(jīng)理選擇了使用 Amazon Web Services 中的 20 到 30 臺(tái)虛擬機(jī),每天下載相當(dāng)于 80 年的視頻。

英偉達(dá)研究副總裁兼 Cosmos 項(xiàng)目負(fù)責(zé)人 Ming-Yu Liu 在 5 月份的一封電子郵件中表示:「我們正在完成 v1 數(shù)據(jù) pipeline 并確保必要的計(jì)算資源,以構(gòu)建一個(gè)視頻數(shù)據(jù)工廠,該工廠每天可以產(chǎn)生相當(dāng)于人類一生視覺體驗(yàn)的訓(xùn)練數(shù)據(jù)。」

當(dāng)被問及英偉達(dá)使用 YouTube 視頻作為其模型的訓(xùn)練數(shù)據(jù)時(shí),谷歌發(fā)言人告訴 404 Media 稱,該公司「此前的立場(chǎng)仍然有效」。此前 YouTube 首席執(zhí)行官 Neal Mohan 表示,如果 OpenAI 使用 YouTube 視頻來改進(jìn)其 AI 視頻生成器 Sora,那將「明顯違反」YouTube 使用條款。

同樣地,Netflix 發(fā)言人告訴 404 Media,公司與英偉達(dá)并未就內(nèi)容采集達(dá)成協(xié)議,而且該平臺(tái)的服務(wù)條款不允許抓取內(nèi)容。

不過,英偉達(dá)方面似乎并不在意。參與該項(xiàng)目的員工提出的法律問題經(jīng)常被項(xiàng)目經(jīng)理駁回并表示,未經(jīng)許可抓取視頻的決定是「行政決定」,他們不需要擔(dān)心,而什么是公平、合乎道德地使用受版權(quán)保護(hù)的內(nèi)容以及學(xué)術(shù)、非商業(yè)用途數(shù)據(jù)集的問題被認(rèn)為是「懸而未決的法律問題」,他們將來會(huì)解決。

英偉達(dá)視頻模型項(xiàng)目始末

和其他科技巨頭類似,英偉達(dá)聘用學(xué)術(shù)研究人才發(fā)表學(xué)術(shù)成果,但從 404 Media 獲取的內(nèi)部郵件可以看出,Cosmos 顯然將用于商業(yè)用途。

今年三月,一位英偉達(dá)的研究員在 Slack 上發(fā)帖,提議用《阿凡達(dá)》或《指環(huán)王》這樣的好萊塢電影來訓(xùn)練 OpenAI Sora,可能效果會(huì)更好。

隨后,他的提議得到了公司內(nèi)的認(rèn)可,但他也補(bǔ)充道,好萊塢對(duì) AI 可能侵占版權(quán)的事格外敏感。2023 年七月,擁有 16 萬會(huì)員的好萊塢三大工會(huì)之一 SAG-AFTRA 宣布罷工,矛頭直指 ChatGPT 和 Stable Diffusion 等生成式 AI 產(chǎn)品,在此之前,美國(guó)編劇工會(huì)已經(jīng)罷工 70 多天。Stable Diffusion 存在這樣的情況,即使不輸入對(duì)應(yīng)的提示詞,輸入「動(dòng)漫畫風(fēng)的水管工」這樣的模糊描述,Stable Diffusion 會(huì)直接生成馬里奧的經(jīng)典形象。

在這個(gè)帖子下,一位名叫「Liu」的員工(即英偉達(dá)研究副總裁Ming-Yu Liu(劉洺堉)回復(fù)道:「如果不公開發(fā)表論文,就不會(huì)引來以上負(fù)面問題。我們應(yīng)該先用能下載的視頻進(jìn)行實(shí)驗(yàn)。」

之后,有另外一位英偉達(dá)研究員又在內(nèi)網(wǎng)發(fā)了一個(gè)帖子,他找到了一份訓(xùn)練視頻模型應(yīng)該優(yōu)先下載的文件列表,但是英偉達(dá)所使用 HD-VILA-100M 數(shù)據(jù)集中卻缺少約 230 萬個(gè)原始視頻。這個(gè)不斷擴(kuò)張的列表中還包含一些知名 YouTuber 的原創(chuàng)視頻,比如在北美和知名度類似「大家好我是何同學(xué)」的數(shù)碼評(píng)測(cè)博主 Marques Brownlee(MKBHD)。

出于對(duì)版權(quán)的保護(hù),一般的視頻數(shù)據(jù)集往往收錄 URL 鏈接或者 YouTube ID,一旦作者刪除了原視頻,這些內(nèi)容將不會(huì)繼續(xù)被包含在數(shù)據(jù)集中,除非視頻作者明確同意其內(nèi)容被保留和使用。

雖然微軟在其 HD-VILA-100M 數(shù)據(jù)集的使用聲明中明確禁止用于一切商業(yè)用途,但是發(fā)帖的英偉達(dá)員工似乎并不在意,他很快貼出了這份列表對(duì)應(yīng)的 YouTube 鏈接,并和同事們討論出了用 AWS 虛擬機(jī)換 IP,規(guī)避 YouTube 反爬蟲機(jī)制的解決方案。

除此之外,英偉達(dá)的員工還將手伸向了 Google 發(fā)布的大規(guī)模視頻理解數(shù)據(jù)集 YouTube-8M。和自行補(bǔ)全微軟的數(shù)據(jù)集不同,他們和 YouTube 以及 YouTube 現(xiàn)在的母公司的谷歌達(dá)成了一筆「交易」,英偉達(dá)以每支視頻 0.00625 美元(約等于人民幣 4 分錢)的價(jià)格買下了 800 萬支視頻,并將通過谷歌云下載。不考慮出賣版權(quán)的問題,谷歌可能以為賺回了這些視頻的廣告費(fèi),但英偉達(dá)本來在云帶寬方面就存在一些限制,在谷歌云上下載,反而通過能獲得更加穩(wěn)定和可預(yù)測(cè)的連接。因此,無論從哪個(gè)角度來看,這筆「交易」似乎都對(duì)英偉達(dá)有利。

更令人詫異的是,當(dāng)有英偉達(dá)員工在內(nèi)網(wǎng)提問:「我們這樣下載 YouTube 視頻合理嗎?」

「這是一個(gè)高層決策。我們已經(jīng)獲得了使用所有數(shù)據(jù)的全面批準(zhǔn)。」他得到了這樣的回復(fù)。

這個(gè)決策所允許使用的數(shù)據(jù)還包含 Netflix 上的視頻作品。Netflix 的數(shù)據(jù)包含很多高質(zhì)量的人臉數(shù)據(jù),在得到批準(zhǔn)后,有人在公司內(nèi)網(wǎng) @了有在其他大公司「構(gòu)建大型數(shù)據(jù)集」的經(jīng)驗(yàn)的同事幫忙。

同時(shí),Cosmos 團(tuán)隊(duì)還考慮了如何有效將游戲畫面添加到訓(xùn)練數(shù)據(jù)中的問題。英偉達(dá)高級(jí)研究科學(xué)家 Jim Fan 在捕獲實(shí)時(shí)游戲畫面時(shí)也遇到了「監(jiān)管」的障礙。

Jim Fan 發(fā)了個(gè)帖子說:

更新:我一直在與 GeForce Now(GFN)的人員開會(huì),和他們制定計(jì)劃。我們將與 GFN 及相關(guān)工程團(tuán)隊(duì)緊密合作,開發(fā)捕獲實(shí)時(shí)游戲數(shù)據(jù)的方法,擴(kuò)大 pipeline 的規(guī)模,并對(duì)數(shù)據(jù)加以處理用于訓(xùn)練。高質(zhì)量的游戲視頻將對(duì)「我們的 Sora」提供非常有用的補(bǔ)充...... 因?yàn)檫€沒有用來捕獲實(shí)時(shí)游戲視頻和動(dòng)作的設(shè)備,因此還沒有進(jìn)行統(tǒng)計(jì),但我們將盡快將清理和處理過的 GFN 數(shù)據(jù)添加到 team-vfm。

今年三月份,Cosmo 項(xiàng)目的視頻數(shù)據(jù)收集達(dá)到了一個(gè)里程碑:Nvidia 在兩周內(nèi)完成了 10 萬次視頻下載。

「進(jìn)展驚人。現(xiàn)在的問題是我們?nèi)绾尾拍塬@得大量高質(zhì)量的 URL。」Liu 在這個(gè)帖子中回復(fù)道。

5 月下旬,項(xiàng)目組成員收到了一封關(guān)于視頻數(shù)據(jù)策略的郵件,宣布他們已經(jīng)編譯了 3850 萬個(gè)視頻 URL。郵件中說:「根據(jù)計(jì)劃,下周的收集視頻的重點(diǎn)仍然是電影、無人機(jī)鏡頭、第一人稱視角的鏡頭、自然風(fēng)光。」郵件中還包含一張圖表,顯示了他們下載的內(nèi)容類型的百分比。

這封郵件透露了一些關(guān)鍵技術(shù)信息,包括模型訓(xùn)練數(shù)據(jù)中的四個(gè)數(shù)據(jù)集:

  • Ego-Exo4D:一個(gè)多樣化、大規(guī)模、多模式、多視角的視頻數(shù)據(jù)集和基準(zhǔn),由 740 名相機(jī)佩戴者在全球 13 個(gè)城市收集,拍攝了 1286.3 小時(shí)的人類熟練活動(dòng)視頻。
  • Ego4D:這是一個(gè)大規(guī)模、以自我為中心的數(shù)據(jù)集和基準(zhǔn)套件,在全球 9 個(gè)國(guó)家的 74 個(gè)地點(diǎn)收集了超過 3,670 小時(shí)的日常生活活動(dòng)視頻。
  • HOI4D:大規(guī)模 4D 以自我為中心的數(shù)據(jù)集,具有豐富的注釋,可促進(jìn)類別級(jí)別的人 - 物互動(dòng)研究。HOI4D 由清華大學(xué)、北京大學(xué)和上海期智研究院的研究人員創(chuàng)建,采用 CC BY-NC 4.0 許可,禁止商業(yè)使用。
  • GeForce Now:游戲數(shù)據(jù)。

在另一封郵件中,Cosmos 項(xiàng)目的成員表示:「研究團(tuán)隊(duì)現(xiàn)在正在用多種配置訓(xùn)練一個(gè) 10 億參數(shù)的模型,每種配置有 16 個(gè)節(jié)點(diǎn)。在進(jìn)一步擴(kuò)展之前,這是一個(gè)重要的調(diào)試步驟。我們計(jì)劃在幾周內(nèi)得出結(jié)論,然后擴(kuò)展到 100 億參數(shù)模型。」

「這個(gè)更新很棒!」英偉達(dá) CEO 黃仁勛回了這封郵件,他表示:「許多公司都將構(gòu)建視頻基礎(chǔ)模型作為目標(biāo),我們完全可以做一個(gè)加速的 pipeline。」

6 月,項(xiàng)目組成員討論了在保持人工智能行業(yè)競(jìng)爭(zhēng)力的背景下,模型中哪些類型的內(nèi)容對(duì)英偉達(dá)的產(chǎn)品最有用。

「NVIDIA 擁有大多數(shù)內(nèi)容公司所沒有的機(jī)器人、自動(dòng)駕駛、Omniverse 和 Avatar。為了最大限度地推動(dòng)公司發(fā)展,我們整理的數(shù)據(jù)必須能夠很好地適用于這些『殺手級(jí)』應(yīng)用程序」,Cosmos 項(xiàng)目的成員說道。

毫無疑問的是,Cosmos 團(tuán)隊(duì)正在開發(fā)的模型旨在用于其多種產(chǎn)品的商業(yè)用途。

在要求這些公司完全公開訓(xùn)練數(shù)據(jù)的法案落地之前,他們將繼續(xù)利用法律灰色地帶來抓取受版權(quán)保護(hù)的數(shù)據(jù)。如果沒有內(nèi)部郵件或者內(nèi)網(wǎng)對(duì)話泄密,任何人都不知道背地里到底發(fā)生了什么,而這樣的模型可以讓像 Nvidia、Runway 或 OpenAI 等科技巨頭賺到數(shù)十億美元。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-12-29 14:37:35

英偉達(dá)GPU數(shù)據(jù)

2024-05-28 14:41:00

2023-03-17 07:54:32

英偉達(dá)RTX配備

2022-04-02 06:59:50

黑客網(wǎng)絡(luò)攻擊

2009-04-08 08:44:40

Windows Mob移動(dòng)OS微軟

2023-10-11 13:25:00

訓(xùn)練模型

2012-06-19 14:08:24

LinuxLinus Torva

2024-08-22 18:58:27

英偉達(dá)微軟小語言模型

2023-10-31 19:20:29

語言模型英偉達(dá)芯片

2025-01-08 12:53:45

2024-03-01 15:06:00

人工智能大型語言模型

2024-12-18 18:57:58

2025-01-06 12:43:38

2024-08-05 14:40:00

2012-12-03 18:52:59

高危木馬照片大盜

2025-03-19 10:05:02

2023-05-29 18:36:31

英偉達(dá)元宇宙AI

2024-06-24 09:51:24

2020-10-04 13:12:53

開源技術(shù) 數(shù)據(jù)

2023-11-01 13:47:44

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲日本欧美 | 久久久99国产精品免费 | www.日韩av.com| 波多野吉衣在线播放 | 精品国产一区探花在线观看 | 亚洲精品国产第一综合99久久 | 国产成人精品a视频一区www | 亚洲精品成人 | 色欧美片视频在线观看 | 久久一区二区视频 | 免费国产精品久久久久久 | 成人欧美一区二区三区 | 成人在线播放网址 | 亚洲精品乱码久久久久久按摩观 | 国产精品福利久久久 | 午夜免费影视 | 国产日韩久久久久69影院 | 日韩国产欧美一区 | 精久久久| 亚洲综合99| www国产亚洲精品久久网站 | 免费性视频 | 国产精品免费观看视频 | 国产精品夜夜春夜夜爽久久电影 | se婷婷| 波多野结衣在线观看一区二区三区 | 日日操夜夜操天天操 | 精品在线一区 | 久久精品亚洲一区二区三区浴池 | 91精品国产欧美一区二区成人 | 亚洲欧美一区二区三区在线 | 日本a在线| 日韩在线 | 日韩视频一区 | 激情五月综合 | 国产在线精品一区二区三区 | 视频1区2区 | 91在线免费观看网站 | 视频在线一区 | 国产精品久久7777777 | 免费美女网站 |