成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Pika放大招:今天起,視頻和音效可以“一鍋出”了!

人工智能 新聞
車鳴聲、廣播聲、鷹叫聲、刀劍聲、歡呼聲……可謂是聲聲不息,并且從效果上來看,也是高度與視頻畫面匹配。

就在剛剛,Pika發布了一項新功能:

很抱歉我們之前一直處于靜音狀態。

今天起,大家可以給視頻無縫生成音效了——Sound Effects!

圖片

生成的方式有兩種:

  • 要么給一句Prompt,描述你想要的聲音;
  • 要么直接讓Pika根據視頻內容自動生成。

并且Pika非常自信地說到:“如果你覺得音效聽起來很棒,那是因為它確實如此”。

車鳴聲、廣播聲、鷹叫聲、刀劍聲、歡呼聲……可謂是聲聲不息,并且從效果上來看,也是高度與視頻畫面匹配。

不僅是發布的宣傳片,Pika官網現在也放出了多個demo。

例如無需任何prompt,AI只是看了眼烤培根的視頻,便可以配出毫無違和感的音效。

再如給一句prompt:

Super saturated color, fireworks over a field at sunset.
超飽和色彩,日落時田野上的煙火。

Pika便可以在生成視頻的同時配上聲音,從效果中不難看出,煙花綻放的瞬間,聲音卡點也是相當的精準。

大周末的發布這樣一個新功能,網友們在高呼Pika“夠卷、夠Awesome”的同時,也有人認為:

它正在為多模態AI創作收集所有的“無限寶石”。

圖片

那么Pika的Sound Effects具體要如何操作,我們繼續往下看。

給視頻“make some noise”

Pika給視頻生成音效的操作也是極!其!簡!單!

例如只需一句prompt,視頻和音效就能“一鍋出”

Mdieval trumpet player.
中世紀小號手。

圖片

相比于此前生成視頻的操作,現在只需開啟下方“Sound effects”按鈕即可。

第二種操作方式,就是在生成了視頻過后,可以單獨給它配音。

例如在下面這個視頻,點擊下方的“Edit”,再選擇“Sound Effects”

圖片

然后可以描述一下自己想要的聲音,例如:

Race car revving its engine.
賽車正在發動引擎。

然后短短幾秒后,Pika就可以根據描述和視頻生成音效,而且還是6種聲音可選的那種!

值得一提的是,Sound Effects功能目前只對超級合作者(Super Collaborator)和Pro用戶開放測試。

不過Pika也表示:“我們很快就會向所有用戶推出該功能!”

圖片

然后現在已經有一批網友在開始測試這個Beta版本了,并且表示:

音效聽起來和視頻很相配,而且增加了很多氣氛。

什么原理?

至于Sound Effects背后的原理,雖然Pika此次并沒有公開,但在此前Sora大火之后,語音初創公司ElevenLabs就出過類似的配音功能。

當時,英偉達高級科學家Jim Fan就對此做過較為深入的分析。

他認為,AI學習準確的視頻到音頻映射還需要對潛在空間中的一些“隱式”物理進行建模。

圖片

他詳細說明了端到端Transformer在模擬聲波時需要解決的問題:

  1. 識別每個物體的類別、材料和空間位置。
  2. 識別物體間的高階互動:例如,是木棍、金屬或是鼓面?以什么速度擊打?
  3. 識別環境:是餐廳、空間站、還是黃石公園?
  4. 從模型的內部記憶中檢索物體和環境的典型聲音模式。
  5. 使用“軟性”的、通過學習得到的物理規則來組合和調整聲音模式的參數,甚至即時創造全新的聲音。這有點像游戲引擎中的“程序化音頻”。
  6. 如果場景很復雜,模型需要根據物體的空間位置疊加多個聲音軌道。

所有這些都不是顯式的模塊,而是通過大量的(視頻,音頻)對的梯度下降學習來實現的,這些視頻和音頻對在大多數互聯網視頻中自然地時間對齊。注意力層將在它們的權重中實現這些算法,以滿足擴散目標。

除此之外,Jim Fan當時表示英偉達的相關工作并沒有這樣高質量的AI音頻引擎,不過他推薦了一篇MIT五年前的論文The Sound of Pixels

圖片

感興趣的小伙伴可以戳文末鏈接詳細了解一下。

One More Thing

多模態這件事上,LeCun在最新訪談中的觀點也很火爆,他認為:

語言(文本)是低寬帶的:小于12字節/秒?,F代LLM通常使用1x10^13個雙字節標記(即 2x10^13 字節)進行訓練。一個人閱讀大約需要 100000 年(每天 12 小時)。

視覺的帶寬要高得多:約20MB/s。兩條視神經中的每一條都有 100 萬根神經纖維,每根神經纖維每秒攜帶約10個字節。一個4歲的孩子在清醒狀態下大約是16000小時,換算成字節大約是1x10^15。

視覺感知的數據帶寬大約是文本語言數據帶寬的1600萬倍。

一個4歲孩子看到的數據,是互聯網上公開的所有文本訓練的最大LLM數據的50倍。

圖片

因此,LeCun總結到:

如果不讓機器從高帶寬的感官輸入(如視覺)中學習,我們絕對不可能達到人類水平的人工智能。

那么,你贊成這種觀點嗎?

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-03-12 17:57:17

Sora團隊技術

2024-03-22 13:33:00

AI模型

2022-04-13 12:16:58

暗網網絡犯罪

2017-10-23 08:05:17

云技術

2021-10-22 06:40:20

互聯網爬蟲程序員

2019-08-02 09:20:33

思科中國裁員

2022-06-12 15:21:43

DockerLinux

2024-04-26 12:28:32

數據運營SOP

2020-03-31 17:02:06

微信QQ轉賬

2023-01-30 14:08:30

2023-05-13 08:59:55

2021-03-04 08:34:55

同步阻塞非阻塞

2021-04-23 09:55:27

技術開發實踐

2024-03-25 00:25:00

2025-01-09 13:30:00

2017-07-17 09:46:32

2023-08-10 08:49:46

GoogleAI云端

2024-02-02 16:24:43

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美成人黄色小说 | 久久99国产精一区二区三区 | 黄色毛片在线观看 | 免费观看视频www | 成人亚洲性情网站www在线观看 | 久久精品国产一区二区电影 | 中文字幕 在线观看 | 日韩精品一区二区三区免费观看 | 男人的天堂中文字幕 | 国产一区二区三区高清 | 欧美亚洲视频在线观看 | 国产日产欧产精品精品推荐蛮挑 | 久久精品中文 | 国产欧美在线一区二区 | 羞视频在线观看 | 夜夜夜夜草 | 国产精品美女久久久久久免费 | 国产一区二区三区视频免费观看 | 成人av色| 韩日一区二区 | 亚洲播放一区 | 欧美一区二区免费 | 成人在线欧美 | aa级毛片毛片免费观看久 | 亚洲一区久久 | 亚洲精品第一 | 7777精品伊人久久精品影视 | 欧美男人天堂 | 国产精品久久久久aaaa樱花 | 亚洲国产中文在线 | 日韩精品在线看 | 久久久九九 | 精品欧美色视频网站在线观看 | 欧美亚洲激情 | 户外露出一区二区三区 | 久久在线 | a黄毛片| 天天搞天天操 | 成人精品一区二区三区 | 成人毛片视频免费 | 日本精品久久久久久久 |