谷歌“另辟蹊徑”，展示AI視頻生音頻最新進展，效果驚艷！網友：但有一個缺點

作者：伊風 2024-06-19 14:54:00

早前OpenAI發布會上令人驚艷的GPT-4o多模態通話功能，甚至更遙遠的Sora，都沒有讓廣泛的普通用戶上手。蘋果在剛剛過去的全球開發者大會中，發布的“蘋果智能”被曝光分批上線，部分功能要到25年才能實現（更不用說大陸用戶只會更晚）。

編輯 | 伊風

出品 | 51CTO技術棧（微信號：blog51cto）

最近幾周，文生視頻領域正卷的風生水起。

可靈和Dream Machine相繼推出。而后者充滿趣味性的文生視頻功能更是開啟一陣續寫“meme”的狂潮。

正當大家覺得文生視頻的開路者Runway要一直沉寂下去的時候。

Runway突然上演了一波“王者歸來”。展示了商用級別的生成視頻，讓人難辨是不是AI生成。

"一個悲傷的中年禿頭男人變得快樂起來，因為一頂卷發假發和太陽鏡突然落在了他的頭上"。

畫質驚艷的Runway，速度也不遜色，生成10秒鐘視頻才需要1分半左右的時間。

Runway重回巔峰又再次改變了文生視頻的格局。

圖片

正在大家在這邊卷得不急樂乎的時候。

谷歌突然站了出來，開始給大家匯報他們的視頻生音頻（V2A）進展。

圖片

谷歌的V2A已經可以為無聲片段添加與場景聲學相匹配的聲音，為屏幕上的動作等伴奏。

干巴巴的視頻片段從此有了bgm！

雖然部分案例中使用了文字輔助，但仍然相當驚艷，能看到AI對于視頻內容以及場景中的感受理解得比較到位。

畫面中男人穿過廢棄工廠般的走廊，音樂突出了驚悚和緊張的氛圍：

給狼配上一段孤獨的長嘯聲：

音頻提示："狼對月嚎叫"

音樂展現了落日騎馬時，那種安逸與悠然的感覺：

草原上夕陽西下時悠揚的口琴聲響起

海洋水母自在浮沉時，海洋的聲音：

水母在水下跳動海洋生物海洋

鼓聲和歡呼聲讓人身臨其境：

音樂會舞臺上的鼓手周圍是閃爍的燈光和歡呼的人群"

谷歌的V2A的這股清流確實得到了網友的贊賞。

然而當一位網友詢問，什么時候可以上手玩玩看的時候，被網友無情地回復道：等有人跳槽出來，把這個產品帶出來我們就能玩啦！

圖片

還有人說：這是谷歌，所以別再想著試一試了

圖片

當前，觀眾的胃口已經越來越大。無法開箱即用的技術和產品將難以說服用戶。

現在，無論OpenAI在社交平臺上發布什么內容，都會收到無數用戶“催更”GPT-5的消息。

但是，另一邊。

早前OpenAI發布會上令人驚艷的GPT-4o多模態通話功能，甚至更遙遠的Sora，都沒有讓廣泛的普通用戶上手。

蘋果在剛剛過去的全球開發者大會中，發布的“蘋果智能”被曝光分批上線，部分功能要到25年才能實現（更不用說大陸用戶只會更晚）。

人們渴望AI的有趣與實用能夠早一步的照進現實。否則，用戶的期待會慢慢冷卻，產品也終將沉于水中。

責任編輯：武曉燕來源： 51CTO技術棧

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看