谷歌“另辟蹊徑”,展示AI視頻生音頻最新進(jìn)展,效果驚艷!網(wǎng)友:但有一個(gè)缺點(diǎn) 原創(chuàng)
編輯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
最近幾周,文生視頻領(lǐng)域正卷的風(fēng)生水起。
可靈和Dream Machine相繼推出。而后者充滿趣味性的文生視頻功能更是開(kāi)啟一陣?yán)m(xù)寫(xiě)“meme”的狂潮。
正當(dāng)大家覺(jué)得文生視頻的開(kāi)路者Runway要一直沉寂下去的時(shí)候。
Runway突然上演了一波“王者歸來(lái)”。展示了商用級(jí)別的生成視頻,讓人難辨是不是AI生成。
"一個(gè)悲傷的中年禿頭男人變得快樂(lè)起來(lái), 因?yàn)橐豁斁戆l(fā)假發(fā)和太陽(yáng)鏡突然落在了他的頭上"。
畫(huà)質(zhì)驚艷的Runway,速度也不遜色,生成10秒鐘視頻才需要1分半左右的時(shí)間。
Runway重回巔峰又再次改變了文生視頻的格局。
圖片
正在大家在這邊卷得不急樂(lè)乎的時(shí)候。
谷歌突然站了出來(lái),開(kāi)始給大家匯報(bào)他們的視頻生音頻(V2A)進(jìn)展。
圖片
谷歌的V2A已經(jīng)可以為無(wú)聲片段添加與場(chǎng)景聲學(xué)相匹配的聲音,為屏幕上的動(dòng)作等伴奏。
干巴巴的視頻片段從此有了bgm!
雖然部分案例中使用了文字輔助,但仍然相當(dāng)驚艷,能看到AI對(duì)于視頻內(nèi)容以及場(chǎng)景中的感受理解得比較到位。
畫(huà)面中男人穿過(guò)廢棄工廠般的走廊,音樂(lè)突出了驚悚和緊張的氛圍:
給狼配上一段孤獨(dú)的長(zhǎng)嘯聲:
音頻提示:"狼對(duì)月嚎叫"?
音樂(lè)展現(xiàn)了落日騎馬時(shí),那種安逸與悠然的感覺(jué):
草原上夕陽(yáng)西下時(shí) 悠揚(yáng)的口琴聲響起
海洋水母自在浮沉?xí)r,海洋的聲音:
水母在水下跳動(dòng) 海洋生物 海洋?
鼓聲和歡呼聲讓人身臨其境:
音樂(lè)會(huì)舞臺(tái)上的鼓手 周?chē)情W爍的燈光和歡呼的人群"?
谷歌的V2A的這股清流確實(shí)得到了網(wǎng)友的贊賞。
然而當(dāng)一位網(wǎng)友詢問(wèn),什么時(shí)候可以上手玩玩看的時(shí)候,被網(wǎng)友無(wú)情地回復(fù)道:等有人跳槽出來(lái),把這個(gè)產(chǎn)品帶出來(lái)我們就能玩啦!
圖片
還有人說(shuō):這是谷歌,所以別再想著試一試了
圖片
當(dāng)前,觀眾的胃口已經(jīng)越來(lái)越大。無(wú)法開(kāi)箱即用的技術(shù)和產(chǎn)品將難以說(shuō)服用戶。
現(xiàn)在,無(wú)論OpenAI在社交平臺(tái)上發(fā)布什么內(nèi)容,都會(huì)收到無(wú)數(shù)用戶“催更”GPT-5的消息。
但是,另一邊。
早前OpenAI發(fā)布會(huì)上令人驚艷的GPT-4o多模態(tài)通話功能,甚至更遙遠(yuǎn)的Sora,都沒(méi)有讓廣泛的普通用戶上手。
蘋(píng)果在剛剛過(guò)去的全球開(kāi)發(fā)者大會(huì)中,發(fā)布的“蘋(píng)果智能”被曝光分批上線,部分功能要到25年才能實(shí)現(xiàn)(更不用說(shuō)大陸用戶只會(huì)更晚)。
人們渴望AI的有趣與實(shí)用能夠早一步的照進(jìn)現(xiàn)實(shí)。否則,用戶的期待會(huì)慢慢冷卻,產(chǎn)品也終將沉于水中。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)
