編輯 | 伊風
出品 | 51CTO技術棧(微信號:blog51cto)
最近幾周,文生視頻領域正卷的風生水起。
可靈和Dream Machine相繼推出。而后者充滿趣味性的文生視頻功能更是開啟一陣續寫“meme”的狂潮。
正當大家覺得文生視頻的開路者Runway要一直沉寂下去的時候。
Runway突然上演了一波“王者歸來”。展示了商用級別的生成視頻,讓人難辨是不是AI生成。
"一個悲傷的中年禿頭男人變得快樂起來, 因為一頂卷發假發和太陽鏡突然落在了他的頭上"。
畫質驚艷的Runway,速度也不遜色,生成10秒鐘視頻才需要1分半左右的時間。
Runway重回巔峰又再次改變了文生視頻的格局。
圖片
正在大家在這邊卷得不急樂乎的時候。
谷歌突然站了出來,開始給大家匯報他們的視頻生音頻(V2A)進展。
圖片
谷歌的V2A已經可以為無聲片段添加與場景聲學相匹配的聲音,為屏幕上的動作等伴奏。
干巴巴的視頻片段從此有了bgm!
雖然部分案例中使用了文字輔助,但仍然相當驚艷,能看到AI對于視頻內容以及場景中的感受理解得比較到位。
畫面中男人穿過廢棄工廠般的走廊,音樂突出了驚悚和緊張的氛圍:
給狼配上一段孤獨的長嘯聲:
音頻提示:"狼對月嚎叫"
音樂展現了落日騎馬時,那種安逸與悠然的感覺:
草原上夕陽西下時 悠揚的口琴聲響起
海洋水母自在浮沉時,海洋的聲音:
水母在水下跳動 海洋生物 海洋
鼓聲和歡呼聲讓人身臨其境:
音樂會舞臺上的鼓手 周圍是閃爍的燈光和歡呼的人群"
谷歌的V2A的這股清流確實得到了網友的贊賞。
然而當一位網友詢問,什么時候可以上手玩玩看的時候,被網友無情地回復道:等有人跳槽出來,把這個產品帶出來我們就能玩啦!
圖片
還有人說:這是谷歌,所以別再想著試一試了
圖片
當前,觀眾的胃口已經越來越大。無法開箱即用的技術和產品將難以說服用戶。
現在,無論OpenAI在社交平臺上發布什么內容,都會收到無數用戶“催更”GPT-5的消息。
但是,另一邊。
早前OpenAI發布會上令人驚艷的GPT-4o多模態通話功能,甚至更遙遠的Sora,都沒有讓廣泛的普通用戶上手。
蘋果在剛剛過去的全球開發者大會中,發布的“蘋果智能”被曝光分批上線,部分功能要到25年才能實現(更不用說大陸用戶只會更晚)。
人們渴望AI的有趣與實用能夠早一步的照進現實。否則,用戶的期待會慢慢冷卻,產品也終將沉于水中。