更亂了!已經有真人視頻冒充Sora了,威爾·史密斯吃意大利面玩梗
今天,一個有關「威爾?史密斯吃意大利面」的視頻正在社交媒體瘋傳。視頻畫面分為上下兩段:上半段顯示是「一年以前的 AI 視頻」,下半段則顯示「現在的 AI 視頻」。
眾所周知,對于 AI 來說,生成「威爾?史密斯吃意大利面」的視頻并不容易,人物的手、面條以及面條入口后的形變對于之前的 AI 來說都是很大的挑戰,所以這一問題被很多人戲稱為「視頻生成界的圖靈測試」。Runway、Pika 等著名的視頻生成 AI 都在這個問題上貢獻了很多鬼畜素材。
在 OpenAI 發布了 Sora 之后,也有人向「在線接單」的 Sam Altman 發起了這一挑戰,但 Altman 沒有應戰。
但幾天之后,一個疑似用 Sora 生成的「威爾?史密斯吃意大利面」視頻開始在社交媒體瘋傳。從視頻下半段可以看出,現在頂級的 AI 似乎已經攻克了上述「圖靈測試」,生成的手、面條都很逼真。再結合最近 OpenAI 曬出的各種 Sora 生成結果,很多人開始相信:這是 Sora 生成的新視頻,現在的視頻生成 AI 已經演變到如此以假亂真的水平了。
但大家很快發現,原來這只是威爾?史密斯在玩梗:視頻下半段其實是他自己錄的。也就是說,這次,威爾?史密斯扮演了人工智能生成的自己。有人調侃說,他在《機械公敵》中積累的演技總算派上了用場。
那 Sora 究竟能不能生成吃意大利面的場景呢?這個問題目前還沒有測試結果。盡管最近幾天,Sora 開啟了刷屏模式,似乎人人都能測試 Sora,但事實并非如此。OpenAI 表示他們尚未向公眾開放測試權限,只分享給了一批精選的研究人員和學者使用。Sam Altman 前幾天還開啟了在線接單模式:網友提出要求,他來幫助大家完成。
由于 Sora 開放測試遙遙無期,大家都有些等不及了。于是,一些網友玩起了一個新游戲:用真實視頻冒充 Sora 生成的視頻。這些視頻真假難辨,讓你一時間不知道視頻是 Sora 生成的,還是有人拿其他視頻冒充的。
比如在下面一段關于漢堡的示例中,有網友表示該視頻是由 OpenAI 的新模型 Sora 生成的。這段視頻的提示語為「芝士漢堡廣告,卡門貝爾芝士填充的面包,切半后從面包中爆出流淌的芝士,橫切面視圖,一位男士正在吃著流淌著綿長卡門貝爾芝士的漢堡,高清」。
不過,該視頻立馬引來 Gary Marcus 的關注,他毫不客氣地表示:假的,這不是 Sora 生成的。
來源:https://twitter.com/GaryMarcus/status/1759578135665004683
對此,網友表示深刻的贊同:「這和 5 年前的 youtube 視頻幾乎一模一樣」。
視頻地址:https://youtu.be/ieRuoEMnb4A
通過查看兩處視頻,很難讓人不懷疑這是有人拿 youtube 視頻冒充 Sora 生成的,目前看來就算有人傳播假的 Sora 視頻,大眾似乎也很難發現。
在另一個示例中運動員身姿矯健地做著各種連貫的動作,并聲稱該視頻同樣是由 Sora 生成的:
不過該視頻同樣遭到網友打假,并表示:這種視頻可以舉報了。
有人從狗狗的毛發里看出了端倪,這位網友認為「不可能有 AI 生成的毛茸茸的白狗,比真正的毛茸茸的白狗更好。」
不過也被其他人指出這是一個真實的視頻,不是 AI 生成的。
Sora 太真,我們的眼睛都開始叛變了
Sora 發布的第一天就震撼了大家,超強的一致性和文本遵循能力迅速與 Pika、Runway、Stable Video 等視頻生成模型拉開距離。Sora 的魅力在于生成結果的逼真度,它已經超出了傳統視頻編輯的界限,更是挑戰了我們對于現實的認知。當我們沉浸在 Sora 的作品中時,你會發現眼睛似乎已經背叛了自己,畢竟其中的每一個細節都在告訴你,這是一個真實的視頻。
熱度狂漲,Sora 發布后涌現了大量的精彩案例,人物、動物、植物、建筑等主體,現實、奇幻、科幻、賽博等不同風格,都被 Sora 熟練掌握。一時之間,你會不會也分不清這是實物拍攝、人工特效還是 AI 制作?
Sora 不僅是技術的勝利,而且正在顛覆視覺表達領域。它把文字變成了動態的視覺故事,而這無需復雜的拍攝設備或后期制作技巧,僅憑一段文本,就能創造出令人驚嘆的視覺作品。
不僅如此,Sora 強大的視頻編輯能力也挺離譜,輸入一段視頻,Sora 將在不改變其他元素的情況下,根據你的文字提示做出編輯。這誰還分得清真「后期大佬」到底是誰呀。
網友 @ai_for_success 在這場 AI 與現實的混合戰中不禁感嘆:在看了 Sora 的生成結果之后,我覺得 OpenAI 所取得的成就遠遠超出了我們的認知。
不過別太擔心,面對如此逼真的 Sora 我們依然能夠保留辨別能力。細看之下 Sora 生成的視頻還有一些 bug 存在,仔細辨認的話,你就能夠給它打上 AI 生成的標簽:人體動作的錯誤、憑空出現的事物、錯誤的物理建模以及不合常理的交互方式和結果。當你觀察到這些,基本就能確認這是 AI 的生成結果。
也許正如網友所說,目前視頻生成的一個基準大概就是:Will Smith eating dreadlocks of a guy eating spaghetti。不如你也用這個 prompt 去試試視頻生成大模型現在的真實水平吧。