編輯 | 言征
出品 | 51CTO技術棧(微信號:blog51cto)
上周,OpenAI的第一個視頻生成模型Sora在互聯網上瘋傳。然而,與此同時,來自競爭對手公司的一批人工智能專家和研究人員迅速剖析和批評了Sora的Transformer模型,引發了一場物理辯論。
人工智能科學家Gary Marcus也位列其中,他不僅批評Sora生成視頻的準確性,而且更是直接把矛頭指向用于視頻合成的生成式AI模型。
圖片
1、OpenAI的競爭對手聯合起來了!
Sora的擴散模型結構引來了Meta和谷歌相關研究人員的懷疑,他們認為這個模型并未真正理解物理世界。
LeCun認為,僅從提示生成看起來逼真的視頻并不意味著系統理解物理世界。他指出,生成與從世界模型中進行的因果預測非常不同。看似合理的視頻空間非常大,視頻生成系統只需要成功生成一個樣本即可。
LeCun也有自己的方案——Meta的最新AI模型V-JEPA(視頻聯合嵌入預測架構),與Sora不同,JEPA不是生成性的,而是在表示空間中做出預測。這是為了讓V-JEPA的自監督模型看起來比Sora的擴散Transformer模型更優越。
研究員同時也是企業家的Eric Xing支持LeCun的觀點,他說:“一個能夠基于理解進行推理的代理模型必須超越LLM或DM。”
Gemini Pro 1.5發布的時機再好不過了。Sora制作的視頻是在Gemini 1.5 Pro上運行的,模特批評視頻中的不一致之處,認為“這不是真實的場景”。馬斯克緊隨其后。他稱特斯拉的視頻生成能力在預測精確物理方面優于OpenAI。
圖片
雖然專家們很快就否定了生成模型的能力,但對模型背后“物理”的理解卻被忽視了。
2、Transformer真懂物理?
Sora使用了類似于GPT模型的Transformer架構,OpenAI相信該基礎將“理解和模擬真實世界”,這將有助于實現AGI。雖然不被稱為物理引擎,但虛幻引擎5生成的數據可能被用于訓練Sora的底層模型。
NVIDIA的高級研究科學家Jim Fan通過解釋數據驅動的物理引擎,澄清了OpenAI的Sora模型。他說:“Sora通過大量視頻的梯度下降,在神經參數中隱含地學習物理引擎。”他將Sora稱為可學習的模擬器或世界模型。范還表達了他對Sora簡化論觀點的反對。“我看到一些聲音反對:‘Sora不是在學習物理,它只是在操縱2D中的像素’。我恭敬地不同意這種簡化主義的觀點。這類似于說,‘GPT-4不是在學習編碼,它只是對字符串進行采樣’。好吧,transformer所做的只是操縱整數序列(令牌ID).神經網絡所做的只是操縱浮點數。這不是正確的論點,”他說。
3、Sora仍處于GPT-3時刻
Perplexity創始人Aravind Srinivas最近一直在社交媒體上發聲,他也發言支持LeCun。他說:“現實是Sora雖然令人驚嘆,但還沒有準備好準確地模擬物理。”
有趣的是,OpenAI自己在任何人指出之前就已經指出了模型的局限性。該公司博客稱,Sora可能很難準確模擬復雜場景的物理特性,因為它可能無法理解因果關系的具體實例。它也可能與提示的空間細節混淆,例如遵循特定的相機軌跡等。
Fan還將Sora比作2020年的“GPT-3時刻”,當時該模特需要“大量的提示和標注”。然而,這是“第一次令人信服地證明了上下文學習是一種新興的特性”。
當前的限制不會影響生成的輸出質量。去年8月,當OpenAI收購了數字產品公司Global Illumination,該公司創建了開源游戲Biomes(類似于《我的世界》)時,視頻生成和通過自動代理構建模擬模型平臺的范圍是一些猜測。
現在,隨著Sora的發布,顛覆電子游戲行業的可能性只會升級。如果Sora處于GPT-3時刻,那么它的GPT-4時刻又該如何理解?在那之前,懷疑論者將繼續辯論,并可能相互給彼此上一兩堂課。
圖片
4、Meta LeCun力挺的答案
昨天,Meta與Open AI的Sora一起發布了一個新的人工智能模型,名為視頻聯合嵌入預測架構(V-JEPA)。V-JEPA通過分析視頻中對象之間的交互,提高了機器對世界的理解。該模型延續了Meta副總裁兼首席人工智能科學家Yann LeCun的愿景,即創造與人類學習相似的機器智能。
去年發布的I-JEPA的第五次迭代已經從比較圖像的抽象表示而不是像素本身,并將其擴展到視頻。它通過從圖像到視頻的學習來推進預測方法,除了空間信息外,還引入了時間(基于時間)動力學的復雜性。
V-JEPA預測視頻中缺失的部分,而無需重新創建每個細節。它從未標記的視頻中學習,這意味著它不需要經過人類分類的數據就可以開始學習。
這種方法使V-JEPA更高效,需要更少的資源進行訓練。該模型特別善于從少量信息中學習,與舊模型相比,速度更快,資源密集度更低。
該模型的開發包括屏蔽大部分視頻。這種方法是讓V-JEPA根據有限的上下文進行猜測,幫助其理解復雜的場景,而不需要詳細的數據。V-JEPA關注的是視頻中發生的事情的總體概念,而不是具體的細節,比如樹上單個樹葉的運動。
V-JEPA在測試中顯示出了有希望的結果,在測試中,它使用了通常需要的一小部分數據,優于其他視頻分析模型。這種效率被視為人工智能向前邁出的一步,使其可以在不進行廣泛再培訓的情況下將模型用于各種任務。
未來,Meta計劃將擴展V-JEPA的功能,包括添加聲音分析和提高其理解較長視頻的能力。
這項工作支持Meta更廣泛的目標,即推進機器智能,使其更像人類一樣執行復雜任務。V-JEPA是根據知識共享非商業許可證提供的,允許世界各地的研究人員探索和建立這項技術。