Sora的狂歡、世界模型和AGI
01Sora的出現,到底有哪些驚艷之處?
騰訊科技:第一次了解到Sora,最讓你驚訝或驚艷的地方在哪里??
魯為民:這次OpenAI 發布Sora生成的每一個視頻都很讓我驚嘆,特別是其高保真的效果以及視頻圖像的前后一致性。但是有一個視頻讓我印象最深刻,就是裝著果汁的玻璃杯在桌子上破碎的視頻,“果汁灑在桌面上,杯子橫在桌面上,杯子有一部分變扁,但是沒有玻璃碎片?!?這個事件發生的次序在物理世界是不可能的,但是視頻中各個事件的連貫表現得十分絲滑。Sora 模型生成的視頻讓人驚艷,但也展現出大模型一直存在違背規律和事實的“悖謬”和“幻覺”;這個也是對我們的一個提醒:Sora的實際應用還存在一些待解決的問題,更不用說 Sora 離世界模擬器還有相當的距離。
,時長00:08
騰訊科技:Sora生成的視頻中還是有不穩定的情況產生,你可以看到一些邏輯明顯錯誤的視頻出來,而OpenAI也并不避諱放出這些視頻,為什么會有這些不穩定的情況出現?
魯為民:基于Transformer的生成式模型是一種計算Token生成概率的預測模型。我認為只要牽涉到概率的模型,就會有一定的近似和不確定性,使得視頻的生成呈現不穩定性,甚至出現明顯的邏輯錯誤。另一方面,訓練數據也很重要。訓練數據中包含一些場景,但這些場景是否能完全覆蓋生成的應用場景是一個問題。例如,前面提到的玻璃杯破碎的場景,可能在之前的訓練數據中,這種場景可能并不存在;在這種情況下,模型可能會對生成視頻做出最可能出現的預測,即模型依賴概率來估計圖像出現的時間序列,但后來我們發現,這種估計在時間次序上并不符合物理規律或邏輯。
此外,對于一般正常的場景,視頻的呈現通常是平滑且連續的。然而,對于突然變化的場景,比如玻璃杯突然碎裂,以及不常發生的邊角事件在近似的模型中很難被準確模擬。盡管一般認為神經網絡可以近似任何類型的線性或非線性關系,無論是連續還是非連續的,但它們仍然是近似并存在誤差。在某些場景中,這些誤差的結果可能導致模型在表達世界時呈現物理原理、因果關系和時空細節等方面的錯誤。
這種問題不僅僅是在當前的Sora模型中存在,Gemini 和GPT系列的大模型也有類似的情況。這從經驗上也證實幻覺問題是這類模型架構存在的一個先天性問題。當然,我們可以不斷地對模型進行細致的優化,不斷去逼近這個模型系統真實的解,但很難完全消除這樣的問題。然而,這并不妨礙這類模型在許多合適場景中的廣泛應用。
另外對于這類模型,包括將視覺元素整合進去的環境建?;蛭锢硎澜缃#覀兓旧嫌袃煞N不同的方法。一種方法是數據驅動的,比如Sora,使用擴散Transformer架構,延續了語言大模型的思路,通過大量的互聯網規模的數據來訓練模型。另一種方法,應用第一性原則來建模,比如Unreal Engine主要基于物理規律和其它數學模型生成圖像和視頻;所以如果使用用依賴基于第一性原則的Unreal Engine來建模,那么能夠覆蓋的場景范圍與可以這樣建模的場景數量和其普遍性有關。
這兩種方法代表了不同的思路。前者可能使得模型學習更廣泛的知識,可能涌現非設計的能力。后者可以建立更精確的模型。當然,如果能夠將這兩種方法結合起來,比如通過大模型來調用基于第一原則的生成視頻的工具,可能可以呈現兩者最好的一面。但是也可能被某一方法的局限,比如有可能你想要生成的視頻內容是像Unreal Engine這樣的視頻生成引擎無法覆蓋的場景。所以通過基礎模型調用專有工具可能是一把雙刃劍,既有其優勢,也可能帶來一些問題。
02Sora接近世界模型嗎
騰訊科技:這個話題直接讓人聯想到最近討論的物理世界引擎。OpenAI在Sora的技術報告中也刻意避免了世界模型這種詞匯,只是說這可能是AI通向物理世界的一個有希望的道路,各位怎么看呢?
魯為民:圖靈獎獲得者Yann LeCun提出了世界模型的概念,現在對世界模型概念都存在著支持和排斥兩種迥然不同的觀點,它們各自都有其合理性。
我個人對圖靈獎獲得者Yann LeCun的世界模型的觀點有一定程度的認可,尤其是在當前條件下,從第一性原理出發來對世界進行建模,可能更方便其應用在特定的場景。另外,他的世界模型架構通過對環境的感知以及與環境的互動來生成行為,形成反饋閉環,從而進一步學習影響環境。雖然這種世界模型的思路有其合理性,但目前還沒有特別突出的實際應用。雖然最近 Meta 發布了 V-JEPA 視頻模型,聲稱是一個早期的LeCun物理世界模型,并在檢測和理解物體之間的高度詳細的交互方面表現出色,在推動機器智能邁向了更加深入理解世界的重要一步。但其鋒芒被風頭正勁的OpenAI Sora 模型所掩蓋。
因為現在已經有了足夠的條件,比如大算力和互聯網規模的數據,可以大規模地訓練數據驅動的模型,使得像Sora這樣的數據驅動的生成模型的性能和效果、靈活性和涌現能力表現出色,在很多場景其生成的內容令人驚艷。雖然目前來看(高質量的)訓練數據可能還不夠,但我們一方面在不斷努力增加數據量,另一方面通過人工或合成的方式提高數據的多樣性和質量,確保數據的多樣性和質量。
在這兩個條件的基礎上,再加上新的模型架構,比如這次Sora采用以Diffusion Transformer為主的架構,確實能夠通過大力出奇跡的方式學習到一些關于環境或世界的知識,特別是它能夠利用足夠大的容量在某種程度上學會對世界的理解。
從這個角度來看,效果是顯而易見的,它在視頻長程一致性、3D一致性以及與現實世界的交互能力等方面的表現讓人印象深刻,例如吃了一個漢堡包后能留下缺口,或者狗被遮擋后再出現的場景。這些都是模型從現有數據學到的關于世界的知識。雖然Sora還可能不能完全理解世界,還存在違背規律和事實的“悖謬”和“幻覺”,但我相信通過OpenAI和其它機構的持續努力,像 Sora 這類模型將會不斷地改進。希望在沒有其它更好的替代方法之前,能夠在應用中能夠充分利用這樣的進展,在合適的應用場景中產生一些正面的結果。
(除了世界模型,AGI也是人們常談到的一個相關概念。) 實際上AGI的沒有一個大家公認的定義。按照Wikipedia,AGI 可以學習完成人類能夠執行的任何智力任務,即在大多數經濟上有價值的任務中超越人類智能;AGI 是一個假設性的概念,所以其目標目前也不太可能定義得非常明確。建立世界模型是實現 AGI的一條合理可信的路徑?,F在有關世界模型和AGI的各種實踐應該是沒有問題的;雖然各自發展的具體路徑會因為目標的不同而有所不同,但我們相信在目前這個階段這種百花齊放的多樣性是有益的。
我們之前討論過,對于AI系統的發展與其設定一個像 AGI 一樣遙遠的目標去試圖一步到位實現,現在AI技術的推動實際上是沿著一種更為現實靈活的途徑。實際上,最近這些年AI的發展,我們首先看到的是語言模型的突破,語言模型已經在語言理解、生成和處理方面取得了驚人的進展,盡管還有很多問題需要解決,但至少我們看到了語言模型已經在跨越應用的門檻?,F在輪到視頻視覺了,像今天的 Sora 已經初步顯示視頻模態理解、處理和生成的巨大應用潛力。
接下來,我們可能會看到更多的模態融合,不僅僅是語言和視頻,還包括語音、視覺、味覺甚至嗅覺等不同的模態。這些模態的加入可能會讓模型對現實世界和環境有更深的理解。具備了這樣的條件之后,我們再去討論對物理世界的理解、對人類環境的理解以及世界模型等概念,可能會更加水到渠成。
當然,要建立世界模型和達到 AGI,像Gemini、GPT-x和Sora 這樣的(語言或多模態)大模型可能遠遠不夠,因為這類基于 Transformer 的大模型存在的一些包括對物理規律、邏輯、和實事上的悖謬和幻覺根本問題。需要在大模型本身能力的基礎上,系統需要加強或增加推理、規劃、搜索和行動等能力,以及具備自我改進和持續學習能力,讓系統逼近人類可接受的世界模型。而智能體 (Agents) 是實現這樣的整合能力的一個合理的框架。
03Sora的出現,會帶來哪些創業生態的改變
騰訊科技:回到Sora,目前OpenAI只是開放了一小部分試用,未來還會有什么更廣闊的應用場景?
魯為民:目前,盡管Sora一亮像就很驚艷,但存在一些問題。例如,這些模型并不總是能夠生成令人滿意的圖片和視頻,有時甚至會出現在物理規律和邏輯上的嚴重錯誤。我們之前使用 ChatGPT時,可能也經常遇到類似的問題。
一方面,我相信隨著時間的推移,這些模型的優化使得其應用會變得更加成熟,成本會降低,也會有更多人使用。但具體來說,這些模型適合于哪些用戶群體目前還不太明確。比如,相比于語言模型,視頻生成模型可能更加小眾。AI從業者還需要不斷地應對各種各樣的挑戰。然而,我更關注這些模型對于更長遠目標實現的影響,比如我們需要它們對其環境有更好的理解和對世界有更強的認知能力。因為從長遠來看,我看好這些模型的應用能力可以擴展到能為機器人等真正地提供“大腦”,通過這些模型來增強它們的理解、推理和規劃能力。我相信這樣的應用方向可能會帶來更高的價值,并且更廣泛地惠及大眾。
另外,Sora 的能力很大程度上依賴 “暴力出奇跡”,使得Sora在很多方面表現出色,有潛在的廣泛應用前景。但是像其它大模型一樣,其計算算力成本也是需要考慮的問題,尤其是視頻生成模型的推理成本往往遠高于類似能力的語言模型。如何降低模型的應用成本,提高相適應的性能和能力的回報,這需要在模型架構的設計時平衡考慮。
騰訊科技:“暴力出奇跡”的方法是不是也有瓶頸?目前模型已經出現“涌現能力”當你再加大數據量的時候,是不是也不會再讓模型更優化?
魯為民:Sora 在實踐上也呈現規模優勢和涌現特性,即通過(高質量的)數據、模型參數和算力的擴展,性能和能力的顯著提升。但數據和計算資源往往不是唾手可得的。模型的發展還有必要從其它方面突破。我覺得接下來的模型發展可以從兩方面來考慮,一個是模型繼續改進,另外一個是有沒有新的模型架構的出現?
剛剛提到數據的挑戰,數據對模型的改進非常重要。特別是在物理世界和機器人等領域,相關的經驗數據的獲取因為受限往往缺失或不完整,這些數據與互聯網數據有很大不同。我們需要考慮如何在這些特定環境中利用有限的數據建立更好的模型,同時考慮必要時如何生成相關的數據,例如機器人系統通過與環境的交互學習并影響環境,這涉及到強化學習,是一個有挑戰性的問題。
另外,世界的模型并非完全開放,它們仍然受到許多約束,比如我們需要模型避免與人類價值觀的不一致。目前,通過人類反饋進行強化學習等技術來微調模型是目前一個很好的實踐方向,但還有很多發展空間。此外這類生成式 AI大模型在理解生成上都有局限性,特別是在一些邊角場景中,模型可能不可靠。這些和其它的問題使得大模型在理解和模擬物理世界可能存在違背規律、邏輯和事實的“悖謬”和“幻覺”。
像Gemini、GPT-x和Sora 這樣的生成式 AI 模型的先天性局限,光靠模型本身的改進是不可能完全解決的。在這種情況下,我們需要充分利用模型之外的能力來補充、改進和強化這些大模型的能力。像智能體 (Agents) 這樣機制提供這樣的一種可行性。
特別是建立在語言或多模態的生成式 AI模型提供的上下文提示學習模式以及理解、推理和規劃能力基礎上,智能體的加持可以為應用系統提供的天然反饋閉環來實現持續學習和自我改進的能力,使得基于生成式AI大模型的智能體可以解決復雜問題、對環境交互行動,糾正可能的錯誤、并從經驗中持續學習。
本文轉載自 ??MoPaaS魔泊云??,作者:魯為民
