成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

當前最強國產Sora!清華團隊突破16秒長視頻,懂多鏡頭語言,會模擬物理規律

發布于 2024-4-28 09:28
瀏覽
0收藏

你說箱子里要裝滿鉆石,于是箱子被鉆石填滿,比實拍還要耀眼。這樣的技能,哪個劇組不喜歡?

當前最強國產Sora!清華團隊突破16秒長視頻,懂多鏡頭語言,會模擬物理規律-AI.x社區


這是前段時間 Adobe 旗下的視頻剪輯軟件 Premiere Pro 所呈現的「魔法」。該軟件通過引入 Sora、Runway、Pika 等 AI 視頻工具,實現在視頻中添加物體、消除物體以及生成視頻片段等能力,這被視為視頻領域的再一次技術革新。


從 2 月份 Sora 席卷全球到如今 Adobe 再施魔法,海外熱火朝天。相比之下,國內在視頻領域,尤其是長視頻生成方向還處于「等待」狀態。在過去的兩個月里,我們已經聽到了一些宣稱追趕 Sora 的聲音,但是目前還沒有看到國內取得明顯進展。但今天生數科技剛剛發布的這支短片,讓我們看到了不少驚喜。


這是生數科技聯合清華大學最新發布的視頻大模型「Vidu」所官宣的視頻。可以看出,它生成的視頻不再是持續幾秒的「GIF」,而是達到了十幾秒(最長可以達到 16 秒左右)。當然更令人驚喜的是,「Vidu」畫面效果非常接近 Sora,在多鏡頭語言、時間和空間一致性、遵循物理規律等方面表現都非常出色,而且還能虛構出真實世界不存在的超現實主義畫面,這是當前的視頻生成模型難以實現的。在短短兩個月的時間,生數科技能實現到這般效果,著實令人驚喜。


國內首個全面對標 Sora 的視頻模型


自 Sora 發布之后,「國產 Sora」的爭奪戰就打響了。但當行業都聚焦于「長」這一特性時,卻都忽略了 Sora 的背后其實是綜合效果的提升,例如長時序下的一致性、真實度、美觀性等等。


從綜合效果看,「Vidu」是首個也是唯一在效果層面全面對標 Sora 的視頻模型,不僅僅在國內,在全球范圍,也是繼 Sora 之后首個完成突破的視頻模型。從具體效果,可以顯著看到幾處明顯的優勢:


給視頻注入「鏡頭語言」


在視頻制作中有個非常重要的概念 —— 鏡頭語言。它是通過畫面來表達故事情節、揭示角色心理、營造氛圍以及引導觀眾情感的主要方式。不同的鏡頭選擇、角度、運動和組合將極大地影響敘事的效果和觀眾的感受。


現有 AI 生成的視頻,能夠明顯地感覺到鏡頭語言的單調,鏡頭的運動局限于輕微幅度的推、拉、移等簡單鏡頭。其背后的主要原因是,現有的視頻內容生成大多是先通過生成單幀畫面,再做連續的前后幀預測,但主流的技術路徑,很難做到長時序的連貫預測,只能做到小幅的動態預測。


當前最強國產Sora!清華團隊突破16秒長視頻,懂多鏡頭語言,會模擬物理規律-AI.x社區

Runway 在去年 7 月份生成的科幻電影預告片《Trailer: Genesis》(《創世紀》)。


「Vidu」則突破了這些局限。在一個「海邊小屋」為主題的片段中,我們可以看到,「Vidu」一次生成的一段片段中涉及多個鏡頭,畫面既有小屋的近景特寫,也有望向海面的遠眺,整體看下來有種從屋內到走廊再到欄桿邊賞景的敘事感。可以看出,「Vidu」能夠圍繞統一主體在一段畫面里實現遠景、近景、中景、特寫等不同鏡頭的切換。


,時長00:15

提示:在一個古色古香的海邊小屋里,陽光沐浴著房間,鏡頭緩慢過渡到一個陽臺,俯瞰著寧靜的大海,最后鏡頭定格在漂浮著大海、帆船和倒影般的云彩。(生數旗下 PixWeaver 產品官網放出的完整視頻片段)


此外,從短片中的多個片段能看到,「Vidu」能直接生成轉場、追焦、長鏡頭等效果,包括能夠生成影視級的鏡頭畫面,給視頻注入鏡頭語言,提升畫面的整體敘事感。


當前最強國產Sora!清華團隊突破16秒長視頻,懂多鏡頭語言,會模擬物理規律-AI.x社區


當前最強國產Sora!清華團隊突破16秒長視頻,懂多鏡頭語言,會模擬物理規律-AI.x社區


當前最強國產Sora!清華團隊突破16秒長視頻,懂多鏡頭語言,會模擬物理規律-AI.x社區


保持時間和空間的一致性


視頻畫面的連貫和流暢性至關重要,這背后其實是人物和場景的時空一致性,比如人物在空間中的運動始終保持一致,場景也不能在沒有任何轉場的情況下突變。而這一點 AI 很難實現,尤其時長一長,AI 生成的視頻將出現敘事斷裂、視覺不連貫、邏輯錯誤等問題, 這些問題會嚴重影響視頻的真實感和觀賞性。


「Vidu」在一定程度上克服了這些問題。從它生成的一段「帶珍珠耳環的貓」的視頻中可以看到,隨著鏡頭的移動,作為畫面主體的貓在 3D 空間下一直保持著表情、服飾的一致,視頻整體上非常連貫、流暢,保持了很好的時間、空間一致性。


提示:這是一只藍眼睛的橙色貓的肖像,慢慢地旋轉,靈感來自維米爾的《戴珍珠耳環的少女》,畫面上戴著珍珠耳環,棕色頭發像荷蘭帽一樣,黑色背景,工作室燈光。(生數旗下 PixWeaver 產品官網放出的完整視頻片段)


模擬真實物理世界


Sora 令人驚艷的一大特點,就是能夠模擬真實物理世界的運動,例如物體的移動和相互作用。其中 Sora 發布過的一個經典案例 ——「一輛老式 SUV 行駛在山坡上」的畫面,非常好地模擬了輪胎揚起的灰塵、樹林中的光影以及車行駛過程中的陰影變化。在同樣的提示詞下,「Vidu」與 Sora 生成效果高度接近,灰塵、光影等細節與人類在真實物理世界中的體驗非常接近。


提示:鏡頭跟隨一輛帶有黑色車頂行李架的白色老式 SUV,它在陡峭的山坡上一條被松樹環繞的陡峭土路上加速行駛,輪胎揚起灰塵,陽光照射在 SUV 上,給整個場景投射出溫暖的光芒。土路緩緩地蜿蜒延伸至遠方,看不到其他汽車或車輛。道路兩旁都是紅杉樹,零星散落著一片片綠意。從后面看,這輛車輕松地沿著曲線行駛,看起來就像是在崎嶇的地形上行駛。土路周圍是陡峭的丘陵和山脈,上面是清澈的藍天和縷縷云彩。


當然在「帶有黑色車頂行李架」的局部細節上,「Vidu」沒能生成出來。但瑕不掩瑜,它的整體效果已高度接近真實世界。


豐富的想象力


與實景拍攝相比,用 AI 生成視頻有一個很大的優勢 —— 它可以生成現實世界中不存在的畫面。以往,這些畫面往往要花費很大的人力、物力去搭建或做成特效,但是 AI 短時間就可以自動生成了。


比如在下面這個場景中,「帆船」、「海浪」罕見地出現在了畫室里,而且海浪與帆船的交互動態非常自然。


提示:畫室里的一艘船駛向鏡頭。(生數旗下 PixWeaver 產品官網放出的完整視頻片段)


當前最強國產Sora!清華團隊突破16秒長視頻,懂多鏡頭語言,會模擬物理規律-AI.x社區


短片中的「魚缸女孩」的片段也是奇幻但又具有一定的合理感。這種能夠虛構真實世界不存在的畫面的能力,對于創作超現實主義內容非常有幫助,不僅可以激發創作者的靈感,提供新穎的視覺體驗,還能拓寬藝術表達的邊界,帶來更加豐富和多元化的內容形式。


理解中國元素


除了以上四方面的特點外,我們從「Vidu」放出的短片中還看到了一些不一樣的驚喜,「Vidu」能夠生成特有中國元素的畫面,比如熊貓、龍、宮殿場景等。


,時長00:16

提示:在寧靜的湖邊,一只熊貓熱切地彈著吉他,讓整個環境變得活躍起來。晴朗天空下平靜的水面倒映著這一場景,以生動的全景鏡頭捕捉到,將現實主義與大熊貓活潑的精神融為一體,創造出活力與平靜的和諧融合。(生數旗下 PixWeaver 產品官網放出的完整視頻片段)


兩個月快速突破,背后是怎么做到的?


「Vidu」背后的研發團隊生數科技是國內多模態大模型方向的創業團隊,核心成員來自清華大學人工智能研究院,團隊專注于圖像、3D、視頻等多模態生成領域。


在今年 1 月份,生數科技在旗下視覺創意設計平臺 PixWeaver 就上線了短視頻生成功能,支持 4 秒高美學性的短視頻內容。2 月份 Sora 推出后,據悉,生數科技內部成立了正式的攻堅小組,加快了原本視頻方向的研發進度,3 月份內部就實現了 8 秒的視頻生成,緊接著 4 月份就突破了 16 秒生成,生成質量與時長全方面取得突破。


眾所周知,Sora 并沒有公布太多的技術細節,能在這么短的時間內取得突破,背后核心是團隊深厚的技術積累和諸多從 0 到 1 的原創成果,尤其是在最核心的技術架構層面。


「Vidu」底層基于完全自研的 U-ViT 架構,該架構由團隊在 2022 年 9 月提出,早于 Sora 采用的 DiT 架構,是全球首個 Diffusion 和 Transformer 融合的架構

 

當前最強國產Sora!清華團隊突破16秒長視頻,懂多鏡頭語言,會模擬物理規律-AI.x社區

在 DiT 論文發布兩個月前,清華大學的朱軍團隊提交了一篇論文 ——《All are Worth Words: A ViT Backbone for Diffusion Models》。這篇論文提出了用 Transformer 替代基于 CNN 的 U-Net 的網絡架構 U-ViT。這是「Vidu」最重要的技術基礎。


在技術路線上,「Vidu」采用了和 Sora 完全一致的 Diffusion 和 Transformer 融合的架構。不同于采用插幀的多步驟處理方式來達到長視頻的生成,「Vidu」采用的是和 Sora 一致的路線,即通過單一步驟直接生成高質量的視頻。從底層來看,這是一種「一步到位」的實現方法,基于單一模型完全端到端生成,不涉及中間的插幀和其他多步驟的處理,文本到視頻的轉換是直接且連續的。


另外基于 U-ViT 架構,2023 年 3 月,團隊在開源的大規模圖文數據集 LAION-5B 上訓練了 10 億參數量的多模態模型 ——UniDiffuser,并將其開源(參見《???清華朱軍團隊開源首個基于 Transformer 的多模態擴散大模型,文圖互生、改寫全拿下??》)。


UniDiffuser 主要擅長圖文任務,能支持圖文模態間的任意生成和轉換。UniDiffuser 的實現有一項重要的價值 —— 首次驗證了融合架構在大規模訓練任務中的可擴展性(Scaling Law),相當于將 U-ViT 架構在大規模訓練任務中的所有環節流程都跑通。值得一提的,UniDiffuser 比同樣 DiT 架構的圖文模型 Stable Diffusion 3 的提出領先了一年。


這些在圖文任務中積累的工程經驗為視頻模型的研發打下了基礎。因為視頻本質上是圖像的流,相當于是圖像在時間軸上做了一個擴增。因此,在圖文任務上取得的成果往往能夠在視頻任務中得到復用。Sora 就是這么做的:它采用了 DALL?E 3 的重標注技術,通過為視覺訓練數據生成詳細的描述,使模型能夠更加準確地遵循用戶的文本指令生成視頻。這種效應也必然會發生在「Vidu」上面。


根據此前的消息推測,「Vidu」也復用了生數科技在圖文任務的很多經驗,包括訓練加速、并行化訓練、低顯存訓練等等,從而快速跑通了訓練流程。據悉,他們通過視頻數據壓縮技術降低輸入數據的序列維度,同時采用自研的分布式訓練框架,在保證計算精度的同時,通信效率提升 1 倍,顯存開銷降低 80%,訓練速度累計提升 40 倍。



從圖任務的統一到融合視頻能力,「Vidu」可被視為一款通用視覺模型,能夠支持生成更加多樣化、更長時長的視頻內容。官方也透露,「Vidu」目前還在加速迭代提升。面向未來,「Vidu」靈活的模型架構也將能夠兼容更廣泛的多模態能力。


來自清華系的精干團隊


最后,再聊下「Vidu」背后的團隊 —— 生數科技,這是一支清華背景的精干團隊。


生數科技的核心團隊來自清華大學人工智能研究院。首席科學家由清華人工智能研究院副院長朱軍擔任;CEO 唐家渝本碩就讀于清華大學計算機系,是 THUNLP 組成員;CTO 鮑凡則是清華大學計算機系博士生、朱軍教授的課題組成員,長期關注擴散模型領域研究,U-ViT 和 UniDiffuser 兩項工作均是由他主導完成的。


團隊從事生成式人工智能和貝葉斯機器學習的研究已有 20 余年,在深度生成模型突破的早期就開展了深入研究。在擴散模型方面,團隊于國內率先開啟了該方向的研究,成果涉及骨干網絡、高速推理算法、大規模訓練等全棧技術方向。


當前最強國產Sora!清華團隊突破16秒長視頻,懂多鏡頭語言,會模擬物理規律-AI.x社區


團隊于 ICML、NeurIPS、ICLR 等人工智能頂會發表多模態領域相關論文近 30 篇,其中提出的免訓練推理算法 Analytic-DPM、DPM-Solver 等突破性成果,獲得 ICLR 杰出論文獎,并被 OpenAI、蘋果、Stability.ai 等國外前沿機構采用,應用于 DALL?E 2、Stable Diffusion 等明星項目中。


自 2023 年成立以來,團隊已獲得螞蟻集團、啟明創投、BV 百度風投、字節系錦秋基金等多家知名產業機構的認可,完成數億元融資。據悉,生數科技是目前國內在多模態大模型賽道估值最高的創業團隊。此次「Vidu」的推出,是生數科技在多模態原生大模型領域的再一次創新和領先。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/xAEYGIoJ0EzhszfmXno3UA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产福利资源 | 久久成人免费 | 成人三级视频在线观看 | 欧美精品久久久久 | 黄色片网站在线观看 | av在线免费观看网站 | 91直接看 | 日韩视频一区二区三区 | 欧美中文字幕一区二区三区亚洲 | 精品国产一二三区 | 毛片一级片 | 精品美女视频在线观看免费软件 | 日韩在线免费视频 | 狠狠狠| 久久亚洲一区二区 | 日韩不卡三区 | 日韩在线免费播放 | 国产成人精品一区二区三区在线 | 中文字幕在线视频网站 | 亚洲国产精品成人无久久精品 | av一区二区三区 | 在线观看深夜视频 | 久久成人国产精品 | 黄色在线免费观看视频网站 | 欧美日韩在线一区二区 | 欧美精品一区二区三区四区五区 | 国产精品国产精品国产专区不卡 | 成人在线观看免费视频 | 成年免费大片黄在线观看岛国 | 本道综合精品 | 国产在线一区二区三区 | www.久久精品视频 | 性做久久久久久免费观看欧美 | 欧美中文在线 | 色在线免费视频 | 综合精品| 久久中文字幕一区 | 天堂综合网久久 | 91视频.com | 青草青草久热精品视频在线观看 | 国产精品久久久久久吹潮 |