成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

快手版Sora「可靈」開放測試:生成超120s視頻,更懂物理,復雜運動也能精準建模

人工智能 新聞
它采用了Sora相似的技術路線,結合多項自研技術創新,生成的視頻不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力和想象力。

什么?瘋狂動物城被國產AI搬進現實了?

與視頻一同曝光的,是一款名為「可靈」全新國產視頻生成大模型。

它采用了Sora相似的技術路線,結合多項自研技術創新,生成的視頻不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力和想象力。

數據上看,可靈支持生成長達2分鐘30fps的超長視頻,分辨率高達1080p,且支持多種寬高比。

另外再劃個重點,可靈不是實驗室放出的Demo或者視頻結果演示,而是短視頻領域頭部玩家快手推出的產品級應用

而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影APP中正式開啟邀測。

話不多說,接下來就帶大家欣賞一下可靈的大作~

更懂世界規律,復雜運動也能準確刻畫

相信通過開頭的視頻,大家已經感受到了可靈豐富的想象力。

可靈不但在想象上天馬行空,在描繪運動時又能做到符合真實的運動規律,復雜、大幅度的時空運動也能準確刻畫。

比如這個在公路上高速奔跑的老虎,不僅畫面連貫,隨鏡頭角度的變化合理,老虎四肢的動作協調,而且還把奔跑過程中軀干部分的抖動也展現得淋漓盡致。

圖片

還有宇航員在月球上奔跑的畫面,動作流暢,步態和影子的運動合理恰當,太絕了。

圖片

除了運動,可靈大模型還能模擬真實物理世界特性,生成的視頻更符合物理規律

在這段倒牛奶的視頻中,力學方面的重力規律、液面的上升都符合現實,連倒液體時泡沫一直在最上層的特性也考慮到了:

圖片

還有光學上的反射規律也考慮到了,注意看這只彈鋼琴的貓貓,光滑表面上影子里的貓爪和琴鍵,都在隨著本體同步變化。

圖片

另外,與真實物理世界的交互,也能被真實反映——下面視頻中小男孩吃漢堡的生成視頻中,一口咬下去,齒印一直都在,小男孩享受吃漢堡的享受過程宛如就在眼前。

圖片

要知道,符合物理規律對于大模型來說還是相當困難的事,連Sora也不能完全做好。

比如同樣是吃漢堡這個場景,Sora生成的視頻不僅有人手只有三根手指這樣的槽點,咬合位置與漢堡上的咬痕也并不匹配……

圖片

不僅僅是真實世界中的物理規律和運動,對于想象力的場景,可靈也是信手拈來。

比如這只戴著眼鏡的兔子邊喝咖啡,邊看報紙,悠閑自得。

圖片

同時,可靈對細節的刻畫也很到位,比如兩朵緩慢綻放的花,可以看到花瓣和花蕊的細節。

圖片

而且,可靈不僅生成的視頻更加真實,生成的視頻分辨率高達1080p,時長高達2分鐘(幀率30fps),且支持自由的寬高比

其中也包括豎版視頻,可以說是和快手的短視頻生態相當匹配了。

畫面中,一列火車向前方行駛,窗外的風景走過了春夏秋冬四季,整個兩分多鐘的畫面都十分連貫。

到這里,相信效果展示得已經夠多了,如果還意猶未盡的話,可以前往可靈官網平臺(傳送門見文末),看更多神奇的AI視頻吧!

(注:本文中的視頻有壓縮,高清及最新效果以官方網頁為準)

那么在可靈的這些視頻背后,都運用了哪些獨特的技術呢?

原生的視頻生成技術路線

整體上,可靈大模型的采用了原生的文生視頻技術路線,替代了圖像生成+時序模塊的組合,這也是可靈生成時間長、幀率高,能準確處理復雜運動的核心奧義。

具體來看,快手大模型團隊認為,一個優秀的視頻生成模型,需要考慮四大核心要素——模型設計、數據保障、計算效率,以及模型能力的擴展。

類Sora模型架構,scaling law得到驗證

先從模型的設計說起,這當中主要應當考慮兩方面的因素,一是足夠強的擬合能力,二是足夠多的參數容量

架構的選擇方面,可靈整體框架采用了類Sora的DiT結構,用Transformer代替了傳統擴散模型中基于卷積網絡的U-Net。

Transformer的處理能力和生成能力更強大,擴展能力更強、收斂效率更好,解決了U-Net在處理復雜任務時冗余過大、感受野和定位精度不可兼得的局限。

在此基礎之上,快手大模型團隊還對模型中的隱空間編/解碼、時序建模等模塊進行了升維

目前,在隱空間編/解碼上,主流的視頻生成模型通常沿用Stable Diffusion的2D VAE進行空間壓縮,但這對于視頻而言存在明顯的信息冗余。

因此,快手大模型團隊自研了3D VAE網絡,實現時空同步壓縮,獲得了較高的重建質量,在訓練性能和效果取得了最佳平衡。

另外在時序信息建模上,快手大模型團隊設計了一款計算高效的全注意力機制(3D Attention)作為時空建模模塊。

該方法可以更準確地建模復雜時空運動,同時還能兼顧具運算成本,有效提升了模型的建模能力。

當然,除了模型自身的能力,用戶輸入的文本提示詞也對最終生成的效果有著重要影響。

為此,團隊專門設計了專用的語言模型,可以對用戶輸入的提示詞進行高質量擴充及優化。

數據如何構建?自建高質量數據篩選方案

說完了模型的設計,數據對于模型的表現同樣至關重要。

事實上,訓練數據的規模和質量不足,也正是許多視頻生成模型研發者所面臨的棘手問題。

網上視頻普遍質量低、難以滿足訓練需求。快手大模型團隊構建了較為完備的標簽體系,可以精細化的篩選訓練數據,或對訓練數據的分布進行調整。

該體系從視頻基礎質量、美學、自然度等多個維度對視頻數據質量進行刻畫,并針對每一個維度設計多種定制化的標簽特征。

在訓練視頻生成模型時,需要同時把視頻及對應文本描述喂給模型。視頻本身質量也有了保證,其對應文本描述,應該如何獲得?

開發團隊專門研發了視頻描述模型,可以生成精確、詳盡、結構化的視頻描述。顯著提升視頻生成模型的文本指令響應能力。

縱使模型天賦異稟,亦離不開勤學苦練

模型和數據都有了,運算效率也要跟得上,如此才能在有限的時間內完成海量規模數據訓練,看到顯著的效果。

為了獲得更高的運算效率,可靈大模型并沒有采用當前行業主流的DDPM方案,而是使用了傳輸路徑更短的flow模型作為擴散模型基座。

從另一層面上看,算力的不足也是不少AI從業者面臨的難題,即使像OpenAI這樣的大模型巨頭,所擁有的算力資源同樣緊缺。

這一問題在短時間內可能無法徹底解決,但可以做的是,在總體硬件資源有限的條件下,盡可能地提高算力的運用效率。

快手大模型團隊便使用了分布式訓練集群,并通過算子優化、重算策略優化等手段,大幅提升了可靈大模型的硬件利用率。

在訓練過程當中,可靈也沒有選擇一步到位,而是采取分階段訓練策略來逐步提升分辨率:

在初期的低分辨率階段,主要是以數量取勝,通過大量數據增強模型對概念多樣性的理解和建模能力;

在隨后的高分辨率階段,數據的質量開始變成更重要的考量因素,目的是進一步提高模型性能,并加強在細節上的表現。

采取這樣的策略,有效結合了量與質的優勢,確保了模型在訓練的各個階段均能得到優化提升。

需求千變萬化,模型游刃有余

在基礎模型的研發工作之上,快手大模型團隊也從長寬比等多個維度上對其能力進行了擴展。

在長寬比上,可靈同樣沒有采用主流模型在固定分辨率上進行訓練的方式。

因為傳統方法在面對長寬比多變的真實數據時,通常會引入前處理邏輯,破壞了原始數據的構圖,導致生成結果構圖較差。

相比之下,快手大模型團隊的方案可以使模型直接處理不同長寬比的數據,保留原始數據的構圖

為了應對未來數分鐘甚至更長的視頻生成需求,團隊也研發了基于自回歸的視頻時序拓展方案,且不會出現明顯的效果退化。

除了文本輸入外,可靈還支持多種控制信息輸入,如相機運鏡、幀率、邊緣/關鍵點/深度等,為用戶提供了豐富的內容控制能力。

不做“畫餅”大模型,應用才是硬道理

大模型行業“卷”到今天,我們見證了太多技術的高光時刻,但技術突破的初心仍然還是應用。

快手可靈視頻生成模型,誕生于短視頻頭部廠商,也持續面向應用在探索。非常值得一提的是,可靈大模型是發布即上線,不畫餅!不畫餅!不畫餅!

可靈的文生視頻模型,已在快影APP中正式開啟邀測,目前開放的版本支持720P視頻生成,豎版視頻生成能力也即將開放。

圖片

除了文生視頻,快手還基于可靈大模型推出了其他應用,如“AI舞王”已在快手和快影APP中上線。

無論是科目三還是二人轉,只要上傳一張全身照,都能分分鐘讓人物跟著音樂優雅地跳動,甚至兵馬俑也能跳起最炫民族風。

除了視頻生成模塊,快手大模型團隊還向其中加入了自研3D人臉重建技術,以及背景穩定性和重定向模塊,更生動地展現表情和運動效果。

而且,更新一些的“AI唱跳”技術也迎來了首發,在跳舞的同時,也能讓人物張嘴唱歌了。

順便再做個劇透,基于可靈大模型的圖生視頻功能,也將于近期與用戶見面。

實際上,作為頭部視頻廠商,快手在大模型熱潮之中也動作迅速,此前就曾相繼推出語言模型和文生圖模型。

基于這些模型,AI文案、AI生圖,AI生視頻,以及更多AI創作功能,都已相繼在快手和快影APP中上線。

圖片

在視頻生成上,快手也曾與多個高校或科研機構聯手,陸續發布可控運動的視頻生成算法Direct-a-Video、多模態生成算法Video-LaVIT、圖生視頻算法I2V-Adapter、多模態美學評價模型UNIAA等關鍵技術,為可靈大模型積累了深厚的技術沉淀。

現在,快手完整的文生視頻功能終于華麗登場,我們期待快手作為一家擁有獨特場景優勢和廣泛應用場景的短視頻賽道巨頭,能夠率先把視頻生成能力在短視頻場景中落地生花。

如果你對AI視頻創作感興趣,不妨到快影APP中一探究竟。

傳送門:http://kling.kuaishou.com/

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-12-12 08:35:58

2024-12-12 10:00:00

2025-02-05 10:30:00

2025-05-12 08:25:00

2024-06-14 09:12:06

2025-03-27 09:24:16

2025-03-07 09:02:00

生成AI視頻

2025-04-14 00:00:00

MCPjson 信息地理編碼

2024-12-17 09:38:00

2015-08-05 15:53:35

power星環

2011-04-21 14:21:06

佳能打印機

2011-12-01 14:57:51

臺式機評測

2021-03-26 10:02:29

PythonVIP視頻看電影

2012-12-12 09:53:20

下一代防火墻

2013-01-06 09:26:06

Wi-Fi網絡協議
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产欧美在线视频 | 日韩综合一区 | www.色综合| 亚洲欧美在线观看 | 四色成人av永久网址 | jizz在线看片| 久久国产成人午夜av影院武则天 | 91网站在线播放 | 7777在线视频 | 怡红院免费的全部视频 | 丝袜一区二区三区 | av一区二区三区 | 亚洲国产精品91 | 成人午夜影院 | 欧美成人a∨高清免费观看 91伊人 | 亚洲午夜精品视频 | 欧美午夜视频 | 亚洲一区二区免费 | 久久精品一区二区视频 | 欧美精品福利 | 亚洲精品二区 | 国产电影一区二区在线观看 | 99re6在线视频| 日韩一区二区在线免费观看 | 91精品国产一区二区 | 日韩美女在线看免费观看 | 欧美精品在线播放 | 色屁屁在线观看 | 国产精品成人国产乱一区 | 超碰网址 | 久久一级大片 | 久久精品aaa | 日韩区| 久久久免费 | 欧美视频二区 | 国产免国产免费 | 国产区精品 | 一区二区三区免费 | 午夜在线视频一区二区三区 | 久久伦理电影 | 欧美色综合一区二区三区 |