成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

「全球首個自回歸視頻生成大模型」,剛剛,Swin Transformer作者創(chuàng)業(yè)團(tuán)隊重磅開源!

人工智能 新聞
馬爾獎、清華特獎得主曹越的創(chuàng)業(yè)公司 Sand AI 推出了自己的視頻生成大模型 ——MAGI-1。

視頻生成領(lǐng)域,又出現(xiàn)一位重量級開源選手。

今天,馬爾獎、清華特獎得主曹越的創(chuàng)業(yè)公司 Sand AI 推出了自己的視頻生成大模型 ——MAGI-1。這是一個通過自回歸預(yù)測視頻塊序列來生成視頻的世界模型,生成效果自然流暢,還有多個版本可以下載。

以下是一些官方 demo:

提示詞(翻譯版):柔和的自然光:一個留著卷曲的紅棕色長發(fā)的年輕人站在盛開的白花中。花朵在主體周圍突出而豐富,創(chuàng)造了一個花卉背景。這個人似乎在花園或自然環(huán)境中,郁郁蔥蔥的綠葉在背景中模糊。孩子輕輕地彎下腰聞聞花香,然后慢慢睜開眼睛。她的臉上綻開了笑容,因為她很享受這一刻。相機(jī)一直聚焦在孩子身上,確保她始終站在鏡頭的中心。超高畫質(zhì),超高清,8K。

提示詞(翻譯版):特寫鏡頭:老船長目不轉(zhuǎn)睛地盯著鏡頭,嘴里叼著煙斗,縷縷青煙在他飽經(jīng)風(fēng)霜的臉上裊裊升起。 鏡頭開始緩慢地順時針旋轉(zhuǎn),向后拉開,最后,鏡頭高高升起,露出整艘木帆船在海浪中穿行,船長無動于衷,凝視著遠(yuǎn)方的地平線。

根據(jù)官方介紹,MAGI-1 生成的視頻具有以下特點:

1、流暢度高,不卡頓,可以無限續(xù)寫。它可以一鏡到底生成連續(xù)的長視頻場景,沒有尷尬的剪輯或奇怪的拼接,就像電影一樣流暢自然。

MAGI-1 生成的視頻。提示詞(翻譯版):地面鏡頭捕捉到茂密、生機(jī)勃勃的綠色草地,從上方射下的強(qiáng)光照亮了草地。草地?fù)u曳著向地平線延伸,通向一個狹窄的峽谷,峽谷兩側(cè)是陡峭的暗色巖層。天空在畫面頂端清晰可見,與周圍懸崖投下的陰影形成光源對比。鏡頭緊貼地面,拍攝輕輕搖擺的草葉。突然,攝影機(jī)加速向前,在茂密的草叢中迅速飛馳,營造出一種動態(tài)的前進(jìn)運(yùn)動。當(dāng)鏡頭保持低角度時,草叢模糊而過,突出了......

2、精準(zhǔn)時間軸控制。MAGI-1 是唯一具有秒級時間軸控制的模型 —— 你可以按自己設(shè)想的那樣,精準(zhǔn)地雕琢每一秒。

MAGI-1 生成的視頻。提示詞(翻譯版):畫面中央是一只巨大的眼睛,表面呈粉紅色,紋理清晰,瞳孔深黑色。眼睛似乎在眨動,周圍有皮膚褶皺。兩側(cè)是高聳、陰暗的未來派建筑,垂直延伸到背景中。環(huán)境光線昏暗,使眼睛在高樓大廈的襯托下更加突出。整體色調(diào)以灰色和黑色為主,與眼睛的粉紅色形成鮮明對比。這只巨大的眼睛緩緩眨動,眼瞼閉合,然后睜開,露出一個黑色的大瞳孔。眼睛完全睜開后,瞳孔開始左右移動,掃視四周。攝像機(jī)持續(xù)對準(zhǔn)眼睛,確保眼睛始終保持在鏡頭中心。超高畫質(zhì),超高清,8K。

3、運(yùn)動更加自然,更有生機(jī)。不少 AI 生成的視頻,畫面動作不是慢吞吞,就是僵硬死板、幅度過小。Magi-1 克服了這些問題,生成的動作更加流暢、有活力,且場景切換更加順滑。

MAGI-1 生成的視頻。提示詞(翻譯版):一個黑發(fā)卷曲的年輕女孩正在拉小提琴。樂器靠近她的肩膀,她的手放在琴弓上,在琴弦上移動。背景是昏暗的燈光,強(qiáng)調(diào)她的身材和小提琴。她穿著一件深色毛衣。一個女孩拉著小提琴,在琴弦上前后拉著琴弓。相機(jī)緩慢而平穩(wěn)地圍繞著她旋轉(zhuǎn),將焦點集中在她使用樂器的動態(tài)動作上。超高畫質(zhì),超高清,8K。

效果究竟如何?機(jī)器之心做了一些簡單的測試。

首先,先來一張奧特曼的「OK 照」,并使用提示詞「圖中人物捶胸頓足大笑」。

sp_250312_091048.png

可以看到,MAGI-1 首先會對用戶輸入的提示詞進(jìn)行增強(qiáng),得到更詳細(xì)的提示詞:

sp_250422_094331.png

之后,MAGI-1 會使用這個新提示詞進(jìn)行生成。我們等待了 4 分鐘,得到了結(jié)果,效果還算不錯。

接下來,我們又試了一下讓「走紅毯的馬斯克」與左邊的人握手,隨后跳舞,結(jié)果生成效果也不錯。

同時,Sand AI 也提供了視頻擴(kuò)展功能,可以沿著之前生成視頻或用戶上傳視頻繼續(xù)生成新的視頻片段,并且無需用戶自己手動拼接 —— 會直接輸出經(jīng)過擴(kuò)展后的更長視頻。用戶只需設(shè)置每次擴(kuò)展生成的持續(xù)時間為 1 秒,便可以實現(xiàn)「以一秒為單位做精細(xì)化控制」。

sp_250422_103020.png

在測試過程中我們發(fā)現(xiàn),MAGI-1 目前支持 1-10 秒長度的視頻生成,單個生成每秒耗費(fèi) 10 點積分。初始注冊用戶可以免費(fèi)獲得 500 積分。

當(dāng)然,免費(fèi)額度用完了,用戶也可以選擇繼續(xù)付費(fèi)使用。Sand AI 提供了訂閱制和積分制兩種付費(fèi)模式,其相應(yīng)的價格如下。

sp_250422_101835.png

image.png

此外,由于 Sand AI 開源了 MAGI-1 的幾個版本,我們也可以下載之后本地運(yùn)行。

圖片

MAGI-1 的發(fā)布在海外引起了一些轟動,開源大神 Simo Ryu 發(fā)帖提問,想要了解 Sand AI背后是怎樣一個團(tuán)隊。OpenAI 研究員 Lucas beyer 則給出了自己收集到的資料,看來他也在關(guān)注 Sand AI。

圖片

圖片

MAGI-1 模型介紹

我們可以通過團(tuán)隊披露的信息來了解這個模型的技術(shù)創(chuàng)新。

MAGI-1 是一種通過自回歸預(yù)測視頻塊序列生成視頻的世界模型,視頻塊被定義為連續(xù)幀的固定長度片段。MAGI-1 可對隨時間單調(diào)增加的每塊噪聲進(jìn)行去噪訓(xùn)練,從而實現(xiàn)因果時間建模,并自然支持流式生成。

它在以文本指令為條件的圖像到視頻(I2V)任務(wù)中表現(xiàn)出色,提供了高度的時間一致性和可擴(kuò)展性,這得益于多項算法創(chuàng)新和專用的基礎(chǔ)架構(gòu)棧。MAGI-1 還通過分塊提示進(jìn)一步支持可控生成,實現(xiàn)了平滑的場景轉(zhuǎn)換、長視距合成和細(xì)粒度文本驅(qū)動控制。

Sand AI 團(tuán)隊表示,MAGI-1 為統(tǒng)一高保真視頻生成、靈活指令控制和實時部署提供了一個很有前途的方向。

在項目主頁中,團(tuán)隊提供了 MAGI-1 的預(yù)訓(xùn)練權(quán)重,包括 24B 和 4.5B 模型,以及相應(yīng)的 distill 和 distill+quant 模型。

模型細(xì)節(jié)如下(更多詳情可參閱技術(shù)報告):

基于 Transformer 的 VAE

  • 變分自編碼器 (VAE) + 基于 transformer 的架構(gòu),空間壓縮率為 8 倍,時間壓縮率為 4 倍。
  • 最快的平均解碼時間和極具競爭力的重建質(zhì)量。

自回歸去噪算法

MAGI-1 逐塊生成視頻,而不是整體生成。每個片段(24 幀)都是整體去噪的,當(dāng)前片段達(dá)到一定的去噪水平時,就開始生成下一個片段。這種流水線設(shè)計可同時處理多達(dá)四個片段,從而實現(xiàn)高效的視頻生成。

image.png

擴(kuò)散模型架構(gòu)

MAGI-1 建立在 DiT 的基礎(chǔ)上,融入了多項關(guān)鍵創(chuàng)新,以提高大規(guī)模訓(xùn)練的效率和穩(wěn)定性。相關(guān)技術(shù)包括因果注意力 block、并行注意力 block、QK-Norm 和 GQA、FFN 中的三明治層歸一化、SwiGLU 和 Softcap Modulation。

image.png

蒸餾算法

MAGI-1 采用了一種快捷的蒸餾方法,訓(xùn)練了一個基于速度的模型,以支持不同的推理預(yù)算。通過強(qiáng)制執(zhí)行自一致性約束,即將一個大步長等同于兩個小步長,模型學(xué)會了在多個步長范圍內(nèi)逼近流匹配軌跡。

在訓(xùn)練過程中,步長從 {64, 32, 16, 8} 中循環(huán)采樣,并采用無分類器引導(dǎo)蒸餾法來保持條件對齊。這樣就能以最小的保真度損失實現(xiàn)高效推理。

評估

內(nèi)部人工評估。在開源模型中,MAGI-1 實現(xiàn)了最先進(jìn)的性能(超過 Wan-2.1,明顯優(yōu)于 Hailuo 和 HunyuanVideo),尤其是在指令遵循和運(yùn)動質(zhì)量方面表現(xiàn)出色,使其成為 Kling 等閉源商業(yè)模型的潛在有力競爭者。

image.png

物理評估。得益于自回歸架構(gòu)的天然優(yōu)勢,Magi 在通過視頻連續(xù)性預(yù)測物理行為方面實現(xiàn)了遠(yuǎn)超常人的精度,明顯優(yōu)于所有現(xiàn)有模型。

截屏2025-04-22 10.35.50.png

成立一年多,Sand AI拿出全球首個自回歸視頻生成大模型

Sand AI 創(chuàng)立于 2024 年 1 月,由曹越、張拯等人聯(lián)合創(chuàng)立。

創(chuàng)始人曹越是清華大學(xué)軟件工程博士。在讀博期間,曹越的研究方向就是機(jī)器學(xué)習(xí)和計算機(jī)視覺。2019 年獲博士學(xué)位后,他加入微軟亞洲研究院,在此期間的代表作包括 Swin Transformer(獲 ICCV 馬爾獎)、GCNet、VL-BERT 和 DAN 等。同時,曹越還是清華大學(xué)特等獎學(xué)金得主。目前,曹越的谷歌被引量已經(jīng)接近 6 萬次。

image.png

聯(lián)合創(chuàng)始人張拯本碩均畢業(yè)于華中科技大學(xué)軟件工程專業(yè),也是 Swin Transformer 作者之一。他也曾在微軟亞洲研究院工作,與曹越合作五年,并與曹越一起獲得 ICCV2021 最佳論文獎(馬爾獎)。根據(jù) Google Scholar 統(tǒng)計數(shù)據(jù),張拯的被引量接近 5 萬次。

image.png

截至目前,Sand AI 共融資近六千萬美金。連續(xù)三輪融資分別由源碼、今日、經(jīng)緯領(lǐng)投,跟投方包含華業(yè)天成、創(chuàng)新工場、IDG、襄禾、商湯國香以及知名個人投資者。

Sand AI 這次發(fā)布的 MAGI-1 是全球首個自回歸視頻生成大模型,這是 2025 年備受關(guān)注的圖像、視頻生成技術(shù)路線。前段時間,OpenAI 在 GPT-4o 的報告中也提到,GPT-4o 圖像生成是原生嵌入在 ChatGPT 中的自回歸模型。

在公司官網(wǎng)上,我們看到他們的下一步計劃是實現(xiàn)視頻的實時、快速生成,讓他們的 AI 模型實現(xiàn)從「創(chuàng)作工具」到實時體驗的升級。

期待該公司的下一步進(jìn)展。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-12-12 08:35:58

2023-04-03 10:04:44

開源模型

2025-02-27 13:45:00

2025-04-22 09:17:00

模型生成開源

2024-09-23 15:40:00

2024-07-30 11:50:00

視頻生成

2025-04-22 15:29:05

AI開源代碼

2024-09-24 15:51:02

2025-01-16 08:30:00

LLMAI訓(xùn)練

2022-09-04 19:22:46

開發(fā)科技

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2025-02-18 13:52:02

2024-07-04 10:13:18

2025-04-21 08:20:00

視覺模型訓(xùn)練

2025-06-12 11:57:56

視頻生成模型AI

2025-03-13 10:26:45

2024-10-22 09:40:00

模型生成

2025-05-29 04:15:00

SoraAI視頻
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 在线一级片 | 最新超碰 | 国外成人在线视频网站 | 欧美久久久久久久久中文字幕 | 老妇激情毛片免费 | 在线播放国产视频 | 亚洲 精品 综合 精品 自拍 | 日韩欧美在线播放 | 国产一区二区三区久久久久久久久 | 日日操夜夜操天天操 | 在线超碰| 欧美v免费 | 久久综合成人精品亚洲另类欧美 | h片免费看 | 久久国产一区二区三区 | 色久伊人 | 国产精品99久久久久久动医院 | 在线免费看91 | 在线视频亚洲 | 日韩中文字幕在线 | 国产色婷婷精品综合在线手机播放 | 成人免费视频一区 | 中文字幕在线不卡 | 欧美在线视频一区二区 | 在线观看www | 日韩中文字幕第一页 | 久草在线 | 毛片视频网站 | 国产一区二区三区在线免费观看 | 午夜视频精品 | 久久久看 | 中文字幕在线一 | 亚洲日本欧美日韩高观看 | 精品国产成人 | 日韩一区二区在线免费观看 | 丁香一区二区 | 日韩乱码在线 | 午夜激情视频在线 | 国产精品污www一区二区三区 | 99精品电影 | 在线视频一区二区三区 |