全球最大開源視頻模型，現在也Created in China了

作者：量子位 2025-02-18 13:30:00

人工智能新聞

在兩款大模型的研發過程中，雙方在算力算法、場景訓練等領域優勢互補，“顯著增強了多模態大模型的性能表現”。

剛剛，階躍星辰聯合吉利汽車集團，開源了兩款多模態大模型！

新模型共2款：

全球范圍內參數量最大的開源視頻生成模型Step-Video-T2V
行業內首款產品級開源語音交互大模型Step-Audio

多模態卷王開始開源多模態模型，其中Step-Video-T2V采用的還是最為開放寬松的MIT開源協議，可任意編輯和商業應用。

（老規矩，GitHub、抱抱臉、魔搭直通車可見文末）

在兩款大模型的研發過程中，雙方在算力算法、場景訓練等領域優勢互補，“顯著增強了多模態大模型的性能表現”。

從官方公布的技術報告來看，這次開源的兩款模型在Benchmark中表現優秀，性能超過國內外同類開源模型。

抱抱臉官方也轉發了中國區負責人給予的高度評價。

劃重點，“The next DeepSeek”、“HUGE SoTA”。

哦，是嗎？

那量子位可要在本篇文章中掰開技術報告+一手實測，看看它們是否名副其實。

量子位求證，目前，本次2款新的開源模型都已接入躍問App，人人可以體驗。

多模態卷王首次開源多模態模型

Step-Video-T2V和Step-Audio，是階躍星辰首次開源的多模態模型。

Step-Video-T2V

先來看看視頻生成模型Step-Video-T2V。

它的參數量達到30B，是目前已知全球范圍內參數量最大的開源視頻生成大模型，原生支持中英雙語輸入。

官方介紹，Step-Video-T2V共有4大技術特點：

第一，可直接生成最長204幀、540P分辨率的視頻，確保生成的視頻內容具有極高的一致性和信息密度。

第二，針對視頻生成任務設計并訓練了高壓縮比的Video-VAE，在保證視頻重構質量的前提下，能夠將視頻在空間維度壓縮16×16倍，時間維度壓縮8倍。

當下市面上多數VAE模型壓縮比為8x8x4，在相同視頻幀數下，Video-VAE能額外壓縮8倍，故而訓練和生成效率都提升64倍。

第三，針對DiT模型的超參設置、模型結構和訓練效率，Step-Video-T2V了進行深入的系統優化，確保訓練過程的高效性和穩定性。

第四，詳細介紹了預訓練和后訓練在內的完整訓練策略，包括各階段的訓練任務、學習目標以及數據構建和篩選方式。

此外，Step-Video-T2V在訓練最后階段引入Video-DPO（視頻偏好優化）——這是一種針對視頻生成的RL優化算法，能進一步提升視頻生成質量，強化生成視頻的合理性和穩定性。

最終效果，是讓所生成視頻中的運動更流暢、細節更豐富、指令對齊更準確。

為了全面評測開源視頻生成模型的性能，階躍此次一并發布了針對文生視頻質量評測的新基準數據集Step-Video-T2V-Eval。

該數據集也一并開源了～

它包含128條源于真實用戶的中文評測問題，旨在評估生成視頻在11個內容類別上的質量，包括運動、風景、動物、組合概念、超現實等等。

Step-Video-T2V-Eval在其上的評測結果，見下圖：

可以看到，Step-Video-T2V在指令遵循、運動平滑性、物理合理性、美感度等方面，表現均超越此前最佳的開源視頻模型。

這意味著，整個視頻生成領域，都可以基于這個新的最強基礎模型來進行研究與創新。

而實際效果方面，階躍官方介紹：

生成效果，Step-Video-T2V在復雜運動、美感人物、視覺想象力、基礎文字生成、原生中英雙語輸入和鏡頭語言等方面具備強大的生成能力，且語義理解和指令遵循能力突出，能夠高效助力視頻創作者實現精準創意呈現。

還等什么？實測走起——

按照官方介紹的順序，第一關，測試Step-Video-T2V能否hold住復雜運動。

之前的視頻生成模型，在生成芭蕾/國標/中國舞、藝術體操、空手道、武術等各類復雜性運動片段中，總會出現奇奇怪怪的畫面。

比如突然冒出來的第三條腿，交叉融合的雙臂等等，怪嚇人的。

針對這類情況，我們進行定向測試，丟給Step-Video-T2V一段prompt：

室內羽毛球場，平視視角，固定鏡頭記錄了一段男子打羽毛球的場景。一名身穿紅色短袖、黑色短褲的男子，手持羽毛球拍，站在綠色的羽毛球場地中央。球網橫跨場地，將場地分為兩部分。男子揮拍擊球，將羽毛球擊向對面。光線明亮均勻，畫面清晰。

然后得到：

場景、人物、鏡頭、光線、動作，統統吻合。

生成畫面中含「美感人物」，則是量子位對Step-Video-T2V發起的第二關挑戰。

講道理，現在文生圖模型生成真人圖片的level，在靜態、局部細節上，絕對是可以以假亂真的。

但視頻生成時，人物一旦動起來，仍存在可辨識的物理或邏輯瑕疵。

而Step-Video-T2V的表現嘛——

Prompt：一位男性，身穿黑色西裝，搭配深色領帶和白色襯衫，臉部帶有傷痕，表情凝重。特寫鏡頭。

“沒什么AI感?！?/strong>

這是量子位編輯部同學們傳閱一遍過后，對視頻中小帥的一致評價。

既是五官端正，皮膚紋理真實，臉上傷痕清晰可見的那種“沒什么AI感”。

也是逼真但主人公并沒出現眼神空洞、表情僵硬的那種“沒什么AI感”。

上面兩關，都讓Step-Video-T2V保持在固定鏡頭機位。

那么，推拉搖移，表現如何？

第三關，考驗Step-Video-T2V對運鏡的掌握，比如推拉搖移，旋轉、跟隨。

要它旋轉，它就旋轉：

要它移動與跟隨，它就給你移動與跟隨：

還挺不賴！可以肩扛斯坦尼康，去片場當運鏡大師了（不是）。

一番測試下來，生成效果給出答案：

Step-Video-T2V確如評測集結果那樣，在語義理解和指令遵循能力突出。

甚至基礎文字生成也輕松拿捏：

Step-Audio

同時開源的另一款模型Step-Audio，是行業內首個產品級的開源語音交互模型。

在階躍自建并開源的多維度評估體系StepEval-Audio-360基準測試上，Step-Audio在邏輯推理、創作能力、指令控制、語言能力、角色扮演、文字游戲、情感價值等維度，均取得最佳成績。

在LlaMA Question、Web Questions等5大主流公開測試集中，Step-Audio性能均超過了行業內同類型開源模型，位列第一。

可以看到，它在HSK-6（漢語水平考試六級）評測中的表現尤為突出。

實測如下：

階躍團隊介紹，Step-Audio能夠根據不同的場景需求生成情緒、方言、語種、歌聲和個性化風格的表達，能和用戶自然地高質量對話。

同時，由其生成的語音不僅具有逼真自然、高情商等特征，還能實現高質量的音色復刻并進行角色扮演。

總之，影視娛樂、社交、游戲等行業場景下應用需求，Step-Audio包讓你一整個大滿足的。

階躍開源生態，正在滾雪球

怎么說呢，就一個字：卷。

階躍是真卷啊，尤其是在自家拿手好戲多模態模型方面——

旗下Step系列中的多模態模型，自打出生以來，就是國內外各大權威評測集、競技場等的第一名?？?。

只看最近3個月，都已經數次勇奪榜首。

去年11月22日，大模型競技場最新榜單，多模態理解大模型Step-1V上榜，總分與Gemini-1.5-Flash-8B-Exp-0827持平，位列視覺領域中國大模型第一。
今年1月，國內大模型評估平臺“司南”（OpenCompass）多模態模型評測實時榜單，剛出爐的Step-1o系列模型拿下第一。
同日，大模型競技場最新榜單，多模態模型Step-1o-vision拿下國內視覺領域大模型第一。

其次，階躍的多模態模型不僅性能好、質量佳，研發迭代頻率也很高——

截至目前，階躍星辰已經先后發布了11款多模態大模型。

上個月，6天連發6模型，覆蓋語言、語音、視覺、推理全賽道，進一步做實多模態卷王稱號。

這個月又開源2款多模態模型。

只要穩定住這個節奏，就能繼續且持續地證明自己「全家桶級多模態玩家」的地位。

憑借強大的多模態實力，2024年開始，市場和開發者們就已經認可并廣泛接入階躍API，形成了龐大的用戶基礎。

大眾消費品，如茶百道，就讓全國數千家門店接入多模態理解大模型Step-1V，探索大模型技術在茶飲行業的應用，進行智能巡檢、AIGC 營銷。

公開數據顯示，平均每天上百萬杯茶百道茶飲在大模型智能巡檢的守護下送到消費者手中。

而Step-1V平均每天能夠為茶百道督導員節約75%的自檢核驗時間，為茶飲消費者提供了更加安心和優質的服務。

獨立開發者，如網紅AI應用“胃之書”、AI心理療愈應用“林間聊愈室”在對國內大部分模型做過AB測試后，最終都選擇了階躍多模態模型API。

（小聲：因為用它，付費率最高）

具體數據顯示，2024年下半年，階躍多模態大模型API的調用量增長超45倍。

再說到，此次開源，開源的就是階躍自家最擅長的多模態模型。

我們注意到，已經積累市場和開發者口碑及數量的階躍，此次開源，從模型側就在為后續深入接入做考慮。

一方面，Step-Video-T2V采用了是最為開放寬松的MIT開源協議，可任意編輯和商業應用。

可以說，「毫不隱藏」。

另一方面，階躍表示“全力降低產業接入門檻”。

就拿Step-Audio來說吧，不同于市面上的開源方案需要經過再部署和再開發等工作量，Step-Audio是一整套實時對話方案，只要簡單部署上就能直接實時對話。

零幀起手就能享受端到端體驗。

一整套動作下來，圍繞階躍星辰和它手中的多模態模型王牌，已經初步形成了獨屬于階躍的開源技術生態。

在這個生態中，技術、創意和商業價值相互交織，共同推動著多模態技術的發展。

而且隨著階躍模型的繼續研發、迭代，開發者的迅速、持續接入，生態伙伴的助力、合力，階躍生態的“滾雪球效應”，已經發生，并正在壯大。

中國開源力量正在并肩用實力說話

曾幾何時，提起大模型開源領域的佼佼者，人們腦中浮現出的是Meta的LLaMA，是Albert Gu的Mamba。

到了現在，毋庸置疑，中國大模型屆的開源力量已經閃耀全球，用實力改寫“刻板印象”。

1月20日，蛇年春節前夕，是一個國內外大模型神仙打架的日子。

最矚目的是，DeepSeek-R1在這一天問世，它推理性能比肩OpenAI o1，成本卻僅后者1/3。

影響之巨大，一夜讓英偉達蒸發5890億美元（約合人民幣4.24萬億元），創下美股單日跌幅最大紀錄。

更重要也更耀眼的是，R1之所以上升到億萬人為之興奮的高度，除了推理優異、價格親民，更重要的是它身上的開源屬性。

一石激起千層浪，連長期被戲謔「不再open」的OpenAI，都有CEO奧特曼屢次出來公開發言。

奧特曼說：“在開源權重AI模型這個問題上，（個人認為）我們站在了歷史錯誤的一邊。”

他還說：“世界上確實需要開源模型，它們可以為人們提供大量價值。我很高興，世界上已經有一些優秀的開源模型?！?/p>

現在，階躍也開始開源手里的新王牌了。

并且開源是初衷。

官方表示，開源Step-Video-T2V和Step-Audio，目的就是促進大模型技術的共享與創新，推動人工智能的普惠發展。

開源一出場就憑實力在多個評測集上秀一把。

現在的開源大模型的牌桌上，DeepSeek強推理，階躍Step重多模態，還有各式各樣持續發育的選手……

它們的實力不僅是在開源圈子里拔尖，放眼整個大模型圈子，都很夠看。

——中國開源力量，在嶄露頭角后，正在更進一步。

以階躍這次開源為例，突破的是多模態領域的技術，改變的是全球開發者的選擇邏輯。

Eleuther AI等很多開源社區活躍的技術大v，紛紛主動下場測試階躍的模型，“感謝中國開源”。

抱抱臉中國區負責人王鐵震直接表示，階躍會是下一個“DeepSeek”。

從「技術突圍」到「生態開放」，中國大模型的路越走越穩。

話說回來，階躍今次開源雙模型，或許只是2025年AI競賽的一個注腳。

更深層次的，它展現了中國開源力量的技術自信，并傳遞出一個信號：

未來的AI大模型世界，中國力量絕不缺席，也絕不落于人后。

【Step-Video-T2V】

GitHub：https://github.com/stepfun-ai/Step-Video-T2V抱抱臉：https://huggingface.co/stepfun-ai/stepvideo-t2v魔搭Model Scope：https://modelscope.cn/models/stepfun-ai/stepvideo-技術報告：https://arxiv.org/abs/2502.10248體驗入口https://yuewen.cn/videos

【Step-Audio】

GitHub：https://github.com/stepfun-ai/Step-Audio抱抱臉：https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b魔搭Model Scope：https://modelscope.cn/collections/Step-Audio-a47b227413534a技術報告：https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf

責任編輯：張燕妮來源：量子位

開源模型 AI

分享到微信

微信掃碼分享

分享到微博

相關推薦

全球最大開源大模型！馬斯克正式開源Grok AI
現在，任何其他企業家、程序員、公司或個人都可以體驗和測試Grok——模型的人工神經元或軟件模塊之間的連接強度，這些模塊使模型能夠做出決策、接受輸入并以文本形式提供輸出——以及其他相關文檔，并將模型的副本用于任何他們想要的東西，包括商業應用。

2024-03-18 14:17:06

大模型開源人工智能

阿里云技術專家入選全球最大開源社區Apache Member
近日，全球最大開源社區Apache軟件基金會（ApacheSoftwareFoundation，以下簡稱ASF）公布新活躍成員（Member），阿里云技術專家張乎興入選。全球共有771位ASFMember，中國僅13位。

2019-05-16 13:35:40

阿里云技術專家開源

全球最大開源模型再刷爆紀錄！4800億參數MoE擊敗Llama 3、Mixtral
最大開源模型，再次刷爆紀錄！Snowflake的Arctic，以128位專家和4800億參數，成為迄今最大的開源模型。它的特點，是又大又稀疏，因此計算資源只用了不到Llama38B的一半，就達到了相同的性能指標。

2024-04-25 13:58:51

開源模型 Vicuna

浪潮與全球最大開源廠商紅帽簽署戰略合作協議
浪潮與世界領先的開源廠商紅帽公司簽署戰略合作協議，雙方基于紅帽全新一代企業操作系統——奠定開放混合云基礎的紅帽企業Linux7，以及浪潮9大類x86平臺產品展開全面的戰略性合作。紅帽全球戰略聯盟副總裁ScottMusson、浪潮集團副總裁胡雷鈞、紅帽大中華區總裁張先民博士等人出席了本次簽約儀式。

2014-09-25 16:03:37

浪潮開源紅帽

世界上最大開源平臺，被殘酷地拋棄了！
其實對于2010后入行的程序員來說，一開始接觸的就是Git和GitHub，習慣了pullrequest的開發者也許并不知道，世界上還存在用郵件發送patch這樣原始的活動。

2024-05-28 09:17:57

益博睿：立足全球視野，“In China，For China”
連日來，新型冠狀病毒感染肺炎疫情牽動著每個中國人的心。截止2月20日發稿時，全國已累計確診74280例。放眼疫情當下，各地門店歇業，企業復工延緩，學校延遲開學……其中，有相當部分的中小企業懸掛在生死一線，遭遇生產經營難題。

2020-02-20 09:10:52

企業信貸反欺詐益博睿

港科大開源VideoVAE+，視頻重建質量全面超越最新模型
VideoVAE模型（VideoVariationalAutoencoder）是一種基于深度學習的生成模型，用于對視頻數據進行壓縮、重建和生成，講視頻從RGB像素空間投影到低維度的latent空間。

2024-12-30 13:40:00

別用Docker了，這七大開源容器化工具也能滿足你！
盡管Docker為組織在容器化過程中所需的各個方面提供了一個全面的工具包，但某些DevOps功能可能需要探索其他替代方案。

2022-10-08 09:41:09

Docker 容器

微信也在用的Transformer加速推理工具，現在騰訊開源了
近年來，基于Transformer的模型，可以說是在NLP界殺出了一片天地。雖然在提高模型模型精度上，Transformer發揮了不容小覷的作用，但與此同時，卻引入了更大的計算量。

2020-04-26 11:40:18

工具開源騰訊

9大開源云管理平臺，收藏了
云管理平臺(CMP)是具有集成工具的綜合軟件套件，企業可以使用它來監控和控制云計算資源。市場上有許多CMP，包括開源的和專有的。這里為大家推薦9款市場上開源云平臺。

2019-11-21 14:39:42

開源云管理私有云

硬剛“CloseAI”，馬斯克如期開源Grok，最大開源大語言模型一夜易主！
開源模型對大模型發展的重要性不言而喻。此前曾有人判斷，隨著時間的推移，開源大模型中終會跑出王者，將OpenAI甩到身后。因為無數程序員的調用和調優所做出的貢獻，要遠超一小撮硅谷精英所能做的工作。就像今天的Android之于蘋果一樣。

2024-03-18 13:21:13

全球最大開源軟件平臺擬設中國分公司
GitHub或正式登陸中國！據外媒報道，全球最大的軟件開發平臺GitHub計劃在中國開設分公司。此前GitHub曝出封禁“受美國制裁”國家賬號，引起輿論嘩然。

2019-12-11 10:20:23

GitHub 代碼開發者

最大開源項目：玩游戲就能學會編程
CodeCombat是一個通過玩游戲來學習編程的網站，也是GitHub上最大的開源CoffeeScript（一種腳本語言，類似JavaScript）項目，有上千程序員和玩家為其編寫程序、測試游戲。到目前為止，已經翻譯成17種國外語言。最近，該網站將所有源代碼提交到GitHub上，實現了全面開源。

2014-02-24 14:34:49

IBM赴中國西部建全球最大開發中心
IBM公司將正式宣布設立第四個業務大區——IBM大中華區軟件集團華西區，并在西安建立IBM中國開發中心（中國西部）、IBM全球分析軟件實驗室和IBM區域軟件成長中心。

2010-03-23 10:01:02

IBM開發中心

國內最大開源模型發布，無條件免費商用！參數650億，基于2.6萬億token訓練
而業界普遍共識是達到500到600億參數門檻，大模型才能“智能涌現”，在多任務中展現強大性能。

2023-11-06 11:26:55

模型開源

現在，用音頻也能指揮GAN生成圖像了
現在，有人“靈機一動”，從CLIP中學習了一種音頻表示方法。用這個方法搭配VQGANCLIP，就能實現聲音到圖像的轉變！

2021-11-02 09:25:00

AI 數據人工智能

德國關閉了全球最大暗網市場 Hydra
Hydra平臺關閉不久后，德國中央打擊網絡犯罪辦公室（ZIT）和聯邦刑事警察局（BKA）發布公告表示，2020年，Hydra市場的營業額約為13.5億美元，使其成為世界上最大的暗網市場。

2022-04-06 15:21:53

暗網網絡犯罪

剛剛，Meta開源「分割一切」2.0模型，視頻也能分割了
剛剛，Meta在SIGGRAPH上重磅宣布SegmentAnythingModel2(SAM2)來了。在其前身的基礎上，SAM2的誕生代表了領域內的一次重大進步——為靜態圖像和動態視頻內容提供實時、可提示的對象分割，將圖像和視頻分割功能統一到一個強大的系統中。

2024-07-30 10:51:51

Created by“開源”，Run by“海云捷迅”
驕陽六月，開源熱情不減反增!“2018OpeninfraDaysChina”于北京國家會議中心拉開帷幕。作為國內開源領域專業且權威的盛會，自2016年首次進入中國后，便受到了國內眾多開源人及開源產業圈的強烈關注和響應。然而，今年的盛會不僅包含了OpenStack技術相關領域

2018-06-22 13:25:34

相似話題

機器學習
 2033內容

深度學習
 1699內容

自然語言處理
 110內容

語音識別
 107內容
全部話題

同話題下的熱門內容

Google 正式發布 Gemini 2.5 系列穩定模型 PyTorch 從 0 到 1：超詳細的安裝與入門實戰指南大型語言模型微調全攻略：從理論到實戰的終極指南谷歌重磅開源Gemini CLI：免費AI工具，居然要干掉GitHub Copilot？硬剛Claude！谷歌上線免費終端AI編程工具，立省 200 刀？網友實測卻翻車：功能不行、還要偷我數據訓練Gemini 3？為什么MCP能爆火，但ChatGPT插件之流全都死了？神貼斷言：MCP吞噬一切！網友：炒作太過，本質還是重復造輪子！首個遠程容器化Agent！手機寫應用，廁所里部署！網友：比氛圍編程還牛！異步編程時代來了！大神回應四不像質疑：自己其實也沒想到馬斯克放大招：Robotaxi 真的來了！首批10輛開跑，千萬網友圍觀，全網猜測：安全監控員干啥的？網友：不知道該怎么定義接管了

相關專題更多

HarmonyOS NEXT 高效開發與創新實踐

馭浪者無疆：蛻變新生，以定馭變

2025-06-04 14:38:36

開發者成長學院 | 成長有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內容

微博

QQ

微信

復制鏈接

微信掃碼分享

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看