成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

VDC+VBench雙榜第一!強(qiáng)化學(xué)習(xí)打磨的國產(chǎn)視頻大模型,超越Sora、Pika

人工智能 新聞
復(fù)旦大學(xué)等機(jī)構(gòu)提出了 Cockatiel 方法 [3],該方法在權(quán)威的 VDC(Video Detailed Captioning 視頻細(xì)粒度文本描述評測集)榜單上獲得第一名,超過了包括通義千問 2-VL、VILA1.5、LLaVA-OneVision,Gemini-1.5 等在內(nèi)的多個主流視頻理解多模態(tài)大模型。

隨著 Deepseek 等強(qiáng)推理模型的成功,強(qiáng)化學(xué)習(xí)在大語言模型訓(xùn)練中越來越重要,但在視頻生成領(lǐng)域缺少探索。復(fù)旦大學(xué)等機(jī)構(gòu)將強(qiáng)化學(xué)習(xí)引入到視頻生成領(lǐng)域,經(jīng)過強(qiáng)化學(xué)習(xí)優(yōu)化的視頻生成模型,生成效果更加自然流暢,更加合理。并且分別在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 兩大國際權(quán)威榜單中斬獲第一。

視頻細(xì)粒度文本描述

視頻細(xì)粒度文本描述模型(video detailed caption)為視頻生成模型提供標(biāo)簽,是視頻生成的基礎(chǔ)。復(fù)旦大學(xué)等機(jī)構(gòu)提出了 Cockatiel 方法 [3],該方法在權(quán)威的 VDC(Video Detailed Captioning 視頻細(xì)粒度文本描述評測集)榜單上獲得第一名,超過了包括通義千問 2-VL、VILA1.5、LLaVA-OneVision,Gemini-1.5 等在內(nèi)的多個主流視頻理解多模態(tài)大模型。

圖片


圖片

  • 論文標(biāo)題:Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption
  • 項目主頁: https://sais-fuxi.github.io/projects/cockatiel/
  • 論文地址: https://arxiv.org/pdf/2503.09279
  • Github: https://github.com/Fr0zenCrane/Cockatiel

Cockatiel 的核心思路是:基于人類偏好對齊的高質(zhì)量合成數(shù)據(jù),設(shè)計三階段微調(diào)訓(xùn)練流程,系統(tǒng)集成了多個在不同描述維度上表現(xiàn)領(lǐng)先的模型優(yōu)勢。通過這一方法,以單機(jī)的訓(xùn)練成本訓(xùn)練出了一套在細(xì)粒度表達(dá)、人類偏好一致性等方面均表現(xiàn)卓越的視頻細(xì)粒度描述模型,為后續(xù)視頻生成模型的訓(xùn)練和優(yōu)化打下了堅實基礎(chǔ),模型細(xì)節(jié)如下(更多詳情可參考論文和開源 github):

圖片

  • 階段一:構(gòu)造視頻細(xì)粒度描述的人類偏好數(shù)據(jù):分別對視頻描述的對象、對象特征、動態(tài)特征、鏡頭動作和背景的文本描述質(zhì)量進(jìn)行人工標(biāo)注。
  • 階段二:基于打分器的多模型集成訓(xùn)練:基于人工標(biāo)注數(shù)據(jù)訓(xùn)練獎勵函數(shù)(reward model),并多個模型合成的視頻描述計算獎勵(reward),最終對 13B 的多模態(tài)大語言模型進(jìn)行人類偏好對齊優(yōu)化。
  • 階段三:蒸餾輕量化模型:基于上一步訓(xùn)練的 13B 的多模態(tài)大語言模型蒸餾 8B 模型,方便后續(xù)在下游任務(wù)中低成本推理。

實驗結(jié)果顯示基于 Cockatiel 系列模型生成的視頻細(xì)粒度描述,具備維度全面、敘述精準(zhǔn)詳實以及幻覺現(xiàn)象較少的顯著優(yōu)勢。如下圖所示,與 ViLA,LLaVA 和 Aria 的基線模型相比,Cockatiel-13B 不僅能夠準(zhǔn)確復(fù)現(xiàn)基線模型所描述的細(xì)節(jié)(以黃底高亮部分表示),還能捕捉到基線模型遺漏的關(guān)鍵信息(以紅底高亮部分表示)。而 Cockatiel 生成的描述則大量避免了幻覺性內(nèi)容,Cockatiel 展現(xiàn)了更高的可靠性和準(zhǔn)確性。

圖片

強(qiáng)化學(xué)習(xí)加強(qiáng)的視頻生成技術(shù)

在視頻生成領(lǐng)域,該團(tuán)隊首次提出了迭代式強(qiáng)化學(xué)習(xí)偏好優(yōu)化方法 IPOC [4],在權(quán)威視頻生成評測榜單 VBench (2025-04-14) 上,IPOC 以 86.57% 的總分強(qiáng)勢登頂,領(lǐng)先通義萬相、Sora、HunyuanVideo、Minimax、Gen3、Pika 等眾多國內(nèi)外知名視頻生成模型。

圖片

圖片

  • 論文標(biāo)題:IPO: Iterative Preference Optimization for Text-to-Video Generation
  • 論文地址:https://arxiv.org/pdf/2502.02088
  • 項目主頁:https://yangxlarge.github.io/ipoc//
  • GitHub 地址:https://github.com/SAIS-FUXI/IPO

研究者通過迭代式強(qiáng)化學(xué)習(xí)優(yōu)化方式,避免了強(qiáng)化學(xué)習(xí)中訓(xùn)練不穩(wěn)定的問題。同時只需要依賴少量的訓(xùn)練數(shù)據(jù)和算力,以低成本實現(xiàn)效果優(yōu)化。 模型細(xì)節(jié)如下(更多詳情可參考論文和開源 github):

圖片

階段一:人工偏好數(shù)據(jù)標(biāo)注:IPO 方法通過逐視頻打分(Pointwise Annotation)與成對視頻排序(Pairwise Annotation)兩種方式進(jìn)行人工標(biāo)注。標(biāo)注過程中,標(biāo)注者不僅需要提供評分或排序結(jié)果,還需詳細(xì)闡述評分理由,以構(gòu)建具有思維鏈(Chain-of-Thought, CoT)風(fēng)格的標(biāo)注數(shù)據(jù)。這種標(biāo)注形式有助于模型深入理解視頻內(nèi)容與文本描述之間的語義一致性,從而形成高質(zhì)量的人類偏好數(shù)據(jù)集。

階段二:獎勵模型訓(xùn)練:IPO 方法進(jìn)一步引入了一種基于多模態(tài)大模型的 “獎勵模型”(Critic Model)。獎勵模型僅通過少量人工標(biāo)注數(shù)據(jù)和少量算力即可高效訓(xùn)練完成,隨后可自動實現(xiàn)對單個視頻的評分以及對多個視頻的對比排序。這種設(shè)計無需在每次迭代優(yōu)化時都重新進(jìn)行人工標(biāo)注,顯著提高了迭代優(yōu)化效率。此外,獎勵模型具備出色的通用性和 “即插即用” 特性,可廣泛適配于各類視頻生成模型。

階段三:迭代強(qiáng)化學(xué)習(xí)優(yōu)化:IPO 方法利用當(dāng)前的視頻生成(T2V)模型生成大量新視頻,并由已訓(xùn)練的獎勵模型對這些視頻進(jìn)行自動評價與標(biāo)注,形成新的偏好數(shù)據(jù)集。隨后,這些自動標(biāo)注的數(shù)據(jù)用于進(jìn)一步優(yōu)化 T2V 模型。這一過程持續(xù)迭代循環(huán),即:“視頻生成采樣 → 樣本獎勵計算 → 偏好對齊優(yōu)化”。此外,我們提出的 IPO 框架同時兼容當(dāng)前主流的偏好優(yōu)化算法,包括基于對比排序的 Diffusion-DPO 方法與基于二分類評分的 Diffusion-KTO 方法,用戶可靈活選擇訓(xùn)練目標(biāo),其中兩種人類偏好對齊方法(DPO 和 KTO)的訓(xùn)練目標(biāo)為:

  • DPO (Direct Preference Optimization):

圖片

  • KTO (Kahneman-Tversky Optimization):

圖片

實驗結(jié)果顯示經(jīng)過優(yōu)化后,視頻生成模型在時序一致性上實現(xiàn)了顯著提升。相比于 CogVideoX-2B(左圖),IPOC-2B 生成的視頻(右圖)中,獅子的行走動作更加自然連貫,整體動態(tài)流暢度有了明顯改善。

Prompt: An astronaut in a sandy-colored spacesuit is seated on a majestic lion with a golden mane in the middle of a vast desert. The lion's paws leave deep prints in the sand as it prowls forward. The astronaut holds a compass, looking for a way out of the endless expanse. The sun beats down mercilessly, and the heat shimmers in the air.

視頻生成模型在結(jié)構(gòu)合理性提升明顯。相比于 CogVideoX-2B(左圖),IPOC-2B 生成的視頻(右圖)中,人物和猛犸象具有更好結(jié)構(gòu)合理性。

Prompt: A young girl in a futuristic spacesuit runs across a vast, icy landscape on a distant planet, with a towering mammoth-like creature beside her. The mammoth's massive, shaggy form and long tusks contrast with the stark, alien environment. The sky above is a deep, star-filled space, with distant planets and nebulae visible. 

視頻生成模型在動態(tài)程度和美學(xué)度都有明顯提升,相比于 CogVideoX-2B(左圖),IPOC-2B 生成的視頻(右圖)中,人物動作更加流暢,人物和背景更好美觀。

Prompt: A woman with flowing dark hair and a serene expression sits at a cozy The café, sipping from a steaming ceramic mug. She wears a soft, cream-colored sweater and a light brown scarf, adding to the warm, inviting atmosphere. The The café is dimly lit with soft, ambient lighting, and a few potted plants add a touch of greenery. 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-08-28 06:52:29

2024-06-19 11:45:34

2025-02-26 14:00:00

開源模型數(shù)據(jù)

2025-01-09 13:30:00

2023-05-05 13:11:16

2020-12-23 06:07:54

人工智能AI深度學(xué)習(xí)

2024-01-26 08:31:49

2024-07-31 10:44:54

2024-09-23 08:30:00

AI模型

2024-04-12 08:59:02

強(qiáng)化學(xué)習(xí)系統(tǒng)人工智能擴(kuò)散模型

2022-06-25 21:38:36

AI模型

2023-04-06 16:29:18

模型AI

2022-09-04 14:38:00

世界模型建模IRIS

2017-08-17 09:15:23

強(qiáng)化學(xué)習(xí)KerasOpenAI

2025-02-20 09:21:51

2024-12-09 08:45:00

模型AI

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 免费看av大片 | 99久久婷婷国产综合精品电影 | av黄色在线| 国产女人与拘做受免费视频 | 亚洲精品99999 | 亚洲国产一区二区三区在线观看 | 色婷婷久久久亚洲一区二区三区 | 一级毛片在线播放 | 欧美一区二区三区在线 | 欧美日韩视频在线第一区 | 亚洲一区二区在线播放 | 亚av在线 | 视频一区二区在线观看 | 欧美一区二 | 亚洲欧美网 | 国产精品成人一区二区 | 免费骚视频 | 欧美8一10sex性hd | 中文字幕高清免费日韩视频在线 | 国产精品明星裸体写真集 | 欧美日韩在线一区二区 | 欧美视频中文字幕 | 日韩三级一区 | www国产成人免费观看视频,深夜成人网 | 午夜视频在线免费观看 | 国产精品无码专区在线观看 | 欧美一区视频 | 伊人狼人影院 | 国产一级视频在线播放 | 国产美女在线观看 | 欧美精品一区免费 | 欧美精品久久久 | 欧美日韩中文字幕在线 | 2019天天干夜夜操 | 久久一二三区 | www.国产 | 中文字幕视频在线观看 | 免费簧片视频 | 亚洲欧美日韩激情 | 久草在线在线精品观看 | 神马久久av |