成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CVPR 2025 多模態(tài)大一統(tǒng):斯坦福 x 復(fù)旦提出符號(hào)主義建模生成式任務(wù)

人工智能 新聞
來(lái)自復(fù)旦大學(xué)、華南理工大學(xué)、武漢大學(xué)以及 Cornell、UCSD 等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了創(chuàng)新的基于符號(hào)化表征的生成任務(wù)描述框架。

共同第一作者包括:陳家棋,斯坦福大學(xué)訪問(wèn)學(xué)者,復(fù)旦大學(xué)碩士,研究方向?yàn)?LLM Agent和大一統(tǒng)模型;朱小燁,華南理工大學(xué)本科,研究方向?yàn)?LLM Agent、LLM 和強(qiáng)化學(xué)習(xí);王越,康奈爾大學(xué)本科,研究方向?yàn)?LLM Agent、多模態(tài)語(yǔ)言模型。指導(dǎo)老師:Julian McAuley(UCSD)、Li-jia Li (IEEE Fellow, LiveX AI)。

在人工智能內(nèi)容創(chuàng)作蓬勃發(fā)展的今天,跨模態(tài)生成技術(shù)正在重塑藝術(shù)創(chuàng)作和視覺(jué)表達(dá)的邊界。人們對(duì)需求也日趨復(fù)雜和多樣,譬如將靜態(tài)照片轉(zhuǎn)化為動(dòng)態(tài)視頻并疊加環(huán)境音效,打造沉浸式的多感官體驗(yàn)。然而,現(xiàn)有生成系統(tǒng)大多受限于訓(xùn)練數(shù)據(jù)的覆蓋范圍,或是因復(fù)雜的多模型協(xié)調(diào)而效率低下,難以滿足這些日益增長(zhǎng)的創(chuàng)意需求。

來(lái)自復(fù)旦大學(xué)、華南理工大學(xué)、武漢大學(xué)以及 Cornell、UCSD 等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了創(chuàng)新的基于符號(hào)化表征的生成任務(wù)描述框架。該框架將符號(hào)化思維引入生成任務(wù)建模。這一創(chuàng)新框架構(gòu)建了一種生成任務(wù)的表示方式——圖片,通過(guò)建立結(jié)構(gòu)化的語(yǔ)義橋梁,使系統(tǒng)能夠像人類理解創(chuàng)作意圖一樣解析和執(zhí)行復(fù)雜的跨模態(tài)生成需求。

圖片

  • 論文標(biāo)題:Symbolic Representation for Any-to-Any Generative Tasks
  • 代碼鏈接:https://github.com/Jiaqi-Chen-00/Any-2-Any
  • 論文地址:https://arxiv.org/abs/2504.17261

實(shí)驗(yàn)證明,圖片 在 12 類 120 項(xiàng)跨模態(tài)生成任務(wù)中表現(xiàn)出色,在文本到圖像任務(wù)中以 94% 的勝率超越現(xiàn)有模型,在圖像轉(zhuǎn)視頻任務(wù)中更以 67% 的勝率優(yōu)于商業(yè)系統(tǒng) Gen-3。該方法不僅在內(nèi)容質(zhì)量上與現(xiàn)有的最先進(jìn)的統(tǒng)一模型相當(dāng)甚至更優(yōu),還提供了更高的效率、可編輯性和可中斷性。符號(hào)化的任務(wù)表示為推進(jìn)生成式人工智能的能力提供了一種成本效益高且可擴(kuò)展的基礎(chǔ)。

問(wèn)題背景

圖片

圖 1 用于 Any-to-Any 生成任務(wù)的一種符號(hào)化描述方法。

「將叢林的狂野生長(zhǎng)與古老廢墟的神秘感融合成一個(gè)全新的場(chǎng)景,一定會(huì)令人驚嘆,」你的藝術(shù)家朋友沉思道。「如果還能把這張照片轉(zhuǎn)換成視頻,再疊加上鳥(niǎo)鳴聲和潺潺流水聲——那將營(yíng)造出一種夢(mèng)幻般的感官體驗(yàn)。」這些日益復(fù)雜、跨模態(tài)的創(chuàng)作需求指向了一個(gè)根本性挑戰(zhàn):如何設(shè)計(jì)一個(gè)統(tǒng)一模型,能夠根據(jù)自然語(yǔ)言指令,無(wú)縫處理任意輸入與輸出模態(tài)組合的生成任務(wù)?這樣的任務(wù)就是該研究關(guān)注的「Any-to-Any」生成任務(wù),如圖 2 所示。

圖片

圖 2 Any-to-Any 生成任務(wù)

當(dāng)前 Any-to-Any 生成任務(wù)的方法主要分為隱式神經(jīng)建模和智能體方法。隱式神經(jīng)建模需要大量數(shù)據(jù)訓(xùn)練,雖然能處理常見(jiàn)任務(wù),但對(duì)新場(chǎng)景適應(yīng)能力差且生成過(guò)程不可控;智能體方法雖然功能靈活但結(jié)構(gòu)復(fù)雜,運(yùn)行不穩(wěn)定且效率較低。此外,如果人類設(shè)計(jì)師用 PS 合成圖像時(shí),需要先背誦所有濾鏡組合公式才能操作,還有創(chuàng)意可言嗎?當(dāng)前許多方法陷入了這種「知識(shí)依賴陷阱」——而真正的 Any-to-Any 生成,應(yīng)該像兒童搭積木:不需要理解木塊分子結(jié)構(gòu),只需知道它們?nèi)绾纹唇印?/span>

于是,研究團(tuán)隊(duì)設(shè)想構(gòu)建一個(gè)框架:聚焦于統(tǒng)一的任務(wù)表示和語(yǔ)言模型友好的接口,從而實(shí)現(xiàn)直接的任務(wù)指定。使系統(tǒng)能夠真正理解并執(zhí)行用戶以自然語(yǔ)言描述的任意生成需求,同時(shí)保持執(zhí)行過(guò)程的可控性和可干預(yù)性。這一設(shè)想從根本上改變了傳統(tǒng)生成模型的實(shí)現(xiàn)范式,為構(gòu)建真正意義上的 Any-to-Any 生成系統(tǒng)提供了新的技術(shù)路線。

基于符號(hào)化表征的生成任務(wù)描述框架

框架設(shè)計(jì)的核心思路在于對(duì)生成任務(wù)本質(zhì)的解構(gòu):任何復(fù)雜的多模態(tài)生成過(guò)程,本質(zhì)上都可以拆解為「做什么」(函數(shù))、「怎么做」(參數(shù))和「執(zhí)行順序」(拓?fù)洌┤齻€(gè)要素。基于這樣的見(jiàn)解,研究提出了 -Language,這是一種正式表示方法,系統(tǒng)地捕捉生成任務(wù)的這三個(gè)基本組成部分。此外,研究還介紹了一種無(wú)需訓(xùn)練的推理引擎,它利用預(yù)訓(xùn)練的語(yǔ)言模型作為基礎(chǔ),從輸入指令和指定的關(guān)鍵函數(shù)中得出符號(hào)表示。

從本質(zhì)上講,-Language 將任意生成任務(wù)形式化為一個(gè)三元組

圖片

這一統(tǒng)一的形式化將生成任務(wù)分解為三個(gè)核心組成部分:計(jì)算函數(shù)、對(duì)應(yīng)參數(shù),以及闡明其相互關(guān)系和數(shù)據(jù)流動(dòng)態(tài)的拓?fù)浣Y(jié)構(gòu)。

(1)函數(shù)是構(gòu)成生成任務(wù)的基本計(jì)算單元,其數(shù)學(xué)形式表示為:

圖片

其中:圖片 表示第 i 個(gè)函數(shù),圖片是該函數(shù)的輸入空間,可以包含任意模態(tài)的數(shù)據(jù)(如圖像、文本、音頻等),圖片是該函數(shù)的參數(shù)配置,圖片是該函數(shù)的輸出空間。例如,一個(gè)圖像風(fēng)格遷移函數(shù)可能接收原始圖像和風(fēng)格描述文本作為輸入,經(jīng)過(guò)參數(shù)調(diào)節(jié)后輸出風(fēng)格化圖像。

(2)參數(shù)集合定義為:

圖片

其中每個(gè)圖片對(duì)應(yīng)函數(shù)圖片的參數(shù)空間。參數(shù)在函數(shù)執(zhí)行前必須完全指定,用于精確控制函數(shù)行為。例如,在圖像生成任務(wù)中,參數(shù)可能包括生成步數(shù)、風(fēng)格強(qiáng)度、分辨率等。

(3)拓?fù)浣Y(jié)構(gòu)定義了函數(shù)之間的數(shù)據(jù)流動(dòng)關(guān)系,表示為:

圖片

每個(gè)數(shù)據(jù)流是一個(gè)具體的連接關(guān)系:

圖片

其中,圖片是源函數(shù),圖片 是源函數(shù)的特定輸出,圖片 是目標(biāo)函數(shù),圖片是目標(biāo)函數(shù)的特定輸入。

如圖 3 所示,框架提供了三種等效但風(fēng)格迥異的語(yǔ)法形式來(lái)表達(dá)符號(hào)化表示,以滿足不同場(chǎng)景的使用需求:

  • 聲明式語(yǔ)法 (Declarative Syntax):采用組件先定義后連接的范式,將函數(shù)與拓?fù)潢P(guān)系顯式分離,特別適合需要組件復(fù)用的復(fù)雜工作流。
  • 數(shù)據(jù)流語(yǔ)法 (Dataflow Syntax):通過(guò)函數(shù)鏈?zhǔn)秸{(diào)用的方式直觀展現(xiàn)數(shù)據(jù)流動(dòng)路徑,更契合線性順序任務(wù)的表達(dá)。
  • 偽自然語(yǔ)法 (Pseudo-natural Syntax):創(chuàng)新性地采用類自然語(yǔ)言的結(jié)構(gòu),在保持?jǐn)?shù)學(xué)嚴(yán)謹(jǐn)性的同時(shí)大幅提升了可讀性,為非專業(yè)用戶提供了更友好的交互界面。

這三種語(yǔ)法在保持圖片完整表達(dá)能力的前提下各有側(cè)重:聲明式強(qiáng)調(diào)結(jié)構(gòu)化,數(shù)據(jù)流突出過(guò)程性,偽自然注重易用性,后續(xù)實(shí)驗(yàn)系統(tǒng)評(píng)估了它們?cè)诖笳Z(yǔ)言模型推理場(chǎng)景中的實(shí)際表現(xiàn)。

圖片

圖 3 語(yǔ)法風(fēng)格比較。

  • 基于預(yù)訓(xùn)練語(yǔ)言模型的符號(hào)化流程推斷為使方法靈活而穩(wěn)健地適應(yīng)生成任務(wù)的多樣性和復(fù)雜性,該研究將高層次的任務(wù)描述轉(zhuǎn)化為可執(zhí)行的符號(hào)化流程。如圖 4 所示,提出利用語(yǔ)言模型 (LM) 作為推理引擎,從輸入指令和指定的關(guān)鍵函數(shù)中得出符號(hào)表示。

圖片

圖 4 利用語(yǔ)言模型 (LM) 生成符號(hào)化表示。

通過(guò)三階段處理實(shí)現(xiàn)這一目標(biāo):組件推斷階段由語(yǔ)言模型解析任務(wù)描述,識(shí)別所需的函數(shù) (F) 和參數(shù) (Φ);拓?fù)錁?gòu)建階段基于輸入輸出關(guān)系,建立函數(shù)間的數(shù)據(jù)流連接 (T);迭代優(yōu)化階段通過(guò)錯(cuò)誤反饋循環(huán) (R) 持續(xù)修正流程,直至滿足所有約束條件 (C)。圖 5 完整展示了從自然語(yǔ)言描述到可執(zhí)行工作流程的轉(zhuǎn)換過(guò)程,從而實(shí)現(xiàn)了跨模態(tài)和跨任務(wù)類型的任意轉(zhuǎn)換。

圖片

圖 5 推理和執(zhí)行的演示。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)中,該研究構(gòu)建了一個(gè)包含 120 個(gè)真實(shí)世界生成案例的數(shù)據(jù)集,涵蓋 12 個(gè)任務(wù)類別,并通過(guò)用戶研究和可執(zhí)行性評(píng)估驗(yàn)證了方法的有效性。

  • 跨模態(tài)生成質(zhì)量評(píng)估(用戶研究)

針對(duì)不同模態(tài)轉(zhuǎn)換任務(wù)進(jìn)行了系統(tǒng)的用戶評(píng)估,以驗(yàn)證該方法在真實(shí)場(chǎng)景下的生成質(zhì)量。實(shí)驗(yàn)結(jié)果顯示,在文本到圖像任務(wù)中,該方法對(duì) Show-o 的勝率達(dá) 94%;在圖像轉(zhuǎn)視頻任務(wù)中,對(duì)商業(yè)系統(tǒng) Gen-3 的勝率達(dá) 67%;文本到音頻任務(wù)中,對(duì)齊度和質(zhì)量勝率分別達(dá) 100% 和 98%。

圖片

  • 復(fù)雜工作流執(zhí)行測(cè)試(ComfyBench 基準(zhǔn))

為評(píng)估方法處理復(fù)雜任務(wù)的能力,采用包含多步驟工作流的 ComfyBench 進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果顯示,總體成功率 43%,顯著優(yōu)于次優(yōu)方法(32.5%),在復(fù)雜任務(wù)(如包含 11 個(gè)組件的「模型合并」)上表現(xiàn)突出。

圖片

  • 消融實(shí)驗(yàn)

消融實(shí)驗(yàn)證實(shí),兩階段推理架構(gòu)(組件推斷 + 拓?fù)錁?gòu)建)是系統(tǒng)性能的核心,移除該設(shè)計(jì)將導(dǎo)致任務(wù)完成率下降 35%。

圖片

  • 對(duì)比實(shí)驗(yàn):符號(hào)化 v.s. 代理化方法

選取了當(dāng)前最先進(jìn)的代理框架 GenAgent 作為基線,在相同任務(wù)集上進(jìn)行對(duì)比測(cè)試。實(shí)驗(yàn)數(shù)據(jù)顯示,在編譯階段,該方法達(dá)到 98% 的通過(guò)率,相比代理方法的 84% 顯著提升 ($p \< 0.001$);執(zhí)行成功率方面,該方法 87% 的表現(xiàn)遠(yuǎn)超代理方法的 63%。

圖片

  • 表示方法本質(zhì)研究

針對(duì)「神經(jīng)表示 v.s. 符號(hào)表示」這一核心問(wèn)題,研究設(shè)計(jì)了控制變量實(shí)驗(yàn):在相同計(jì)算資源下,符號(hào)表示的內(nèi)存占用僅為神經(jīng)表示的 1/5。任務(wù)修改效率測(cè)試顯示,修改符號(hào)化流程平均耗時(shí) 23 秒,而神經(jīng)方法需要重新訓(xùn)練(平均 4.2 小時(shí));但在端到端推理速度上,神經(jīng)方法快 1.8 倍,這揭示了符號(hào)方法在實(shí)時(shí)性上的 trade-off。

圖片

  • 顯式流程編輯與錯(cuò)誤分析

通過(guò)對(duì) 120 個(gè)失敗案例的歸因分析發(fā)現(xiàn),28% 的錯(cuò)誤源于參數(shù)范圍越界,主要體現(xiàn)在跨模態(tài)任務(wù)中的單位轉(zhuǎn)換問(wèn)題;22% 屬于模態(tài)不匹配錯(cuò)誤,多發(fā)生在未明確指定輸入輸出類型的場(chǎng)景中;15% 由于函數(shù)缺失導(dǎo)致,這反映了現(xiàn)有函數(shù)庫(kù)仍需擴(kuò)展。

圖片

圖片

總結(jié)

該研究提出的符號(hào)化生成任務(wù)描述語(yǔ)言及配套推理引擎,為多模態(tài)任務(wù)提供了一種無(wú)需專門(mén)訓(xùn)練的全新高效解決方案。通過(guò)利用預(yù)訓(xùn)練大語(yǔ)言模型將自然語(yǔ)言指令直接轉(zhuǎn)化為符號(hào)化工作流,該方法成功實(shí)現(xiàn)了 12 類跨模態(tài)生成任務(wù)的靈活合成。實(shí)驗(yàn)證明,該框架不僅在生成內(nèi)容質(zhì)量上媲美現(xiàn)有的先進(jìn)統(tǒng)一模型,更在效率、可編輯性和可中斷性等方面展現(xiàn)出顯著優(yōu)勢(shì)。符號(hào)化任務(wù)表示方法或許能為提升生成式 AI 能力提供一條經(jīng)濟(jì)高效且可擴(kuò)展的技術(shù)路徑。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-03-13 10:18:42

2024-09-10 10:07:19

2025-06-09 09:50:00

Veact庫(kù)React

2023-05-10 14:58:06

開(kāi)源模型

2017-12-15 17:14:10

云端

2024-08-26 07:40:00

AI訓(xùn)練

2015-07-30 12:27:30

重郵華為

2020-12-13 13:40:22

健康碼移動(dòng)應(yīng)用

2015-05-06 13:52:52

微軟外媒

2025-06-13 09:10:00

2025-04-16 02:55:00

2025-04-14 09:38:00

2014-07-29 13:25:43

WWDC 2014 S

2025-03-18 09:29:54

2022-11-29 15:15:47

AI模型

2012-02-28 09:54:01

Windows 8微軟賬戶

2024-04-23 13:38:00

AI數(shù)據(jù)

2023-07-22 13:17:33

人工智能框架

2024-01-24 09:24:19

自動(dòng)駕駛算法

2023-07-17 08:03:03

Shell腳本SQL
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美乱码精品一区二区三区 | 欧美日本亚洲 | 美女张开腿露出尿口 | 97久久久久久久久 | 综合五月婷 | 国产女人叫床高潮大片免费 | 老司机午夜性大片 | 中文字字幕在线中文乱码范文 | 亚洲成人三级 | 国产精品不卡 | 操操操日日日 | 隔壁老王国产在线精品 | 日韩一区二区三区精品 | av毛片 | 美女日批免费视频 | 涩涩视频网站在线观看 | 草草草久久久 | 夜久久 | 国产精品久久久久久久久久免费看 | 欧美日韩中文在线 | 日韩欧美一区二区三区 | 精品国产乱码久久久久久88av | 欧美国产视频 | 欧美一级淫片免费视频黄 | 日韩欧美福利视频 | 国产成人精品免高潮在线观看 | 色女人天堂 | 在线观看黄色大片 | 成人在线免费观看视频 | 久久久久久成人 | 日韩激情一区 | 国产精品久久九九 | 日韩一级黄色毛片 | 精品国产乱码久久久久久果冻传媒 | www九色 | 日韩欧美国产一区二区 | 成人在线视频一区二区三区 | 日韩一区二区三区视频 | 久久成人一区 | www.国产精 | 91xxx在线观看 |