CVPR 2025 多模態(tài)大一統(tǒng)：斯坦福 x 復(fù)旦提出符號(hào)主義建模生成式任務(wù)

2025-06-13 08:46:00

來(lái)自復(fù)旦大學(xué)、華南理工大學(xué)、武漢大學(xué)以及 Cornell、UCSD 等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了創(chuàng)新的基于符號(hào)化表征的生成任務(wù)描述框架。

共同第一作者包括：陳家棋，斯坦福大學(xué)訪問(wèn)學(xué)者，復(fù)旦大學(xué)碩士，研究方向?yàn)?LLM Agent和大一統(tǒng)模型；朱小燁，華南理工大學(xué)本科，研究方向?yàn)?LLM Agent、LLM 和強(qiáng)化學(xué)習(xí)；王越，康奈爾大學(xué)本科，研究方向?yàn)?LLM Agent、多模態(tài)語(yǔ)言模型。指導(dǎo)老師：Julian McAuley（UCSD）、Li-jia Li (IEEE Fellow, LiveX AI)。

在人工智能內(nèi)容創(chuàng)作蓬勃發(fā)展的今天，跨模態(tài)生成技術(shù)正在重塑藝術(shù)創(chuàng)作和視覺(jué)表達(dá)的邊界。人們對(duì)需求也日趨復(fù)雜和多樣，譬如將靜態(tài)照片轉(zhuǎn)化為動(dòng)態(tài)視頻并疊加環(huán)境音效，打造沉浸式的多感官體驗(yàn)。然而，現(xiàn)有生成系統(tǒng)大多受限于訓(xùn)練數(shù)據(jù)的覆蓋范圍，或是因復(fù)雜的多模型協(xié)調(diào)而效率低下，難以滿足這些日益增長(zhǎng)的創(chuàng)意需求。

來(lái)自復(fù)旦大學(xué)、華南理工大學(xué)、武漢大學(xué)以及 Cornell、UCSD 等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了創(chuàng)新的基于符號(hào)化表征的生成任務(wù)描述框架。該框架將符號(hào)化思維引入生成任務(wù)建模。這一創(chuàng)新框架構(gòu)建了一種生成任務(wù)的表示方式——，通過(guò)建立結(jié)構(gòu)化的語(yǔ)義橋梁，使系統(tǒng)能夠像人類理解創(chuàng)作意圖一樣解析和執(zhí)行復(fù)雜的跨模態(tài)生成需求。

論文標(biāo)題：Symbolic Representation for Any-to-Any Generative Tasks
代碼鏈接：https://github.com/Jiaqi-Chen-00/Any-2-Any
論文地址：https://arxiv.org/abs/2504.17261

實(shí)驗(yàn)證明，在 12 類 120 項(xiàng)跨模態(tài)生成任務(wù)中表現(xiàn)出色，在文本到圖像任務(wù)中以 94% 的勝率超越現(xiàn)有模型，在圖像轉(zhuǎn)視頻任務(wù)中更以 67% 的勝率優(yōu)于商業(yè)系統(tǒng) Gen-3。該方法不僅在內(nèi)容質(zhì)量上與現(xiàn)有的最先進(jìn)的統(tǒng)一模型相當(dāng)甚至更優(yōu)，還提供了更高的效率、可編輯性和可中斷性。符號(hào)化的任務(wù)表示為推進(jìn)生成式人工智能的能力提供了一種成本效益高且可擴(kuò)展的基礎(chǔ)。

問(wèn)題背景

圖 1 用于 Any-to-Any 生成任務(wù)的一種符號(hào)化描述方法。

「將叢林的狂野生長(zhǎng)與古老廢墟的神秘感融合成一個(gè)全新的場(chǎng)景，一定會(huì)令人驚嘆，」你的藝術(shù)家朋友沉思道。「如果還能把這張照片轉(zhuǎn)換成視頻，再疊加上鳥(niǎo)鳴聲和潺潺流水聲——那將營(yíng)造出一種夢(mèng)幻般的感官體驗(yàn)。」這些日益復(fù)雜、跨模態(tài)的創(chuàng)作需求指向了一個(gè)根本性挑戰(zhàn)：如何設(shè)計(jì)一個(gè)統(tǒng)一模型，能夠根據(jù)自然語(yǔ)言指令，無(wú)縫處理任意輸入與輸出模態(tài)組合的生成任務(wù)？這樣的任務(wù)就是該研究關(guān)注的「Any-to-Any」生成任務(wù)，如圖 2 所示。

圖 2 Any-to-Any 生成任務(wù)

當(dāng)前 Any-to-Any 生成任務(wù)的方法主要分為隱式神經(jīng)建模和智能體方法。隱式神經(jīng)建模需要大量數(shù)據(jù)訓(xùn)練，雖然能處理常見(jiàn)任務(wù)，但對(duì)新場(chǎng)景適應(yīng)能力差且生成過(guò)程不可控；智能體方法雖然功能靈活但結(jié)構(gòu)復(fù)雜，運(yùn)行不穩(wěn)定且效率較低。此外，如果人類設(shè)計(jì)師用 PS 合成圖像時(shí)，需要先背誦所有濾鏡組合公式才能操作，還有創(chuàng)意可言嗎？當(dāng)前許多方法陷入了這種「知識(shí)依賴陷阱」——而真正的 Any-to-Any 生成，應(yīng)該像兒童搭積木：不需要理解木塊分子結(jié)構(gòu)，只需知道它們?nèi)绾纹唇印?/span>

于是，研究團(tuán)隊(duì)設(shè)想構(gòu)建一個(gè)框架：聚焦于統(tǒng)一的任務(wù)表示和語(yǔ)言模型友好的接口，從而實(shí)現(xiàn)直接的任務(wù)指定。使系統(tǒng)能夠真正理解并執(zhí)行用戶以自然語(yǔ)言描述的任意生成需求，同時(shí)保持執(zhí)行過(guò)程的可控性和可干預(yù)性。這一設(shè)想從根本上改變了傳統(tǒng)生成模型的實(shí)現(xiàn)范式，為構(gòu)建真正意義上的 Any-to-Any 生成系統(tǒng)提供了新的技術(shù)路線。

基于符號(hào)化表征的生成任務(wù)描述框架

框架設(shè)計(jì)的核心思路在于對(duì)生成任務(wù)本質(zhì)的解構(gòu)：任何復(fù)雜的多模態(tài)生成過(guò)程，本質(zhì)上都可以拆解為「做什么」（函數(shù)）、「怎么做」（參數(shù)）和「執(zhí)行順序」（拓?fù)洌┤齻€(gè)要素。基于這樣的見(jiàn)解，研究提出了 -Language，這是一種正式表示方法，系統(tǒng)地捕捉生成任務(wù)的這三個(gè)基本組成部分。此外，研究還介紹了一種無(wú)需訓(xùn)練的推理引擎，它利用預(yù)訓(xùn)練的語(yǔ)言模型作為基礎(chǔ)，從輸入指令和指定的關(guān)鍵函數(shù)中得出符號(hào)表示。

從本質(zhì)上講，-Language 將任意生成任務(wù)形式化為一個(gè)三元組

這一統(tǒng)一的形式化將生成任務(wù)分解為三個(gè)核心組成部分：計(jì)算函數(shù)、對(duì)應(yīng)參數(shù)，以及闡明其相互關(guān)系和數(shù)據(jù)流動(dòng)態(tài)的拓?fù)浣Y(jié)構(gòu)。

（1）函數(shù)是構(gòu)成生成任務(wù)的基本計(jì)算單元，其數(shù)學(xué)形式表示為：

其中：表示第 i 個(gè)函數(shù)，是該函數(shù)的輸入空間，可以包含任意模態(tài)的數(shù)據(jù)（如圖像、文本、音頻等），是該函數(shù)的參數(shù)配置，是該函數(shù)的輸出空間。例如，一個(gè)圖像風(fēng)格遷移函數(shù)可能接收原始圖像和風(fēng)格描述文本作為輸入，經(jīng)過(guò)參數(shù)調(diào)節(jié)后輸出風(fēng)格化圖像。

（2）參數(shù)集合定義為：

其中每個(gè)對(duì)應(yīng)函數(shù)的參數(shù)空間。參數(shù)在函數(shù)執(zhí)行前必須完全指定，用于精確控制函數(shù)行為。例如，在圖像生成任務(wù)中，參數(shù)可能包括生成步數(shù)、風(fēng)格強(qiáng)度、分辨率等。

（3）拓?fù)浣Y(jié)構(gòu)定義了函數(shù)之間的數(shù)據(jù)流動(dòng)關(guān)系，表示為：

每個(gè)數(shù)據(jù)流是一個(gè)具體的連接關(guān)系：

其中，是源函數(shù)，是源函數(shù)的特定輸出，是目標(biāo)函數(shù)，是目標(biāo)函數(shù)的特定輸入。

如圖 3 所示，框架提供了三種等效但風(fēng)格迥異的語(yǔ)法形式來(lái)表達(dá)符號(hào)化表示，以滿足不同場(chǎng)景的使用需求：

聲明式語(yǔ)法 (Declarative Syntax)：采用組件先定義后連接的范式，將函數(shù)與拓?fù)潢P(guān)系顯式分離，特別適合需要組件復(fù)用的復(fù)雜工作流。
數(shù)據(jù)流語(yǔ)法 (Dataflow Syntax)：通過(guò)函數(shù)鏈?zhǔn)秸{(diào)用的方式直觀展現(xiàn)數(shù)據(jù)流動(dòng)路徑，更契合線性順序任務(wù)的表達(dá)。
偽自然語(yǔ)法 (Pseudo-natural Syntax)：創(chuàng)新性地采用類自然語(yǔ)言的結(jié)構(gòu)，在保持?jǐn)?shù)學(xué)嚴(yán)謹(jǐn)性的同時(shí)大幅提升了可讀性，為非專業(yè)用戶提供了更友好的交互界面。

這三種語(yǔ)法在保持完整表達(dá)能力的前提下各有側(cè)重：聲明式強(qiáng)調(diào)結(jié)構(gòu)化，數(shù)據(jù)流突出過(guò)程性，偽自然注重易用性，后續(xù)實(shí)驗(yàn)系統(tǒng)評(píng)估了它們?cè)诖笳Z(yǔ)言模型推理場(chǎng)景中的實(shí)際表現(xiàn)。

圖 3 語(yǔ)法風(fēng)格比較。

基于預(yù)訓(xùn)練語(yǔ)言模型的符號(hào)化流程推斷為使方法靈活而穩(wěn)健地適應(yīng)生成任務(wù)的多樣性和復(fù)雜性，該研究將高層次的任務(wù)描述轉(zhuǎn)化為可執(zhí)行的符號(hào)化流程。如圖 4 所示，提出利用語(yǔ)言模型 (LM) 作為推理引擎，從輸入指令和指定的關(guān)鍵函數(shù)中得出符號(hào)表示。

圖 4 利用語(yǔ)言模型 (LM) 生成符號(hào)化表示。

通過(guò)三階段處理實(shí)現(xiàn)這一目標(biāo)：組件推斷階段由語(yǔ)言模型解析任務(wù)描述，識(shí)別所需的函數(shù) (F) 和參數(shù) (Φ)；拓?fù)錁?gòu)建階段基于輸入輸出關(guān)系，建立函數(shù)間的數(shù)據(jù)流連接 (T)；迭代優(yōu)化階段通過(guò)錯(cuò)誤反饋循環(huán) (R) 持續(xù)修正流程，直至滿足所有約束條件 (C)。圖 5 完整展示了從自然語(yǔ)言描述到可執(zhí)行工作流程的轉(zhuǎn)換過(guò)程，從而實(shí)現(xiàn)了跨模態(tài)和跨任務(wù)類型的任意轉(zhuǎn)換。

圖 5 推理和執(zhí)行的演示。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)中，該研究構(gòu)建了一個(gè)包含 120 個(gè)真實(shí)世界生成案例的數(shù)據(jù)集，涵蓋 12 個(gè)任務(wù)類別，并通過(guò)用戶研究和可執(zhí)行性評(píng)估驗(yàn)證了方法的有效性。

跨模態(tài)生成質(zhì)量評(píng)估（用戶研究）

針對(duì)不同模態(tài)轉(zhuǎn)換任務(wù)進(jìn)行了系統(tǒng)的用戶評(píng)估，以驗(yàn)證該方法在真實(shí)場(chǎng)景下的生成質(zhì)量。實(shí)驗(yàn)結(jié)果顯示，在文本到圖像任務(wù)中，該方法對(duì) Show-o 的勝率達(dá) 94%；在圖像轉(zhuǎn)視頻任務(wù)中，對(duì)商業(yè)系統(tǒng) Gen-3 的勝率達(dá) 67%；文本到音頻任務(wù)中，對(duì)齊度和質(zhì)量勝率分別達(dá) 100% 和 98%。

復(fù)雜工作流執(zhí)行測(cè)試（ComfyBench 基準(zhǔn)）

為評(píng)估方法處理復(fù)雜任務(wù)的能力，采用包含多步驟工作流的 ComfyBench 進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果顯示，總體成功率 43%，顯著優(yōu)于次優(yōu)方法（32.5%），在復(fù)雜任務(wù)（如包含 11 個(gè)組件的「模型合并」）上表現(xiàn)突出。

消融實(shí)驗(yàn)

消融實(shí)驗(yàn)證實(shí)，兩階段推理架構(gòu)（組件推斷 + 拓?fù)錁?gòu)建）是系統(tǒng)性能的核心，移除該設(shè)計(jì)將導(dǎo)致任務(wù)完成率下降 35%。

對(duì)比實(shí)驗(yàn)：符號(hào)化 v.s. 代理化方法

選取了當(dāng)前最先進(jìn)的代理框架 GenAgent 作為基線，在相同任務(wù)集上進(jìn)行對(duì)比測(cè)試。實(shí)驗(yàn)數(shù)據(jù)顯示，在編譯階段，該方法達(dá)到 98% 的通過(guò)率，相比代理方法的 84% 顯著提升 ($p \< 0.001$)；執(zhí)行成功率方面，該方法 87% 的表現(xiàn)遠(yuǎn)超代理方法的 63%。

表示方法本質(zhì)研究

針對(duì)「神經(jīng)表示 v.s. 符號(hào)表示」這一核心問(wèn)題，研究設(shè)計(jì)了控制變量實(shí)驗(yàn)：在相同計(jì)算資源下，符號(hào)表示的內(nèi)存占用僅為神經(jīng)表示的 1/5。任務(wù)修改效率測(cè)試顯示，修改符號(hào)化流程平均耗時(shí) 23 秒，而神經(jīng)方法需要重新訓(xùn)練（平均 4.2 小時(shí)）；但在端到端推理速度上，神經(jīng)方法快 1.8 倍，這揭示了符號(hào)方法在實(shí)時(shí)性上的 trade-off。

顯式流程編輯與錯(cuò)誤分析

通過(guò)對(duì) 120 個(gè)失敗案例的歸因分析發(fā)現(xiàn)，28% 的錯(cuò)誤源于參數(shù)范圍越界，主要體現(xiàn)在跨模態(tài)任務(wù)中的單位轉(zhuǎn)換問(wèn)題；22% 屬于模態(tài)不匹配錯(cuò)誤，多發(fā)生在未明確指定輸入輸出類型的場(chǎng)景中；15% 由于函數(shù)缺失導(dǎo)致，這反映了現(xiàn)有函數(shù)庫(kù)仍需擴(kuò)展。

總結(jié)

該研究提出的符號(hào)化生成任務(wù)描述語(yǔ)言及配套推理引擎，為多模態(tài)任務(wù)提供了一種無(wú)需專門(mén)訓(xùn)練的全新高效解決方案。通過(guò)利用預(yù)訓(xùn)練大語(yǔ)言模型將自然語(yǔ)言指令直接轉(zhuǎn)化為符號(hào)化工作流，該方法成功實(shí)現(xiàn)了 12 類跨模態(tài)生成任務(wù)的靈活合成。實(shí)驗(yàn)證明，該框架不僅在生成內(nèi)容質(zhì)量上媲美現(xiàn)有的先進(jìn)統(tǒng)一模型，更在效率、可編輯性和可中斷性等方面展現(xiàn)出顯著優(yōu)勢(shì)。符號(hào)化任務(wù)表示方法或許能為提升生成式 AI 能力提供一條經(jīng)濟(jì)高效且可擴(kuò)展的技術(shù)路徑。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心