文生圖進入R1時代:港中文MMLab發(fā)布T2I-R1,讓AI繪畫“先推理再下筆”
“先推理、再作答”,語言大模型的Thinking模式,現(xiàn)在已經(jīng)被拓展到了圖片領域。
近日,港中文MMLab團隊發(fā)布了第一個基于強化學習的推理增強文生圖模型:T2I-R1。
大家都知道,OpenAI o1和DeepSeek-R1這類的大語言模型(LLMs),已經(jīng)在解數(shù)學題和寫代碼這些需要“動腦筋”的事情上面展現(xiàn)出了較高的水平。
這些模型通過強化學習(RL),先使用全面的思維鏈(CoT)逐步分析問題,推理后再提供答案。
這種方法大大提高了答案的準確性,很適合用于處理一些復雜問題。
同理,如果能把強化學習應用在圖片理解的多模態(tài)大模型中(LMMs),像是圖片理解或者文生圖這樣的任務就能解決得更加出色。
想法是好的,但在實際操作中總會碰到一些問題:
比如,該如何將語義和生成結(jié)合起來,讓語義理解服務于圖像生成?
又比如,如何對圖像生成的結(jié)果進行質(zhì)量評估,讓模型在生成中學習?
目前CoT推理策略如何應用于自回歸的圖片生成領域仍然處于探索階段,港中文MMLab之前的工作Image Generation with CoT(鏈接見文末)對這一領域就有過首次初步的嘗試:通過關注多種推理技術,找到了有效適應圖像生成的推理方法,并提出了專門用于自回歸圖像生成的評估獎勵模型。
而T2I-R1在此基礎上首次提出了雙層級的CoT推理框架和BiCoT-GRPO強化學習方法。
無需額外模型,即可實現(xiàn)文本到圖像生成的推理應用。
圖片生成的雙層推理解法
與圖片理解不同,圖片生成任務需要跨模態(tài)的文本與圖片的對齊以及細粒度的視覺細節(jié)的生成。
傳統(tǒng)的推理方法很難同時兼顧兩種能力,而現(xiàn)有的自回歸生成模型(如VAR)缺乏顯式的語義級推理能力。
為此,港中文團隊提出了適用于圖片生成的兩個不同層次的CoT推理:
圖片
Semantic-level CoT
- Semantic-level CoT 是對于要生成的圖像的文本推理,在圖像生成之前進行。
- 負責設計圖像的全局結(jié)構(gòu),例如每個對象的外觀和位置。
- 優(yōu)化Semantic-level CoT可以在圖片Token的生成之前顯式地對于Prompt進行規(guī)劃和推理,使生成更容易。
Token-level CoT
- Token-level CoT是圖片Token的逐塊的生成過程。這個過程可以被視為一種CoT形式,因為它同樣是在離散空間中基于所有先前的Token輸出后續(xù)的Token,與文本CoT類似。
- Token-level CoT更專注于底層的細節(jié),比如像素的生成和維持相鄰Patch之間的視覺連貫性。
- 優(yōu)化Token-level CoT可以提高生成圖片的質(zhì)量以及Prompt與生成圖片之間的對齊。
圖片
統(tǒng)一的雙層級CoT框架
然而,盡管認識到這兩個層次的CoT,一個關鍵問題仍然存在:我們怎么協(xié)調(diào)與融合它們?
當前主流的自回歸圖片生成模型,如VAR,完全基于生成目標進行訓練,缺乏Semantic-level CoT推理所需的顯式文本理解。
雖然引入一個專門用于提示解釋的獨立模型(例如LLM)在技術上是可行的,但這種方法會顯著增加計算成本、復雜性和部署的困難。
最近也出現(xiàn)了一種將視覺理解和生成合并到單一模型中的趨勢:在LMMs的基礎上,這些結(jié)合了視覺理解和生成的統(tǒng)一LMMs(ULMs)不僅可以理解視覺輸入,還可以根據(jù)文本提示生成圖像。
可是,它們的兩種能力仍然是分開的,通常在兩個獨立階段進行預訓練。還沒有明確的證據(jù)表明,理解能力可以使生成受益。
鑒于這些潛力和問題,團隊從一個ULM(Janus-Pro)開始,增強它以將Semantic-level CoT以及Token-level CoT統(tǒng)一到一個框架中用于文本生成圖像:
圖片
BiCoT-GRPO實現(xiàn)協(xié)同優(yōu)化
在雙層級CoT框架的理論基礎上,團隊提出了BiCoT-GRPO,一種使用強化學習的方法來聯(lián)合優(yōu)化ULM的兩個層次的CoT:
首先,指示ULM基于Image Prompt來想象和規(guī)劃圖像,獲得Semantic-level CoT。
然后,將Image Prompt和Semantic-level CoT重新輸入ULM來生成圖片以獲得Token-level CoT。
這樣便能對一個Image Prompt生成多組Semantic-level CoT和Token-level CoT,又對得到的圖像計算組內(nèi)的相對獎勵,從而更新GRPO,在一個訓練迭代內(nèi)同時優(yōu)化兩個層次的CoT。
BiCoT-GRPO方法首次在單一RL步驟中協(xié)同優(yōu)化語義規(guī)劃與像素生成,相比起分階段訓練效率更高、計算成本更低。
T2I-R1:破解生成評估難題
與圖片的理解任務不同,理解任務有明確定義的獎勵規(guī)則,而圖像生成中不存在這樣的標準化的規(guī)則。
為此,港中文團隊提出使用多個不同的視覺專家模型的集成來作為獎勵模型。這種獎勵設計有兩個關鍵的目的:
- 它從多個維度評估生成的圖像以確保可靠的質(zhì)量評估。
- 它作為一種正則化方法來防止ULM過擬合到某個單一的獎勵模型。
圖片
根據(jù)上述方法,該團隊獲得了T2I-R1——這是第一個基于強化學習的推理增強的文生圖模型。
圖片
根據(jù)T2I-R1生成的圖片,團隊發(fā)現(xiàn)模型能夠通過推理Image Prompt背后的真實意圖來生成更符合人類期望的結(jié)果,并在處理不尋常場景時展現(xiàn)出增強的魯棒性。
同時,下面的可視化結(jié)果表明,Semantic-level CoT明顯有助于猜測出用戶的真實想法。
比如右上角的例子,加入了Semantic-level CoT的模型猜到了prompt指的是故宮;而Token-level CoT則負責得到更美觀的圖像。
圖片
定量的實驗結(jié)果也表明了該方法的有效性:
T2I-R1在T2I-CompBench和WISE在Benchmark上分別比baseline模型提高了13%和19%的性能,在多個子任務上甚至超越了之前最先進的模型FLUX.1。
圖片
圖片
綜上所述,T2I-R1的出現(xiàn)證明了CoT在圖像生成中的有效性,實現(xiàn)了高效可拓展的生成架構(gòu),為多模態(tài)生成任務提供了新的推理增強范式。
在未來,T2I-R1的框架或能進一步拓展至視頻生成、3D內(nèi)容合成等復雜序列生成任務,推動生成式AI向”能思考、會創(chuàng)作”的通用智能體演進。
前序工作(Image Generation with CoT):https://github.com/ZiyuGuo99/Image-Generation-CoT