成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta新突破!跨模態(tài)生成告別噪聲:流匹配實現(xiàn)任意模態(tài)無縫流轉

人工智能 新聞
CrossFlow 的誕生標志著生成式 AI 從 “噪聲中創(chuàng)造” 邁向 “語義間流轉” 的新階段。其簡潔的設計、卓越的性能與靈活的擴展性,為跨模態(tài)生成提供了更多的可能性。

本文第一作者為劉啟昊,約翰霍普金斯大學計算機科學博士四年級學生,師從 Alan Yuille 教授,研究方向涉及模型魯棒性、生成模型與 3D 視覺。通訊作者為 Mannat Singh,Meta GenAI 研究員,近期的研究主要涉及視頻生成領域創(chuàng)新工作,包括 Emu Video、MovieGen 等項目。

在人工智能領域,跨模態(tài)生成(如文本到圖像、圖像到文本)一直是技術發(fā)展的前沿方向。現(xiàn)有方法如擴散模型(Diffusion Models)和流匹配(Flow Matching)雖取得了顯著進展,但仍面臨依賴噪聲分布、復雜條件機制等挑戰(zhàn)。

近期,Meta 與約翰霍普金斯大學聯(lián)合推出的 CrossFlow 框架,以全新的技術路徑實現(xiàn)了跨模態(tài)生成的突破性進展,為生成式 AI 開辟了更高效、更通用的可能性。該文章已經(jīng)被 CVPR 2025 收錄為 Highlight。


  • 論文標題:Flowing from Words to Pixels: A Noise-Free Framework for Cross-Modality Evolution
  • 論文地址:https://arxiv.org/pdf/2412.15213
  • 項目主頁:https://cross-flow.github.io/
  • 代碼地址:https://github.com/qihao067/CrossFlow
  • Demo地址:https://huggingface.co/spaces/QHL067/CrossFlow

核心創(chuàng)新:從 “噪聲到數(shù)據(jù)” 到 “模態(tài)到模態(tài)”

基于 Diffusion 或者流匹配的生成模型通常從高斯噪聲出發(fā),通過逐步去噪或優(yōu)化路徑生成目標數(shù)據(jù)。然而,對于噪聲的依賴限制了這類算法的靈活性和潛能。

近期,不少工作在探索如何擺脫對噪聲的依賴,比如使用基于薛定諤橋的生成模型。然而這些算法往往很復雜,并且依舊局限于相似模態(tài)之間的生成(比如人類轉貓臉等)。

而 CrossFlow 則深入分析了流匹配,并基于流匹配提出了一種非常簡單跨模態(tài)生成新范式,可以直接在模態(tài)間進行映射,無需依賴噪聲分布或額外條件機制。例如,在文本到圖像生成中,模型直接使用流匹配學習從文本語義空間到圖像空間的映射,省去了復雜的跨注意力機制(Cross-Attention),僅通過自注意力即可實現(xiàn)高效的文本到圖像生成。

圖片

通過直接使用流匹配做模態(tài)間的映射,本文提出的模型在僅使用由自注意力和前向層組成的 transformer 的情況下,不需要基于任務的特定設計,便在多個任務(圖像生成、字幕生成、深度估計、超分辨率)上實現(xiàn)了媲美乃至超過最優(yōu)算法的性能。

圖片

作者發(fā)現(xiàn),使用流匹配做模態(tài)間映射的核心在于如何形成 regularized 的分布。

為了實現(xiàn)這一點,作者提出使用變分編碼器(Variational Encoder):將輸入模態(tài)(如文本)編碼為與目標模態(tài)(如圖像)同維度的正則化潛在空間,確保跨模態(tài)路徑的平滑性和語義連貫性。然后,作者發(fā)現(xiàn):僅需要訓練一個最簡單的流匹配模型,就可以實現(xiàn)這兩個空間的映射。 

圖片

同時,現(xiàn)在的圖片生成模型往往依賴無分類器引導(Classifier-free guidance)。這種引導通過改變額外輸入的 condition 來實現(xiàn)。為了在無額外條件機制的情況下實現(xiàn)無分類器引導,作者通過引入二元指示符,在單模型中實現(xiàn)條件與非條件生成的靈活切換,顯著提升生成質量。

實驗表現(xiàn)

作者通過大量實驗證明了新范式的優(yōu)勢:

1. 在文本到圖像生成任務上,相比于主流的使用跨注意力增加 text condition 的方法,CrossFlow 取得了更好的生成效果,并且有更好的 scaling 特性。

圖片

圖片

圖片

2. latent space 的差值算術操作:支持語義層面的加減運算(如 “戴帽子的狗”+“墨鏡”-“帽子”=“戴墨鏡的狗”),為生成內容提供前所未有的可控性,同時為圖像編輯、平滑的視頻生成等任務提供了新思路。

圖片

3. 源分布可定制,讓圖像生成更靈活,同時顯著降低訓練成本,提高生成速度:原本的圖像生成始終學習從噪聲到圖像的映射,因此流匹配所需要學到的 path 的復雜度是確定的。而 CrossFlow 則建立了一個可學習的源分布到圖像的映射,通過不同的方法來學習源分布,可以改變兩個分布之間的差異以及 path 的復雜度,實現(xiàn)更靈活、快速的生成。

具體來說,相比 DALL-E 2 等模型,CrossFlow 訓練資源需求大幅減少(630 A100 GPU 天 vs. 數(shù)千天),而后續(xù)的研究工作也表明,通過對源分布的設計,可以進一步將訓練時間縮短至 208 A100 GPU 天,并提高 6.62 倍的采樣速度。

4. 由于流匹配的 “雙向映射” 的特性(bi-directional flow property),可以直接將文本到圖像生成模型反過來使用,成為一個圖像描述(image captioning)模型——該模型在 COCO 上取得了 SOTA 水平。

圖片

5. 無需基于任務的特定設計,即可以在多個任務上(圖像生成、圖像描述、深度估計、超分辨率)的多個數(shù)據(jù)集上取得 SOTA 的水平,推動模型使用統(tǒng)一、單一框架適配多任務。

圖片


圖片

結語

CrossFlow 的誕生標志著生成式 AI 從 “噪聲中創(chuàng)造” 邁向 “語義間流轉” 的新階段。其簡潔的設計、卓越的性能與靈活的擴展性,為跨模態(tài)生成提供了更多的可能性。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-26 15:11:41

AI模型自動化

2025-06-17 02:25:00

工業(yè)異常檢測

2023-07-30 16:05:44

多模態(tài)學習框架自然語言

2021-08-26 10:04:27

小米MIUI12.5

2010-07-15 09:11:59

JavaScrip

2025-05-06 08:40:00

2025-04-29 09:21:00

2025-05-28 03:30:00

AI人工智能大數(shù)據(jù)

2025-01-22 08:17:03

2025-06-09 08:50:00

2025-01-08 08:21:16

2024-08-12 07:30:00

模型訓練

2023-12-23 23:35:13

語言視覺

2016-09-26 15:14:28

Javascript前端vue

2024-01-25 10:19:10

2023-09-03 12:52:17

2025-05-06 09:41:06

2023-09-11 13:12:54

模型數(shù)據(jù)

2025-05-08 04:10:00

SpringAI身份證識別
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久久中文字 | 99久久精品免费看国产四区 | 亚洲国产成人在线视频 | 日本黄色影片在线观看 | 国产视频中文字幕 | 国产日韩欧美一区二区 | 国产欧美一级 | 欧美xxxx色视频在线观看免费 | 成人影院免费视频 | 精品少妇一区二区三区在线播放 | 91爱爱·com | 四虎影视| 在线日韩av电影 | 一区二区三区久久 | h视频免费看 | 中文字幕影院 | 欧日韩在线| 亚洲精品国产电影 | 欧美性网 | 欧美色性 | 中文字幕视频在线 | 日韩在线免费 | 亚洲国产精品一区二区三区 | 国产精品视频久久 | 精品久久久一区 | 中文字幕爱爱视频 | 一二区电影 | 亚洲视频在线一区 | 精品美女视频在免费观看 | 亚洲欧美成人影院 | 国产精品美女久久久久久免费 | 免费九九视频 | 午夜天堂精品久久久久 | 国产精品免费一区二区三区四区 | 欧美激情精品久久久久久变态 | 91精品国产欧美一区二区成人 | 国产伦精品一区二区三区四区视频 | 国产精品亚洲视频 | 亚洲中午字幕 | 中文字幕亚洲一区 | 天天射美女 |