成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態(tài)圖像合成與編輯這么火,馬普所、南洋理工等出了份詳細(xì)綜述

人工智能 新聞
本篇綜述通過(guò)對(duì)現(xiàn)有的多模態(tài)圖像合成與編輯方法的歸納總結(jié),對(duì)該領(lǐng)域目前的挑戰(zhàn)和未來(lái)方向進(jìn)行了探討和分析。

近期 OpenAI 發(fā)布的 DALLE-2 和谷歌發(fā)布的 Imagen 等實(shí)現(xiàn)了令人驚嘆的文字到圖像的生成效果,引發(fā)了廣泛關(guān)注并且衍生出了很多有趣的應(yīng)用。而文字到圖像的生成屬于多模態(tài)圖像合成與編輯領(lǐng)域的一個(gè)典型任務(wù)。近日,來(lái)自馬普所和南洋理工等機(jī)構(gòu)的研究人員對(duì)多模態(tài)圖像合成與編輯這一大領(lǐng)域的研究現(xiàn)狀和未來(lái)發(fā)展做了詳細(xì)的調(diào)查和分析。

圖片


  • 論文地址:https://arxiv.org/pdf/2112.13592.pdf
  • 項(xiàng)目地址:https://github.com/fnzhan/MISE


圖片

在第一章節(jié),該綜述描述了多模態(tài)圖像合成與編輯任務(wù)的意義和整體發(fā)展,以及本論文的貢獻(xiàn)與總體結(jié)構(gòu)。

在第二章節(jié),根據(jù)引導(dǎo)圖片合成與編輯的數(shù)據(jù)模態(tài),該綜述論文介紹了比較常用的視覺(jué)引導(dǎo)(比如 語(yǔ)義圖,關(guān)鍵點(diǎn)圖,邊緣圖),文字引導(dǎo),語(yǔ)音引導(dǎo),場(chǎng)景圖(scene graph)引導(dǎo)和相應(yīng)模態(tài)數(shù)據(jù)的處理方法以及統(tǒng)一的表示框架。

在第三章節(jié),根據(jù)圖像合成與編輯的模型框架,該論文對(duì)目前的各種方法進(jìn)行了分類(lèi),包括基于 GAN 的方法,自回歸方法,擴(kuò)散模型方法,和神經(jīng)輻射場(chǎng)(NeRF)方法。

圖片

圖片

由于基于 GAN 的方法一般使用條件 GAN 和 無(wú)條件 GAN 反演,因此該論文將這一類(lèi)別進(jìn)一步分為模態(tài)內(nèi)條件(例如語(yǔ)義圖,邊緣圖),跨模態(tài)條件(例如文字和語(yǔ)音),和 GAN 反演(統(tǒng)一模態(tài))并進(jìn)行了詳細(xì)描述。

圖片

相比于基于 GAN 的方法,自回歸模型方法能夠更加自然的處理多模態(tài)數(shù)據(jù),以及利用目前流行的 Transformer 模型。自回歸方法一般先學(xué)習(xí)一個(gè)向量量化編碼器將圖片離散地表示為 token 序列,然后自回歸式地建模 token 的分布。由于文本和語(yǔ)音等數(shù)據(jù)都能表示為 token 并作為自回歸建模的條件,因此各種多模態(tài)圖片合成與編輯任務(wù)都能統(tǒng)一到一個(gè)框架當(dāng)中。

圖片


圖片

近期,火熱的擴(kuò)散模型也被廣泛應(yīng)用于多模態(tài)合成與編輯任務(wù)。例如效果驚人的 DALLE-2 和 Imagen 都是基于擴(kuò)散模型實(shí)現(xiàn)的。相比于 GAN,擴(kuò)散式生成模型擁有一些良好的性質(zhì),比如靜態(tài)的訓(xùn)練目標(biāo)和易擴(kuò)展性。該論文依據(jù)條件擴(kuò)散模型和預(yù)訓(xùn)練擴(kuò)散模型對(duì)現(xiàn)有方法進(jìn)行了分類(lèi)與詳細(xì)分析。

圖片


圖片

以上方法主要聚焦于 2D 圖像的多模態(tài)合成與編輯。近期隨著神經(jīng)輻射場(chǎng)(NeRF)的迅速發(fā)展,3D 感知的多模態(tài)合成與編輯也吸引了越來(lái)越多的關(guān)注。由于需要考慮多視角一致性,3D 感知的多模態(tài)合成與編輯是更具挑戰(zhàn)性的任務(wù)。本文針對(duì)單場(chǎng)景優(yōu)化 NeRF,生成式 NeRF 和 NeRF 反演的三種方法對(duì)現(xiàn)有工作進(jìn)行了分類(lèi)與總結(jié)。

隨后,該綜述對(duì)以上四種模型方法的進(jìn)行了比較和討論??傮w而言,相比于 GAN,目前最先進(jìn)的模型更加偏愛(ài)自回歸模型和擴(kuò)散模型。而 NeRF 在多模態(tài)合成與編輯任務(wù)的應(yīng)用為這個(gè)領(lǐng)域的研究打開(kāi)了一扇新的窗戶。

圖片


在第四章節(jié),該綜述匯集了多模態(tài)合成與編輯領(lǐng)域流行的數(shù)據(jù)集以及相應(yīng)的模態(tài)標(biāo)注,并且針對(duì)各模態(tài)典型任務(wù)(語(yǔ)義圖像合成,文字到圖像合成,語(yǔ)音引導(dǎo)圖像編輯)對(duì)當(dāng)前方法進(jìn)行了定量的比較。

在第五章節(jié),該綜述對(duì)此領(lǐng)域目前的挑戰(zhàn)和未來(lái)方向進(jìn)行了探討和分析,包括大規(guī)模的多模態(tài)數(shù)據(jù)集,準(zhǔn)確可靠的評(píng)估指標(biāo),高效的網(wǎng)絡(luò)架構(gòu),以及 3D 感知的發(fā)展方向。

在第六和第七章節(jié),該綜述分別闡述了此領(lǐng)域潛在的社會(huì)影響和總結(jié)了文章的內(nèi)容與貢獻(xiàn)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-06-28 18:18:22

2024-07-01 10:19:22

2023-09-11 12:04:20

2024-04-08 00:12:19

2023-04-13 15:25:14

模型

2024-03-11 09:37:01

模型圖片編輯

2024-07-15 08:58:00

2025-03-17 12:48:50

2023-04-10 16:34:46

模型文本

2023-05-19 13:24:20

模型AI

2021-04-06 10:20:42

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2023-12-03 08:46:20

模型開(kāi)源

2015-07-22 12:56:38

愛(ài)奇藝

2025-05-21 09:14:38

2025-04-28 14:13:43

開(kāi)源SOTA多模態(tài)

2025-02-12 10:12:00

視頻模型AI

2025-01-16 11:00:00

圖像模型AI

2025-03-17 10:25:28

2013-03-04 10:10:36

WebKit瀏覽器

2022-02-25 10:56:08

自動(dòng)駕駛傳感器技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美一区二区三区在线观看 | 99日韩 | 免费看黄色片 | 黄色国产| 特级黄一级播放 | 91免费小视频 | 先锋影音资源网站 | 欧美午夜精品理论片a级按摩 | 成人免费在线 | 国产精品影视 | 男女免费视频网站 | 九九伦理片| 国产精品一区二区欧美 | 国产精品夜夜夜一区二区三区尤 | 夜夜骑首页 | 天天看天天干 | 国产99久久精品一区二区永久免费 | 精品欧美激情精品一区 | 国产情侣久久 | 精品久久久久香蕉网 | 97精品视频在线观看 | 亚洲成人一二区 | www.男人天堂.com | 欧美日韩一区在线 | 国产精品一区二区三区在线 | 欧洲色综合 | 日韩在线观看中文字幕 | 特级一级黄色片 | 91精品导航 | 国产91丝袜在线播放 | 欧美一区二区三区国产精品 | 色橹橹欧美在线观看视频高清 | 日批日韩在线观看 | 欧美极品视频在线观看 | 色综合久久天天综合网 | 成人欧美一区二区三区在线播放 | www.五月天婷婷.com | 中文字幕在线精品 | 性国产丰满麻豆videosex | 国产精品人人做人人爽 | 中文天堂在线一区 |