成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

iPhone動(dòng)嘴10秒P圖!UCSB蘋果全華人團(tuán)隊(duì)發(fā)布多模態(tài)MGIE,官宣開源人人可玩

人工智能 新聞
最近,來(lái)自UCSB和蘋果的華人團(tuán)隊(duì)提出了MGIE,通過多模態(tài)模型引導(dǎo)圖像精準(zhǔn)編輯,可以10秒完成P圖。

幾天前,庫(kù)克在蘋果電話會(huì)上證實(shí),「今年晚些時(shí)候會(huì)發(fā)布生成式AI」。

ChatGPT掀起全球熱潮之后,蘋果也在悄悄發(fā)力AI,曾曝出的大模型框架Ajax、AppleGPT等AI工具讓業(yè)界充滿了期待。

6月舉辦的WWDC上,這家曾霸占全球市值第一公司,將會(huì)宣布各種AI能力整合到iOS 18、iPadOS 18等軟件產(chǎn)品中。

而在此之前,你在iPhone可以搶先用上AI超能力了!

隨意拍攝一張餐桌圖,然后說(shuō)一句「在餐桌上添加一份披薩」。披薩瞬間就出現(xiàn)在桌子上了。

圖片

此外,你還可以隨意選一張圖,可以讓圖片中哭臉變成笑臉、照片提亮、移除背景人物,甚至可以將綠植景色更換成海洋。

這些魔法實(shí)現(xiàn),只需你動(dòng)動(dòng)嘴,立刻完成P圖。

圖片

這項(xiàng)神奇的技術(shù)背后是由一個(gè)基于自然語(yǔ)言修改圖片的新模型——MGIE加持,由UCSB和蘋果全華人團(tuán)隊(duì)共同完成。

具體就是,通過多模態(tài)模型,去引導(dǎo)圖像進(jìn)行編輯。

圖片

論文地址:https://arxiv.org/pdf/2309.17102.pdf

從上面例子中看的出,MGIE最大的特點(diǎn)便是,用簡(jiǎn)短的話,就能實(shí)現(xiàn)出色的圖像編輯能力。

目前,這篇論文已被ICLR 2024錄用為spotlight,并且在今天正式開源。

所有人都可以上線試玩。

圖片

地址:http://128.111.41.13:7122/

MLLM理解,擴(kuò)散模型生成

文本引導(dǎo)的圖像編輯,在近來(lái)的研究中逐漸得到了普及。

因其對(duì)真實(shí)圖像進(jìn)行建模擁有的強(qiáng)大能力,擴(kuò)散模型也被用于圖像編輯。

大模型在各種語(yǔ)言任務(wù)中,包括機(jī)器翻譯、文本摘要和問答,展現(xiàn)出強(qiáng)大的能力。LLM通過從大規(guī)模語(yǔ)料庫(kù)中學(xué)習(xí),包含潛在的視覺知識(shí)和創(chuàng)造力,可以協(xié)助各種視覺和語(yǔ)言任務(wù)。

另外,多模態(tài)大模型(MLLM)可以自然地將圖片作為輸入,在提供視覺感知響應(yīng),以及充當(dāng)多模態(tài)助手展現(xiàn)出強(qiáng)大的能力。

受MLLM的啟發(fā),研究人員將其合并以解決指令引導(dǎo)不足的問題,并引入MLLM引導(dǎo)圖像編輯(MGIE)。

如圖2所示,MGIE由MLLM和擴(kuò)散模型組成。MLLM學(xué)習(xí)導(dǎo)出簡(jiǎn)潔的表達(dá)指令,并提供明確的視覺相關(guān)指導(dǎo)。

通過端到端訓(xùn)練,擴(kuò)散模型會(huì)聯(lián)合更新,并利用預(yù)期目標(biāo)的潛在想象力執(zhí)行圖像編輯。

圖片

具體來(lái)說(shuō),通過給定的指令X將輸入圖像V,編輯為目標(biāo)圖像圖片。為了處理不精確的指令,MGIE包含MLLM并學(xué)習(xí)導(dǎo)出明確而簡(jiǎn)潔的表達(dá)指令圖片

為了橋接語(yǔ)言和視覺的模態(tài),研究人員在圖片之后添加特殊的 [IMG] token,并采用編輯頭T對(duì)其進(jìn)行轉(zhuǎn)換。

它們將指導(dǎo)擴(kuò)散模型F實(shí)現(xiàn)預(yù)期的編輯目標(biāo)。然后,MGIE能夠通過視覺相關(guān)感知來(lái)理解模糊命令,以進(jìn)行合理的圖像編輯。

這樣,MGIE就能從固有的視覺推導(dǎo)中獲益,并解決模糊的人類指令,從而實(shí)現(xiàn)合理的編輯。

比如,下圖中在沒有額外的語(yǔ)境情況下,很難捕捉到「健康」的含義。

而MGIE模型可以將「蔬菜配料」與披薩精確地聯(lián)系起來(lái),并按照期望進(jìn)行相關(guān)編輯。

圖片

即便用蒙版遮住人臉,MGIE也能準(zhǔn)確理解背景中的女人并移除。

圖片

照片提亮,也做的很出色。

圖片

圖片中,MGIE在具體某塊區(qū)域的精準(zhǔn)編輯。

圖片

實(shí)驗(yàn)結(jié)果

為了學(xué)習(xí)基于指令的圖像編輯,研究中采用了IPr2Pr作為預(yù)訓(xùn)練數(shù)據(jù)集。

它包含 1M CLIP過濾數(shù)據(jù),其中指令由GPT-3提取,圖像由Prompt-to-Prompt合成。

為了進(jìn)行全面評(píng)估,研究人員考慮了編輯的各個(gè)方面,包括EVR、GIER、MA5k、MagicBrush,并發(fā)現(xiàn)MGIE可進(jìn)行Photoshop風(fēng)格的修改、全局照片優(yōu)化和局部對(duì)象修改。

基線

研究人員將InsPix2Pix作為基線,它建立在CLIP文本編碼器上,具有用于基于指令的圖像編輯的擴(kuò)散模型。

另外,還考慮了類似的LLM引導(dǎo)圖像編輯(LGIE)模型,其中采用LLaMA-7B來(lái)表達(dá)來(lái)自僅指令輸入但沒有視覺感知的表達(dá)指令圖片

圖片

實(shí)施細(xì)節(jié)

MLLM 和擴(kuò)散模型圖片從LLaVA-7B和 StableDiffusion-v1.5初始化,并共同更新圖像編輯任務(wù)。請(qǐng)注意,MLLM中只有詞嵌入和LM head是可訓(xùn)練的。

按照GILL的方法,研究人員使用N =8個(gè)視覺token。編輯頭T是一個(gè)4層的Transformer,它將語(yǔ)言特征轉(zhuǎn)化為編輯指導(dǎo)。我們采用批大小為128的AdamW來(lái)優(yōu)化 MGIE。

MLLM和圖片的學(xué)習(xí)率分別為5e-4和1e-4。所有實(shí)驗(yàn)均在PyTorch中在8個(gè)A100 GPU上進(jìn)行。

定量結(jié)果

表一顯示了零樣本編輯結(jié)果,其中模型僅在IPr2Pr上進(jìn)行訓(xùn)練。

對(duì)于涉及Photoshop風(fēng)格修改的EVR和GIER,表達(dá)性指令可以揭示具體目標(biāo),而簡(jiǎn)短但模糊的命令去無(wú)法讓編輯更接近意圖。

對(duì)于MA5k上的全局照片優(yōu)化,由于相關(guān)訓(xùn)練三元組的稀缺,InsPix2Pix很難處理。

LGIE和MGIE雖然是同一來(lái)源的訓(xùn)練,但可以通過LLM的學(xué)習(xí)提供詳細(xì)的解釋,但LGIE仍然局限于其單一的模式。

通過訪問圖像,MGIE可以得出明確的指令,例如哪些區(qū)域應(yīng)該變亮,或哪些對(duì)象更加清晰。

它可以帶來(lái)顯著的性能提升,另外在MagicBrush也發(fā)現(xiàn)了類似的結(jié)果。MGIE也在精確的視覺上獲得了最佳的表現(xiàn)。

圖片

為了研究針對(duì)特定目的的基于指令的圖像編輯,表2對(duì)每個(gè)數(shù)據(jù)集上的模型進(jìn)行了微調(diào)。

對(duì)于EVR和GIER,所有模型在適應(yīng)Photoshop風(fēng)格的編輯任務(wù)后都獲得了改進(jìn)。由于微調(diào)也使表達(dá)指令更加針對(duì)特定領(lǐng)域,因此MGIE通過學(xué)習(xí)領(lǐng)域相關(guān)指導(dǎo)來(lái)增加最多。

從上面的實(shí)驗(yàn)中,說(shuō)明了使用表達(dá)指令進(jìn)行學(xué)習(xí),可以有效地增強(qiáng)圖像編輯,而視覺感知在獲得最大增強(qiáng)的明確指導(dǎo)方面起著至關(guān)重要的作用。

圖片

消融研究

MLLM引導(dǎo)圖像編輯在零樣本和微調(diào)場(chǎng)景中,都表現(xiàn)出了巨大的改進(jìn)。

現(xiàn)在,團(tuán)隊(duì)還研究了不同的架構(gòu)來(lái)使用表達(dá)指令。

表3中,研究人員將FZ、FT和E2E架構(gòu)進(jìn)行了對(duì)比,結(jié)果表明,圖像編輯可以從LLM/MLLM指令推導(dǎo)過程中的明確指導(dǎo)中受益。

E2E與LM一起更新編輯擴(kuò)散模型,LM學(xué)習(xí)通過端到端的隱藏狀態(tài),同時(shí)提取適用的指導(dǎo),并丟棄不相關(guān)的敘述。

此外,E2E還可以避免表達(dá)指令可能傳播的潛在錯(cuò)誤。

因此,研究人員觀察到全局優(yōu)化(MA5k)和本地編輯(MagicBrush)方面的增強(qiáng)最多。在FZ、FT、E2E中,MGIE持續(xù)超過LGIE。這表明具有關(guān)鍵視覺感知的表達(dá)指令,在所有消融設(shè)置中始終具有優(yōu)勢(shì)。

圖片

為什么MLLM的指導(dǎo)有很大幫助?

圖4顯示了輸入或真實(shí)目標(biāo)圖像與表達(dá)指令之間的CLIP-Score值。

輸入圖像的CLIP-S分?jǐn)?shù)越高,說(shuō)明指令與編輯源相關(guān)。更好地與目標(biāo)圖像保持一致可提供明確、相關(guān)的編輯指導(dǎo)。

由于無(wú)法獲得視覺感知,LGIE的表達(dá)式指令僅限于一般語(yǔ)言想象,無(wú)法針對(duì)源圖像量身定制。CLIP-S甚至低于原始指令。

相比之下,MGIE更符合輸入/目標(biāo),這也解釋了為什么表達(dá)性指令很有幫助。有了對(duì)預(yù)期結(jié)果的清晰敘述,MGIE可以在圖像編輯方面取得最大的改進(jìn)。

圖片

人工評(píng)估

除了自動(dòng)評(píng)估指標(biāo)外,研究還進(jìn)行了人工評(píng)估,以研究生成的表達(dá)指令和圖像編輯結(jié)果。

研究人員具體為每個(gè)數(shù)據(jù)集隨機(jī)采樣25個(gè)示例(共100個(gè)),并考慮由人類對(duì)基線和MGIE進(jìn)行排名。

為避免潛在的排名偏差,研究人員為每個(gè)示例聘請(qǐng)了3名標(biāo)注者。

圖5顯示了生成的表達(dá)性指令的質(zhì)量。

首先,超過53%的人支持MGIE提供更實(shí)用的表達(dá)式指導(dǎo),這有助于在明確的指導(dǎo)下完成圖像編輯任務(wù)。

同時(shí),有57%的標(biāo)注者表示,MGIE可以避免LGIE中由語(yǔ)言衍生的幻覺所產(chǎn)生的不相關(guān)描述,因?yàn)樗J(rèn)為圖像有一個(gè)精確的編輯目標(biāo)。

圖片

圖6比較了InsPix2Pix、LGIE和MGIE在指令遵循、地面真值相關(guān)性和整體質(zhì)量方面的圖像編輯結(jié)果。排名分?jǐn)?shù)從1-3不等,越高越好。

利用從LLM或MLLM派生的表達(dá)式指令,LGIE和MGIE的表現(xiàn)均優(yōu)于基線,其執(zhí)行的圖像編輯與指令相關(guān),并與地面真值目標(biāo)相似。

此外,由于研究中的表達(dá)式指令可以提供具體的視覺感知指導(dǎo),因此MGIE在包括整體編輯質(zhì)量在內(nèi)的各個(gè)方面都具有較高的人類偏好。這些性能趨勢(shì)也與自動(dòng)評(píng)估結(jié)果一致。

圖片

推理效率

盡管依靠MLLM來(lái)促進(jìn)圖像編輯,MGIE僅給出了簡(jiǎn)潔的表達(dá)指令(少于32個(gè)token)并包含與InsPix2Pix一樣的可行效率。

表4顯示了NVIDIA A100 GPU上的推理時(shí)間成本。

對(duì)于單次輸入,MGIE可以在10秒內(nèi)完成編輯任務(wù)。隨著數(shù)據(jù)并行化程度的提高,我們花費(fèi)了相似的時(shí)間(例如,當(dāng)批大小為8時(shí),需要37秒)。

整個(gè)過程只需一個(gè)GPU(40GB)就可以負(fù)擔(dān)得起。

總之,MGIE超越了質(zhì)量基準(zhǔn),同時(shí)保持了有競(jìng)爭(zhēng)力的效率,從而實(shí)現(xiàn)了有效且實(shí)用的圖像編輯。

圖片

定性比較

圖7展示了所有使用的數(shù)據(jù)集的可視化比較。

圖片

圖8進(jìn)一步比較了LGIE或MGIE的表達(dá)指令。

圖片

總之,在最新研究中,UCSB和蘋果團(tuán)隊(duì)提出了MLLM引導(dǎo)圖像編輯(MGIE),通過學(xué)習(xí)生成表達(dá)指令來(lái)增強(qiáng)基于指令的圖像編輯。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-02-05 12:45:33

AI訓(xùn)練

2024-06-24 13:35:58

2023-08-24 14:22:00

智能模型

2024-08-20 14:56:35

2024-09-11 14:49:00

2024-03-12 13:33:40

2011-09-28 09:21:24

AppleiPhone

2024-03-05 11:31:00

AI數(shù)據(jù)

2011-10-03 22:28:39

蘋果iPhone 5iOS 5

2013-08-12 10:54:14

蘋果iPhone

2024-05-21 07:54:30

視頻多模態(tài)語(yǔ)義檢索算法

2024-03-11 13:23:15

特斯拉OpenAI計(jì)算機(jī)

2011-10-03 21:37:49

iPhoneiPhone 5iPhone 4S

2023-10-10 13:42:56

訓(xùn)練數(shù)據(jù)

2023-09-19 09:22:54

數(shù)據(jù)訓(xùn)練

2023-12-25 09:07:50

AI人工智能Ferret

2011-09-19 09:46:29

蘋果iPhone 5

2016-12-09 08:51:18

GoogleDevelopers網(wǎng)站

2024-08-19 13:35:09

2024-02-08 09:33:37

蘋果AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品视频999 | 久久久久久av | 国产精品一区视频 | 在线欧美日韩 | 免费看黄色视屏 | 国内精品久久影院 | 每日在线更新av | 国产视频一区二区在线观看 | 久久伊人亚洲 | 亚洲视频精品 | 伊人网综合在线观看 | 久久精品小视频 | 欧美日韩成人影院 | 国产精品国产三级国产aⅴ中文 | 91免费看片神器 | 欧美lesbianxxxxhd视频社区 | 中文字幕在线精品 | 一区二区三区视频 | 国产 日韩 欧美 在线 | 一级毛片免费视频 | 综合网在线 | 天天草天天操 | 999久久久免费精品国产 | 欧美视频免费 | 欧美中文字幕在线观看 | av中文在线观看 | 91文字幕巨乱亚洲香蕉 | 日韩中文字幕在线观看视频 | 国产做a爱片久久毛片 | 男女羞羞视频免费 | 成人h动漫亚洲一区二区 | 国产精品久久久久无码av | 精国产品一区二区三区四季综 | 国产一区 | 99精品免费视频 | 91精品久久久久久久久中文字幕 | com.色.www在线观看 | 四虎成人精品永久免费av九九 | 精品久久久久久久久亚洲 | 91视频麻豆 | 精品国产一区二区三区久久久久久 |