成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

擴(kuò)散模型更懂復(fù)雜提示詞!Pika北大斯坦福開源新框架,利用LLM提升理解力

人工智能 新聞
文本-圖像生成/編輯框架RPG(Recaption,Plan and Generate),已經(jīng)在網(wǎng)上引起熱議。

Pika北大斯坦福聯(lián)手,開源最新文本-圖像生成/編輯框架!

無需額外訓(xùn)練,即可讓擴(kuò)散模型擁有更強(qiáng)提示詞理解能力。

面對超長、超復(fù)雜提示詞,準(zhǔn)確性更高、細(xì)節(jié)把控更強(qiáng),而且生成圖片更加自然。

效果超越最強(qiáng)圖像生成模型Dall·E 3和SDXL。

比如要求圖片左右冰火兩重天,左邊有冰山、右邊有火山。

SDXL完全沒有符合提示詞要求,Dall·E 3沒有生成出來火山這一細(xì)節(jié)。

圖片

還能通過提示詞對生成圖像二次編輯。

這就是文本-圖像生成/編輯框架RPG(Recaption,Plan and Generate),已經(jīng)在網(wǎng)上引起熱議。

圖片

它由北大、斯坦福、Pika聯(lián)合開發(fā)。作者包括北大計算機(jī)學(xué)院崔斌教授、Pika聯(lián)合創(chuàng)始人兼CTO Chenlin Meng等。

目前框架代碼已開源,兼容各種多模態(tài)大模型(如MiniGPT-4)和擴(kuò)散模型主干網(wǎng)絡(luò)(如ControlNet)。

利用多模態(tài)大模型做增強(qiáng)

一直以來,擴(kuò)散模型在理解復(fù)雜提示詞方面都相對較弱。

一些已有改進(jìn)方法,要么最終實現(xiàn)效果不夠好,要么需要進(jìn)行額外訓(xùn)練。

圖片

因此研究團(tuán)隊利用多模態(tài)大模型的理解能力來增強(qiáng)擴(kuò)散模型的組合能力、可控能力。

從框架名字可以看出,它是讓模型“重新描述、規(guī)劃和生成”。

圖片

該方法的核心策略有三方面:

1、多模態(tài)重新描述(Multimodal Recaptioning):利用大模型將復(fù)雜文本提示拆解為多個子提示,并對每個子提示進(jìn)行更加詳細(xì)的重新描述,以此提升擴(kuò)散模型對提示詞的理解能力。

2、思維鏈規(guī)劃(Chain-of-Thought Planning):利用多模態(tài)大模型的思維鏈推理能力,將圖像空間劃分為互補(bǔ)的子區(qū)域,并為每個子區(qū)域匹配不同的子提示,將復(fù)雜的生成任務(wù)拆解為多個更簡單的生成任務(wù)。

圖片

3、互補(bǔ)區(qū)域擴(kuò)散(Complementary Regional Diffusion):將空間劃分好后,非重疊的區(qū)域各自根據(jù)子提示生成圖像,然后進(jìn)行拼接。

圖片

最后就能生成出一張更加符合提示詞要求的圖片。

圖片

RPG框架還可以利用姿態(tài)、深度等信息進(jìn)行圖像生成。

和ControlNet對比,RPG能進(jìn)一步拆分輸入提示詞。

用戶輸入:在一間明亮的房間里,站著一位身穿香檳色長袖正裝、正閉著雙眼的漂亮黑發(fā)女孩。房間左邊放著一只插著粉色玫瑰花的精致藍(lán)花瓶,右邊有一些生機(jī)勃勃的白玫瑰。

基礎(chǔ)提示詞:一個漂亮女孩站在她的明亮的房間里。

區(qū)域0:一個裝著粉玫瑰的精致藍(lán)花瓶

區(qū)域1:一個身穿香檳色長袖正裝的漂亮黑發(fā)女孩閉著雙眼。

區(qū)域2:一些生機(jī)勃勃的白玫瑰。

圖片

也能實現(xiàn)圖像生成、編輯閉環(huán)。

圖片

實驗對比來看,RPG在色彩、形狀、空間、文字準(zhǔn)確等維度都超越其他圖像生成模型。

圖片

研究團(tuán)隊

該研究有兩位共同一作Ling Yang、Zhaochen Yu,都來自北大。

參與作者還有AI創(chuàng)企Pika聯(lián)合創(chuàng)始人兼CTO Chenlin Meng。

她是斯坦福計算機(jī)博士,在計算機(jī)視覺、3D視覺方面有著豐富學(xué)術(shù)經(jīng)歷,參與的去噪擴(kuò)散隱式模型(DDIM)論文,如今單篇引用已有1700+。并有多篇生成式AI相關(guān)研究發(fā)表在ICLR、NeurIPS、CVPR、ICML等頂會上,且多篇入選Oral。

去年,Pika憑借AI視頻生成產(chǎn)品Pika 1.0一炮而紅,2位斯坦福華人女博士創(chuàng)辦的背景,使其更加引人注目。

圖片

△左為郭文景(Pika CEO),右為Chenlin Meng

參與研究的還有北大計算機(jī)學(xué)院副院長崔斌教授,他還是數(shù)據(jù)科學(xué)與工程研究所長。

圖片

另外,斯坦福AI實驗室博士Minkai Xu、斯坦福助理教授Stefano Ermon共同參與這項研究。

論文地址:https://arxiv.org/abs/2401.11708

代碼地址:https://github.com/YangLing0818/RPG-DiffusionMaster

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-02-19 00:09:49

開源模型

2022-10-08 12:38:23

模型開源

2024-01-16 17:17:30

模型訓(xùn)練

2022-10-20 15:38:02

谷歌模型

2023-02-14 09:45:11

模型測試

2025-03-12 10:38:05

2023-03-15 10:26:00

模型開源

2021-03-31 10:28:11

GitHub 技術(shù)開源

2024-11-29 16:35:50

模型訓(xùn)練

2025-06-04 08:00:00

2023-12-25 09:23:07

模型技術(shù)

2024-05-13 12:58:30

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2021-04-02 15:02:42

開源技術(shù) 工具

2023-03-22 15:14:00

數(shù)據(jù)模型

2023-12-05 13:38:11

架構(gòu)模型

2024-01-03 13:37:00

模型數(shù)據(jù)

2024-08-07 13:00:00

2024-04-24 09:47:36

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 很很干很很日 | 中文字幕一区二区三区精彩视频 | 欧美激情亚洲 | 欧美日韩不卡合集视频 | 欧美一二三区 | 精品国产一二三区 | 男人天堂网址 | 久久99精品久久 | 久久九九色 | 羞羞视频在线观看 | japanhd美女动 | 国产日韩欧美在线观看 | 91久久综合亚洲鲁鲁五月天 | 波霸ol一区二区 | 狠狠婷婷综合久久久久久妖精 | 国产精品视频一区二区三区 | 国产精品成人久久久久a级 久久蜜桃av一区二区天堂 | 国产精品久久久久久久久久久久久 | 色妹子综合网 | 国产精品射 | 黄色片在线免费看 | 91中文 | 久久天堂 | 午夜视频在线免费观看 | 农村真人裸体丰满少妇毛片 | 精品产国自在拍 | av片网站 | 美女福利视频网站 | 99精品99| 免费v片在线观看 | 午夜免费看视频 | 亚洲国产精品一区二区三区 | 超碰超碰 | 欧美在线看片 | 国产一区二区三区精品久久久 | 国产日批| 在线一区二区观看 | 久久99久久99 | www.99热.com | 欧美精品一区二区三区蜜臀 | 免费激情|