成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<th id="oztev"></th>

<th id="oztev"><abbr id="oztev"></abbr></th>

<tfoot id="oztev"><legend id="oztev"></legend></tfoot>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

MUMU：用文本、圖像引導，多模態圖像生成模型

發布于 2024-8-26 09:52

瀏覽

0收藏

傳統的文生圖模型僅使用文本提示有時無法完美還原用戶的提示詞，例如，生成一個穿著紅色披風的超級英雄在城市中飛翔的圖像，傳統的文本到圖像生成模型可能會根據文本描述生成一個大致符合要求的圖像，但可能無法準確呈現出用戶想要的超級英雄的具體形象或披風的顏色和樣式。

為了提升圖片的生成準確度，Sutter Hill的研究人員開發了可基于文本和圖像引導的多模態圖像生成模型MUMU。用戶不僅可以使用文本提示，還能使用要生成目標圖像的參考圖，進一步提升生成準確率。

論文地址：https://arxiv.org/abs/2406.18790

MUMU：用文本、圖像引導，多模態圖像生成模型-AI.x社區

MUMU 的架構是基于 SDXL 的預訓練卷積 UNet，通過替換 SDXL 的輔助CLIP 文本編碼器，并將 SDXL 的主要 CLIP 文本編碼器替換為視覺語言模型 Idefics2 的隱藏狀態來構建。

Idefics2由一個從 SigLIP初始化的視覺變換器用于嵌入圖像輸入，一個感知器變換器用于將圖像嵌入池化到固定的序列長度，以及一個從Mistral 7b 初始化的大型視覺語言模型變換器組成。

MUMU：用文本、圖像引導，多模態圖像生成模型-AI.x社區

在 MUMU 架構中，研究人員去除了感知器變換器，以使用更多的圖像token，這樣可以提高圖像質量，并且圖像質量在每個圖像大約 1000 個token時達到飽和。此外，還在 Idefics2 的隱藏狀態之上添加了一個小型的非因果 “適配器” 變換器。

為了增強模型的能力，研究團隊采用了兩種類型的數據：合成數據和真實數據。合成數據由大約300萬張使用SDXL生成的圖像組成，并且這些圖像經過了最低PickScore的篩選。

為了鼓勵模型區分內容和風格，每個內容都配對了許多不同的風格。此外，還使用了大語言模型從DiffusionDB中抽取內容和風格，并手動觸發產生額外的內容和風格。

MUMU：用文本、圖像引導，多模態圖像生成模型-AI.x社區

另一方面，考慮到SDXL可能無法生成完美的、高分辨率的真實圖像，研究人員還加入了約200萬張高質量的真實圖像，主要包含人物。這些圖像經過篩選，確保它們是安全的、高分辨率的、無水印的，并且包含0或1個人物。隨后，這些圖像被盡可能地中心裁剪到人物上，并使用Llava 1.6進行標題化處理。

在訓練過程中，研究團隊在單個 8xH100 GPU 節點上使用 PyTorch FSDP 分兩個階段訓練 MUMU。所有圖像都用黑色像素填充為正方形分辨率，圖像裁剪總是調整大小以滿足目標分辨率。

在第一階段，每個提示最多插入四張圖像，每張圖像使用 324 個token，并且最多插入三個在輸入圖像中檢測到的對象的裁剪。30% 的時間還會額外插入輸入圖像的 canny 邊緣、深度或草圖的圖像。

MUMU：用文本、圖像引導，多模態圖像生成模型-AI.x社區

在第二階段，每個提示插入一個對應 1296 個token的高分辨率人臉或人物裁剪，以觀察更多token是否能改善人臉質量。

為了評估 MUMU 的性能，研究人員進行了一系列測試。與 ChatGPT + DALLE - 3的對比測試表明，MUMU 在保留條件圖像的細節方面表現更好。例如，當輸入一張現實生活中的人像和一張卡通風格的圖像時，模型能成功輸出相同人物在卡通風格下的圖像。

MUMU：用文本、圖像引導，多模態圖像生成模型-AI.x社區

輸入站立的人物和滑板時，模型能生成人物騎著滑板的畫面。MUMU 生成的圖像能夠更好地保留圖像的細節，而 ChatGPT + DALLE - 3則相對較差。

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/P3vuRhWrRMEggYes2Ts-Sw??

標簽

贊

收藏

回復

舉報

回復

相關推薦

蘋果推出多模態大模型MM1，能解釋圖像和文本數據

laojean ? 2807瀏覽 ? 0回復
文本直接生成多視角3D圖像，Meta推出創新模型

Aceryt ? 2588瀏覽 ? 0回復
圖像生成模型王牌——Diffusion Transformers系列工作梳理

海因斯DK ? 5996瀏覽 ? 0回復
將圖像自動文本化，圖像描述質量更高、更準確了

輕薄滴假象 ? 2476瀏覽 ? 0回復
TextCoT：放大增強型多模態富文本圖像理解

AIRoobt ? 3523瀏覽 ? 0回復
?TextCoT：放大增強型多模態富文本圖像理解

AIRoobt ? 3305瀏覽 ? 0回復
Lumina-T2X: 一款集成圖像、視頻、音頻和3D生成的多模態擴散模型

sword_hero ? 3041瀏覽 ? 0回復
Stable Diffusion這樣的文本-圖像生成模型有記憶嗎？

angel ? 2443瀏覽 ? 0回復
多模態大語言模型的演變全回顧！（視覺定位、圖像生成、編輯、理解）

angel ? 4147瀏覽 ? 0回復
UIUC提出InstructG2I：從多模態屬性圖合成圖像?，結合文本和圖信息生成內容更豐富有趣！

angel ? 2606瀏覽 ? 0回復
五種時頻圖像一鍵切換，CVPR 頂會+多模態融合

Tang_Lan ? 2701瀏覽 ? 0回復
Emu3：開啟多模態人工智能新紀元 —— 視頻、圖像、文本三合一模型

穿越時空111 ? 2761瀏覽 ? 0回復
FGM：刷新流匹配模型單步文本到圖像生成紀錄！(浙大&卡內基梅隆&北大&西湖大學)

angel ? 3269瀏覽 ? 0回復
DeepSeek AI發布Janus：一款擁有圖像生成能力的1.3B多模態模型

Halo咯咯 ? 6266瀏覽 ? 0回復
五種時頻圖像一鍵切換，CVPR 頂會+多模態融合

Tang_Lan ? 3596瀏覽 ? 0回復
時序+圖像+文本，多模態增強的時序預測模型

海因斯DK ? 5945瀏覽 ? 0回復
2025首篇關于多模態大模型在富文本圖像理解上的全面研究綜述

PaperAgent ? 4675瀏覽 ? 0回復
IBM提出多模式圖像文本到文本模型SmolDocling，可實現代碼 | 公示 | 圖表 | 表格 | 標題高效轉換！

AIGCStudio ? 1770瀏覽 ? 0回復
BLIP3-o統一圖像生成與理解，多模態融合趨勢顯現

CourseAI ? 712瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

剛剛，OpenAI發布GPT-image-1模型，更強吉卜力版本來啦 2025-04-24 09:57:36發布
字節跳動開源多模態AI Agent—UI-TARS-1.5 2025-04-23 11:55:00發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：美國律師協會：ChatGPT等生成式AI，能幫助律師提升效率

下一篇：突發！OpenAI展示草莓，很快發布“GPT-5”獵戶座！

社區精華內容

目錄

主站蜘蛛池模板： 18gay男同69亚洲网站 | 成人一区av偷拍 | 不卡视频一区 | 久久久久欧美 | 欧美久久不卡 | 久久久久国产精品免费免费搜索 | 国产精品欧美一区二区三区不卡 | 国产亚洲欧美在线 | 福利片在线看 | 欧美日韩成人在线 | 欧美激情精品久久久久久 | 久久国内精品 | 午夜男人天堂 | 久久精品亚洲 | 欧美精品一区二区三区四区在线 | 日韩毛片免费看 | 中文视频在线 | 欧美一区二区三区国产精品 | 日韩成人免费视频 | 中文字幕高清 | 一级免费看 | 亚洲精品一区二区在线观看 | 国产精品一区二 | 亚洲视频免费在线观看 | 91大神在线资源观看无广告 | 能免费看的av | 成人小视频在线观看 | 欧美性猛交一区二区三区精品 | www.激情.com | 色视频在线免费观看 | 无吗视频| 国产成人免费在线观看 | 91视视频在线观看入口直接观看 | 欧美成人a | 欧美日韩亚洲国产综合 | 做a视频 | 麻豆成人在线视频 | 国产欧美精品一区二区 | 国产高清91 | 在线欧美日韩 | www.玖玖玖 |

<tt id="fweto"><small id="fweto"></small></tt>