真·打字P圖!字節發布新模型SeedEdit,一句話爆改世界名畫,可免費體驗
字節豆包大模型又又又上新了!
11 月 11 日,字節跳動豆包大模型團隊推出了最新圖像編輯模型 SeedEdit,主打一句話輕松 P 圖。
它是國內首個產品化的通用圖像編輯模型,無需描邊涂抹,僅使用簡單的自然語言,就能換背景、轉風格,或者在指定區域進行元素的增刪和替換。
比如,輸入 Prompt「把老婆餅換成驢打滾」,SeedEdit 立馬鎖定修改目標,完成美食替換:
(Prompt:把老婆餅換成驢打滾)
要知道,「老婆餅」、「驢打滾」等中國美食曾「騙」倒一眾大模型,但 SeedEdit 能精準理解復雜指令,不僅看得懂中英文提示詞,還對成語和專有名詞「門兒清」。
再比如,在不「誤傷」原圖細節的情況下,把草莓換成檸檬:
(Prompt:把草莓換成檸檬)
甚至可以讓油畫里戴珍珠耳環的少女張大嘴巴啃漢堡:
(Prompt:戴珍珠耳環的少女吃漢堡)
在處理玻璃裂紋、發絲等精細涂抹區域時,SeedEdit 同樣能夠保持原圖的完整性:
(Prompt:移除玻璃裂紋,干凈畫面)
此外,作為一款通用圖像編輯模型,它不僅具備單次編輯的能力,還支持多輪操作,能夠讓用戶對同一圖像進行連續的創意編輯。
比如,讓一個二次元女孩換上騎士裝、戴上牛仔帽、改變動作、增加背景,最后「Pia」一下變身酷颯火槍手:
本次 SeedEdit 推出,字節也發布了技術報告。AIGC 圖像的精準編輯一直是個老大難問題,業界此前方案要么在編輯上做不到「指哪打哪」,要么編輯生成的質量低或導致原圖主體變化較大。
報告顯示,SeedEdit 依然采用了 Diffusion 架構,但在不引入新參數的情況下將圖像生成模型轉換成了圖像編輯模型。其秘訣是在保持原始圖像和生成新內容之間尋找平衡,最終得以在圖像編輯的通用性、可控性和高質量上實現新的突破。
目前,SeedEdit 已上線豆包 PC 端和字節 AIGC 平臺即夢網頁端開始測試。
- 豆包 Web:https://www.doubao.com/chat/create-image
- 即夢 Web:https://jimeng.jianying.com/ai-tool/image/generate
SeedEdit 的圖片編輯效果可謂炸裂,讓人不禁要問:生成式 AI 的修圖技術是否真的已經能做到「毫無 PS 痕跡」了?
我們索性搞個實測,看看字節這款 AI 神器實力到底如何。
任意指令,精準編輯:一句話爆改世界名畫
今年以來,Dall?E 3、Midjourney 等 AI 繪圖平臺響應群眾呼聲,陸續上線了生圖編輯功能。
不得不說,相較業界之前方案,編輯生圖的質量和美感的確大大改善,但體驗上仍有提升空間,一是指定區域編輯需要手動涂抹,二是對編輯指令的響應經常不夠精準。
而這次字節卯足勁推出的 SeedEdit,首先在通用性上做到了極致,不用涂抹編輯區域,只需給出一句簡潔的 prompt,就能實現任意指令的編輯,適用各類編輯任務,支持用戶腦洞大開的奇思妙想。
其產品側玩法也很簡單。在即夢「圖片生成」中,上傳參考圖,選擇「智能參考」,然后根據需要輸入 Prompt 即可。接下來就是實測最關鍵的編輯精準度。
一手實測
我們先來惡搞一波世界名畫。
讓蒙娜麗莎抱只貓,再換個表情。
(Prompt:蒙娜麗莎張開嘴大笑,手里抱著一只貓。)
原作中蒙娜麗莎的微笑神秘、含蓄又難以捉摸,但 SeedEdit 一頓爆改,瞬間讓畫面有了一種詼諧感。蒙娜麗莎咧嘴大笑,懷里的貓高冷地眺望遠方,畫風自然、線條流暢。
SeedEdit 嚴格遵循了指令,除了表情和動作發生變化外,其他細節均能保持不變。
蒙娜麗莎的發絲、頭紗和衣褶清晰可見,手部沒有變形扭曲,貓咪的胡須、毛發根根分明,就連背景也完美復刻。
SeedEdit 還能一句話換背景。
我們讓它把《倒牛奶的女仆》中的背景換成了麥當勞后廚。
(Prompt:背景換成麥當勞后廚,女仆正端著牛奶瓶)
為了準確體現 Prompt,SeedEdit 編輯后的畫面中,墻上掛著麥當勞的大 Logo,原本簡陋的房間也放置了現代化的不銹鋼櫥柜,毫無「貼圖感」。
由于原畫歷經幾個世紀之久,難免會出現細微裂痕和顆粒感,SeedEdit 巧妙去掉其中的斑駁,畫質一整個拉升。
再看這幅《戴珍珠耳環的少女》。僅需下個動作指令,SeedEdit 就開始發揮想象力。
(Prompt:戴珍珠耳環的少女手里拿著一杯奶茶)
即使是真人圖像,SeedEdit 也完全能 hold 住。
讓《老友記》中的瑞秋戴上時髦的墨鏡:
(Prompt:女生戴上時髦的墨鏡)
給奧黛麗?赫本更換帽子顏色:
(Prompt:帽子顏色換成紅色)
或者一句話給黑白老照片上色:
(Prompt:給畫面上色,時尚,舒服)
移除畫中無關元素,若是用傳統 PS 方法,需要一點點描邊框、選涂抹區域,一旦手不穩,就得重新返工。而 SeedEdit 只需一句「去掉右邊老虎」的指令,就能精準定位并刪除,這相比于手動編輯,大大節省了時間。
(Prompt: 去掉右邊老虎)
當然,SeedEdit 也可以進行元素替換。比如把下圖中右邊的金毛換成泰迪,圖像其余部分畫面結構、像素質量,均不受影響。
(Prompt:把右側的小狗換成棕色的泰迪)
值得一提的是,SeedEdit 還能隨意切換各種風格,比如涂鴉、樂高、3D、皮克斯、迪士尼……
(Prompt:把畫面風格換成用線條和形狀勾勒的涂鴉風;Prompt:把畫面風格換成皮克斯風格;Prompt:把畫面風格換成日本動漫風)
經過多次嘗試,我們也總結出一套超實用的 Prompt 指南。
- 每次編輯盡量使用單指令,為防止它「丟三落四」, 多指令最好少于 3 種變化。
- 雖然 SeedEdit 具備一定的推理能力,有時指令模糊它也能猜個大概,但為了效果更佳,在局部編輯時,下指令要精準,尤其是畫面具有多個實體時,需描述清楚對誰做什么。
- 參考圖盡可能清晰、分辨率高,要想保留參考圖中的對象,則可以多加一些對象描述。比如從簡單的 change to afro hairstyle 變成 change this young Chinese man hairstyle to afro style.
- 如果感覺編輯效果不明顯,可以調整編輯強度,比如從 0.5 調整到 1.0;若發現編輯變化太多, 同樣也可以減少編輯強度,比如降到 0.1。
單挑 Dall?E3、Midjourney
沒有對比就沒有發言權。
我們就讓字節 SeedEdit 和 AI 生圖界的「扛把子」Dall?E3、Midjourney 來次真刀真槍的比拼。
首先,我們給這三個模型輸入同樣的 Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography。讓它們各自生成一張圖片,再在此基礎上進行局部調整。
SeedEdit 生成的圖片既時尚又充滿運動氣息。模特身著印有醒目耐克 Logo 的運動背心,搭配同色系棉質夾克,褲子的光澤與夾克相得益彰,整體效果相當協調。
隨后,我們輸入文字指令「Change the blue Nike tracksuit to black Nike tracksuit」,SeedEdit 迅速響應,給模特換成了一身黑色,夾克和褲子的光澤感同樣得到完美呈現。
(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)
與 SeedEdit 一句話 P 圖不同,Midjourney 和 Dall?E3 的局部編輯功能稍顯復雜,需要先使用畫筆工具涂抹要修改的區域,然后輸入 Prompt,以實現對圖像的元素修改。
Midjourney 雖然也遵從了指令,但改變了模特動作和衣服款式。
(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)
Dall?E3 的表現最拉胯,生成的圖像美感不足,還一股 AI 味,涂抹修改也沒有完全遵循 Prompt。
(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)
再來試一下刪除效果。Prompt:Remove the guy on the right.
原圖:
Midjourney:
SeedEdit:
Midjourney 確實抹去了畫面右側的男生,但身后的建筑也跟著不翼而飛;而 SeedEdit 在遵循文字指令的同時,還通過自身的推理能力將畫面缺失部分補齊,不過,女生的眼神和衣服等細節也稍有瑕疵。
總之,SeedEdit 作為通用的圖像編輯模型,無需再訓練微調即可快捷應用,極大地簡化了圖像編輯的流程。
無論是簡單的圖像修正還是復雜的風格轉換,它都能迅速適應并提供高質量的編輯結果。這一突破性的技術進步,不僅降低了圖像編輯的門檻,也讓創意工作者能夠更加專注于藝術創作本身,而不必耗費大量時間在技術細節上。
技術細節:擴散模型,被字節玩出了花
在產品發布的同時,字節同時也發布了 SeedEdit 的技術報告。仔細閱讀一下可以發現,它在技術原理上確實有自己的獨到之處。
- 論文:《SeedEdit: Align Image Re-Generation to Image Editing》
- 論文及技術能力展示:https://team.doubao.com/seededit
據技術報告介紹,SeedEdit 基于圖像生成常用的擴散模型,但又能夠根據任何文本提示修訂給定的圖像。該工作發現,AI 生成式圖像編輯的關鍵,在于在保持原始圖像(圖像重建)和生成新圖像(圖像生成)之間的平衡。
這就意味著若想讓圖像生成的 AI 模型擁有修圖能力,就需要在大量相應的成對數據上訓練這個模型。因此,SeedEdit 采取的方式是從一個弱生成器(文本到圖像生成模型)開始,再在上述兩個方向之間創建多樣化的圖像對,以此來逐步訓練模型,最終獲得我們所需要的平衡。
下圖是 SeedEdit 的框架:首先將文本到圖像模型(T2I)視為弱編輯模型,再改造它生成的帶有提示的新圖像來實現「編輯」。隨后,把這個弱編輯模型反復進行蒸餾和對齊,以最大程度繼承再生成能力,同時提高生成后圖像的一致性。
最近一段時間,擴散模型生成的圖像雖然效果越來越好,但其內容通常是不可控的。通過 SeedEdit,字節的研究人員嘗試在不引入新參數的情況下,將圖像生成的擴散模型轉化成了圖像編輯模型。
與此前一些 AI 圖像編輯的方法相比,SeedEdit 能夠實現更豐富的效果和編輯能力,也可以實現圖片的連續編輯 —— 它讓擴散模型不再是完全隨機進行生成,而是可以像常規的工具一樣一步步來,做出你想要的效果。
使用 SeedEdit 進行一句話編輯的圖片。
把 SeedEdit 方法與幾種業內先進的圖像編輯方法進行比較,總體而言,新的方法在兩個基準上都顯示出了明顯更高的分數。同時也可以觀察到 HQ-Edit 數據集中 CLIP 圖像有更高的相似性,這意味著原始圖像的內容得到了更好的保留。
基準測試成績。
與一些開源方法比較,SeedEdit 的優勢在于能夠理解人們提出的相對模糊的指令,并輸出較為細致準確的結果。
不同方法的輸出結果。
即使是和 DALL-E3、Midjourney 這樣已經商用的先進圖像生成器(帶編輯功能)相比,SeedEdit 也可以相對更緊密地跟隨人們給出的指令。
DALL-E3、Midjourney、SeedEdit 之間,不同圖像生成工具的效果對比。
不得不說,字節提出的方法別具特色,相比業內現有技術又向前跨出了一步。
豆包的生成式 AI 技術,走在前面
看到這里,你可能突然意識到,AI 領域的風向正在發生轉變。
一直以來,很多關注 AI 繪畫的人總是在期盼著 DALL-E、Midjourney 等海外 AI 創業公司的技術更新。而隨著國內的技術不斷迭代,我們已經見證了一系列先進的生成式 AI 應用在外網刷屏。或許到了新技術落地的節點,我們目光更應該向近處看。
其實仔細想來,作為全球短視頻領域的佼佼者,字節跳動在生成式 AI,特別是圖像生成領域上的優勢可謂得天獨厚。
早在豆包大模型誕生前,字節就一直在關注 AI 圖像生成相關技術,并持續增加研發投入。豆包大模型盡管入場時間不是最早,但憑借優秀的效果和獨特的社交體驗迅速成為了國內最熱門的大模型之一。到今年 9 月,豆包大模型日均生成圖片 5000 萬張。
能夠迅速做出生成式 AI 應用爆款的字節,其所做的努力并不只是在應用層面上創新。字節大模型團隊最近的前沿研究,已經在不斷挑戰 AI 領域的技術難題。
在工程層面上,僅從今年下半年起,我們在社交網絡上就不時可以刷到字節的新成果,比如可以生成長篇漫畫、有劇情視頻的 StoryDiffusion:
視頻生成模型 PixelDance 和 Seaweed:
到上星期發布的,音頻加人臉視頻生成技術 Loopy:
再就是今天 SeedEdit 所展示的,方便好用的圖片編輯能力。
在 AI 基礎研究層面,字節大模型團隊的工作也在不斷獲得認可。其提出的單目深度估計模型 Depth Anything V2 入選了蘋果的 CoreML 模型庫。該模型可應用在自動駕駛、3D 建模、增強現實、安全監控以及空間計算等領域。
上周,字節豆包大模型團隊公布的一項系統性研究,首次在業界通過大規模實驗深入探索了視頻生成模型能否真正理解物理規律,得到了謝賽寧、Gary Marcus,以及圖靈獎得主 Yann LeCun 等 AI 學者的轉發和點贊。
一篇篇論文、一個個項目的積累,不僅撐起了如今豆包大模型的熱度,也在悄然推動著學界的前沿探索。
SeedEdit 團隊表示,其實現階段模型在復雜內容和精細控制層面上還有改進空間。下一步要提升的還有真實圖片風格保持、ID 一致性、編輯準確性、長時序內容(如漫畫生成)等等方面。除此以外,SeedEdit 還將會開放多輪復雜編輯的功能。
期待 SeedEdit 和豆包團隊帶來新的驚喜。