Google Imagen 3 ——它會是最強的 AI 圖像生成模型嗎?
在 Google I/O 2024 宣布 5 個月后,Google 迄今為止功能最強的 AI 圖像生成器 Imagen 3,終于在 Gemini 平臺上與大家見面。
“Imagen 3 是我們質量最高的文本生成圖像模型,能生成更細致的細節、更豐富的光影效果,并顯著減少雜亂偽影。” ——Google
這次更新最重要的改進之一,是模型對提示詞(Prompt)的理解能力更強。不僅能處理更長、更復雜的描述,還能呈現多樣化風格,并捕捉更多細微細節。
什么是 Imagen 3?
Imagen 3 是 Google 最新、最高質量的文本生成圖像模型,它具備:
- 更精細的細節:輸出中光影層次更豐富,干擾偽影更少
- 自然語言支持:對日常語言描述的場景,更易生成符合預期的圖像
- 多種風格:從超寫實風光到油畫、黏土動畫等多種視覺效果
- 更好的文本渲染:在圖像中生成文字時,不再像其他模型那樣容易出錯
Google 一向重視安全性。Imagen 3 在數據與模型開發過程中,采用了嚴格的篩選與標注來減少有害內容,同時也能降低不當輸出的風險。
如何體驗 Imagen 3
可以通過 Google 的 Gemini 聊天機器人來試用,登錄后輸入你想生成的描述即可。
注意:要選擇 “Gemini Advanced” 作為語言模型。如果看不到該選項,說明需要升級至付費賬號。
image.png
例子
Prompt: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow
提示詞:
三位女性并肩而立,笑容滿面。其中一人略微虛化在前景,身后夕陽西下,鏡頭出現鏡頭光暈,色調溫暖
image.png
生成的圖像非常逼真。鏡頭光暈、環境光線都能準確呈現,人物神態也很自然。
下載:模型默認顯示的預覽圖是 512×512,右上角可點擊“Download full size”下載 2048×2048 的完整版(JFIF 格式)。
image.png
如果結果與你想要的效果不符,可以在提示詞中添加更多細節。描述越具體,Imagen 3 才能更好契合你的期望。
一些示例
1. 生成編織玩偶
Prompt: Elephant amigurumi walking in savanna, a professional photograph, blurry background
提示詞:
大象毛線玩偶漫步在稀樹草原的照片,背景模糊
image.png
Imagen 3 呈現了非常細膩的針織紋理,背景虛化效果也很接近專業攝影的水準。
2. 生成文字
Prompt: Word “light” made from various colorful feathers, black background
提示詞:
在黑色背景上,用各色羽毛拼成單詞 “light”
文字渲染一直是許多生成模型的短板,但 Imagen 3 在該示例中文字非常清晰,羽毛細節也沒被扭曲。
image.png
3. 更長的文字
Prompt: Word “Google’s Imagen 3 is amazing!” made from various colorful stones, background are gray stones
提示詞:
用彩色石頭拼寫 “Google’s Imagen 3 is amazing!” ,背景是灰色石頭
圖片
雖然需求更復雜,模型仍然清晰呈現整句英文,不同顏色的石頭字母與灰色背景區分明顯。
現存局限:缺少圖像編輯能力
在 Gemini 上使用 Imagen 3 時,目前不能自由調節分辨率或畫幅比例,也不支持風格化濾鏡、局部修補(inpainting/outpainting)等功能。所有圖都是 1:1 方形。如果你更需要精細調整,Midjourney 或 Flux Labs 等平臺可能更靈活。
與 Midjourney、Flux 等對比
很多人關心 Imagen 3 與其他熱門模型(如 Midjourney、Dall·E 3、Flux)誰更勝一籌。從測試來看,圖像質量和對提示詞的匹配度都很高,很難說誰是絕對贏家。
Prompt: photo of a smiling energetic positive mood woman laying in the sofa and reading book, realistic, photo made on iphone 11
提示:一位面帶微笑、精力充沛、心情積極向上的女士躺在沙發上看書的照片,寫實,照片由 iPhone 11 制作
圖片
Prompt: in the style of Anthony Burrill, party, portrait of british shorthair blowing bubble gum, white background
提示:安東尼-伯里爾風格,派對,吹泡泡糖的英國短毛貓肖像,白色背景
圖片
Prompt: Polaroid photo with VSCO filter, 1990, gorgeous woman, night, flash photo, blonde, cute, young face, beautiful shadows, tropical plants, urban clothing, inside an apartment, DSLR, holding a sign written in ballpoint pen on a notebook saying “Imagen 3”
提示:帶有 VSCO 濾鏡的寶麗來照片,1990 年,美女,夜晚,閃光燈照片,金發,可愛,年輕的臉,美麗的陰影,熱帶植物,城市服裝,公寓內,單反相機,拿著一個用圓珠筆寫在筆記本上的牌子,上面寫著 "Imagen 3"。
圖片
總結
雖然外界對 Imagen 3 抱有極高期待,但實際使用下來,既有驚艷的地方,也有些遺憾。Google 將它集成在 Gemini 等平臺,但還沒有一個專門的網站供大家深度使用或測試,這在某種程度上限制了它的普及度和可控度。
但從圖像質量上看,Imagen 3 對細節與文字渲染的能力確實有長足進步。未來若能開放更多編輯功能(如不同分辨率、風格轉換、inpainting 等),它或許能在 AI 繪圖界占據更顯著位置。
對于開發者,目前僅在早期訪問階段,可以通過 Vertex AI 或 Test Kitchen 試用,也可跟著官方指引使用 Python 調用 API 生成圖像。
Imagen 3 能否稱得上“最強”?
就圖像質量和自然語言理解而言,它確實走在前列。然而,功能限制和可用性方面還留有遺憾,還不足以全面超越所有對手。隨著后續版本和更多功能開放,或許 Imagen 能更上一層樓,屆時我們再來評判也不遲。