谷歌Gemini火力全開!實測:原生圖像生成新升級確實強(qiáng)
谷歌Gemini原生圖像生成功能又雙叒升級了!
與之前的實驗版本相比(Gemini 2.0 Flash Experimental),這一次主打圖像質(zhì)量更好、文本渲染更準(zhǔn)確,生成速度更快。
只需一句話,就能將兩張圖片中的元素絲滑融合在一起。
還能實時編輯圖像,比如剛說完給圖中人物加上眼鏡,圖片立馬就生成好了。
p.s. 這個需要在Google AI Studio的Starter Apps板塊體驗
也可以指定僅修改圖中某一部分,新圖的其他部分能同時和原來保持一致。
更有意思的是,搭配Gemini 2.0 Flash食用,還能讓模型自己構(gòu)思自己生圖。
現(xiàn)在,這些功能都可以在Google AI Studio免費(fèi)試玩,模型請認(rèn)準(zhǔn)“gemini-2.0-flash-preview-image-generation”。
開發(fā)者可以通過Google AI Studio和Vertex AI中的Gemini API集成,每張圖片的價格為0.039美元(約合人民幣0.28元)。
實際上,本次升級距離谷歌首次推出Gemini原生圖像生成功能,僅過去一個多月時間。
網(wǎng)友們的感受也都體現(xiàn)在了下面這張梗圖中:
谷歌最近真是火力全開啊!
實測最新升級
據(jù)谷歌AI Studio開發(fā)者平臺產(chǎn)品負(fù)責(zé)人透露, 本次升級主要體現(xiàn)在以下幾個方面:
- 更好的視覺質(zhì)量
- 更準(zhǔn)確的文本渲染
- 顯著降低濾波器阻塞率(延遲和卡頓更低)
- 更高的速率限制(更快生成圖像或能同時處理更多圖像)
那么其實際表現(xiàn)究竟如何呢?我們也第一時間進(jìn)行了實測。
首先,在谷歌提供的demo中,我們看到了它能很好地將完全不同的元素自然融合在一起。
于是我們也提供了下面兩張原圖,要求它幫忙生成量子位周邊。
實測用時5.4s,幾乎一瞬間就生成了我們想要的圖片。
盡管logo的顏色還有細(xì)微偏差,但整體構(gòu)圖已經(jīng)很成熟了,處理摳圖以及融合都比較干凈。
而且上面這個例子還順道考查了其文字渲染能力,除了中文,我們再嘗試一下其他文字。
最常見的英文渲染正確,并且還自帶藝術(shù)字設(shè)計。
繼續(xù)換成希臘文(中譯為“我愛你”)也有同款優(yōu)秀表現(xiàn),仔細(xì)對比未發(fā)現(xiàn)渲染錯誤。
OK,短暫告別這一趴,接下來我們測試其換圖or擴(kuò)圖能力。
開啟“找茬”模式后,我們不得不承認(rèn)它確實只更換了吊床顏色,其他素材均和原圖一致。
同時可以看到,在秒速生圖過程中,它還會在接收用戶指令后給出自己的理解。
此外,如果只給人物上半身,要求它生成完整人物形象呢?
第一次擴(kuò)圖,它只前進(jìn)了一小步,完成了更多的人物上半身復(fù)原工作。
新生成的部分看起來也非常合理,從一根藍(lán)色肩帶擴(kuò)展到了背帶褲穿搭。
不過這不是我們一開始想要的“全身肖像”,所以繼續(xù)……
最終結(jié)果如下,人物的比例和姿態(tài)都很完美,生成效果著實驚艷。
最后我們也體驗了一波實時繪圖功能,結(jié)論是其原生圖像生成的速度確實快。
我們先隨意畫了一個太陽的草圖,要求它為太陽加上笑臉,結(jié)果立馬就搞定了。
而且還支持上色,效果也非常不錯。
小結(jié)一下,從我們的實測來看,升級后的Gemini原生圖像生成功能確實表現(xiàn)驚艷,尤其在遵循用戶指令、文本渲染等方面。
當(dāng)然,除了我們的測試,更多網(wǎng)友也第一時間分享了各自的玩法。
比較經(jīng)典的就是用來搞裝修設(shè)計,可以一鍵測試自己想要的裝修風(fēng)格。
不過也有淺淺翻車的,用它來擴(kuò)圖時最后生成的人物比例有點子怪異。
與此同時,也有人將它和近期非常火爆的GPT-4o生圖進(jìn)行了對比,初步結(jié)論是整體仍不如GPT-4o(doge)。
One More Thing
值得一提的是,谷歌最新生圖功能還能搭配Gemini 2.5 Pro(近期以強(qiáng)悍的代碼能力而出圈)食用。
只需在提示欄中選擇 “Canvas”,上傳一張圖片后輸入下列提示詞:
Transform this image into a code-based representation of its natural behavior.(將此圖像轉(zhuǎn)換為基于代碼的自然行為表示)
最終就能得到一段視頻演示。
除了預(yù)覽效果,還能一鍵切換查看代碼。
最后,也歡迎大家進(jìn)行更多測試