谷歌大招網友玩瘋了!Gemini原生圖像輸出搶先推出,OpenAI一年領先優勢歸零
谷歌推出Gemini原生圖像生成,測試版瞬間引爆網絡。
如果你遲到了,但沒有好的借口,甚至還沒有出家門——只需要一張自拍,然后讓AI把你P到地鐵故障現場。
圖片
也可以憑空生成一個人物形象,把它放到原神游戲畫面中(不用上傳游戲截圖),讓角色往前走兩步,再把視角往左移,走近一個建筑,開始爬墻。
圖片
二次元選手最喜歡的玩法,是草稿一句話變線稿,再上色,再上陰影等操作,注意每一步執行后人物形象都是保持一致的。
圖片
圖片
有漫畫創作者用它來改變構圖視角,同時保持畫面內容的一致性。
圖片
游戲開發者則可以用一些素材組件自動拼成關卡場景。
圖片
除了精準遵循指令一鍵P圖之外,還支持圖文混排輸出。
谷歌官方演示了生成菜譜,每個操作步驟都配上寫實的圖像,學起來更直觀。
現在,這些功能都可以在Google AI Studio免費試玩。
模型命名很亂,請認準Gemini 2.0 Flash Experimental。
圖片
原生圖像輸出首次開放
目前Gemini 2.0 Flash原生圖像輸出能力還沒有公開技術細節,簡短的介紹中只講了“結合多模態輸入、增強推理和自然語言理解”。
而其他AI產品語言大多是語言模型把圖像生成模型當做工具去調用,如ChatGPT調用Dall·E 3,Grok調用flux.1。
新范式下,Gemini 2.0 Flash的主要優勢包括:
- 圖文故事模式:始終保持人物和場景的一致性。也可以中途提意見,讓AI重新講述故事或改變繪畫風格。
- 對話式圖像編輯:支持多輪編輯,可以一句話p圖,反復完善圖像,實現實時協作和創意探索。
- 基于世界知識的圖像生成:利用大模型內置的知識和推理能力,生成與上下文更相關的圖像
- 改進文本渲染:減少拼寫錯誤或字符扭曲,適合生成廣告、甚至邀請函。
其實早在2024年5月,OpenAI總裁Brockman就曾展示過GPT-4o的這種原生多模態能力,但后來就沒了消息。
現在谷歌搶先部署這項功能,讓網友不禁好奇,出于什么原因讓OpenAI放棄一年以上的領先優勢。
圖片
OpenAI員工也只能感嘆,谷歌真的回來了。
圖片
還有隱藏玩法
除常規玩法之外,還有網友探索出了一種隱藏玩法:用文字提問,要求AI只用圖片回答。
他的問題是“生命的意義是什么”,AI用一系列圖片來表達,畫面逐漸詭異起來,令人毛骨悚然。
圖片
他把整個過程錄制成視頻,下面一起來看看。
在線試玩https://aistudio.google.com/
參考鏈接:
[1]https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/
[2]https://x.com/goodside/status/1900349595718148455
[3]https://x.com/ilumine_ai/status/1900017235898622025
[4]https://x.com/nobisiro_2023/status/1900150873734733859