谷歌大招網友玩瘋了！Gemini原生圖像輸出搶先推出，OpenAI一年領先優勢歸零

2025-03-14 12:14:38

目前Gemini 2.0 Flash原生圖像輸出能力還沒有公開技術細節，簡短的介紹中只講了“結合多模態輸入、增強推理和自然語言理解”。

谷歌推出Gemini原生圖像生成，測試版瞬間引爆網絡。

如果你遲到了，但沒有好的借口，甚至還沒有出家門——只需要一張自拍，然后讓AI把你P到地鐵故障現場。

圖片

也可以憑空生成一個人物形象，把它放到原神游戲畫面中（不用上傳游戲截圖），讓角色往前走兩步，再把視角往左移，走近一個建筑，開始爬墻。

圖片

二次元選手最喜歡的玩法，是草稿一句話變線稿，再上色，再上陰影等操作，注意每一步執行后人物形象都是保持一致的。

圖片

有漫畫創作者用它來改變構圖視角，同時保持畫面內容的一致性。

圖片

游戲開發者則可以用一些素材組件自動拼成關卡場景。

圖片

除了精準遵循指令一鍵P圖之外，還支持圖文混排輸出。

谷歌官方演示了生成菜譜，每個操作步驟都配上寫實的圖像，學起來更直觀。

現在，這些功能都可以在Google AI Studio免費試玩。

模型命名很亂，請認準Gemini 2.0 Flash Experimental。

圖片

原生圖像輸出首次開放

目前Gemini 2.0 Flash原生圖像輸出能力還沒有公開技術細節，簡短的介紹中只講了“結合多模態輸入、增強推理和自然語言理解”。

而其他AI產品語言大多是語言模型把圖像生成模型當做工具去調用，如ChatGPT調用Dall·E 3，Grok調用flux.1。

新范式下，Gemini 2.0 Flash的主要優勢包括：

其實早在2024年5月，OpenAI總裁Brockman就曾展示過GPT-4o的這種原生多模態能力，但后來就沒了消息。

現在谷歌搶先部署這項功能，讓網友不禁好奇，出于什么原因讓OpenAI放棄一年以上的領先優勢。

圖片

OpenAI員工也只能感嘆，谷歌真的回來了。

圖片

除常規玩法之外，還有網友探索出了一種隱藏玩法：用文字提問，要求AI只用圖片回答。

他的問題是“生命的意義是什么”，AI用一系列圖片來表達，畫面逐漸詭異起來，令人毛骨悚然。

圖片

他把整個過程錄制成視頻，下面一起來看看。

責任編輯：武曉燕來源：量子位