截胡OpenAI，谷歌全模態模型首次解禁！Gemini 2.0中文嘮嗑式P圖，動漫游戲圈沸騰

作者：新智元 2025-03-14 09:37:08

人工智能新聞

OpenAI的全模態模型沒來，谷歌的全模態圖像生成器倒是搶先上線了！Gemini 2.0 Flash中上線的原生圖像生成功能，動動嘴就能PS，還能輕松制作海報和表情包，動漫和漫畫圈已經沸騰了。

就在剛剛，谷歌Gemini支持原生圖像生成功能了！這是谷歌首個向公眾發布的全模態圖像生成器。

現在，所有開發者都可以使用Gemini 2.0 Flash進行原生圖像生成了，使用Gemini API 和Google AI Studio中的實驗版本即可。

全模態圖像生成器，跟其他AI生圖模型最大的區別在哪里？

因為它自身具備的超強推理能力，能結合現實世界的知識生成更符合上下文的圖像，理解更多細節，更遵循文化背景特征。

其中，全程都是由Gemini模型完成，無需調用其他模型，只需通過自然語言提示。

此外，傳統的AI生圖器需要分開處理文本和圖片，它則是能同時輸出文本和插圖，保持驚人的一致性。

· 真正的多模態能力：同時理解文字、圖像，以及二者聯系
· 理解世界知識：能做智能推理，結合現實世界知識生成準確內容
· 自然語言交互：僅用對話修改圖片，真正實現動嘴PS

下面這張圖，就是用Gemini 2.0 Flash生成的，包括黑板上的文字。

此前很多圖像生成模型，都死在渲染長序列文本上，這個致命弱點，竟被它克服了。

有趣的是，其實第一個展示全模態圖像生成的是OpenAI，比谷歌早了整整8個月。

而就在昨天，OpenAI要發布第一個全模態模型的消息更是傳得沸沸揚揚，沒想到今天，竟是谷歌成功發布了第一個版本。

谷歌的這個新功能，可以根據上下文生成相關圖像，支持對話式編輯，還能在圖像中生成長文本。

比如，你只要動動嘴，告訴模型給牛角面包加點巧克力邊，啪的一下，它在對話框里立馬給你滿意的圖像。

跟它說：可以在桌子上加一些花嗎？它立刻給你在桌子上加上花瓶。

如果告訴它，自己不太滿意，更喜歡紅色郁金香，它能在幾秒內立刻換成你滿意的圖像。

網友驚呼：太炸了

現在，我們終于有了原生圖像輸出功能，這樣圖像就能遵循智能的上下文了。

這個模型的真正厲害之處，就在于它真正能夠理解多模態的信息。

比如在這位網友的實測中，它就可以直接從URL解析YouTube視頻，給出內容摘要，還是基于時間戳分析的。

手快的網友，已經開始瘋狂實測了。

生成30歲的中年女性不同角度的兩張照片，一致性非常驚艷。

以后你想要的照片，想怎么p就怎么p。

一輛小汽車、一個模特，拿著小汽車的廣告大片實時生成。

甚至，你還可以用Gemini來迭代圖像，創建任何游戲！

Gemini 2.0 Flash的自畫像，有點意思。

有人表示，這個功能太酷了，自己手中的不少圖，將煥然一新。

有人說，谷歌的首個原生圖像生成功能，可能是今年最棒的發布之一。它的編輯過程和一致性如此簡潔，忍不住讓人期待何時能在Gemini上集成。

當然，也有人實測后發現，有些情況下很難讓模型輸出不帶文字的圖片，即使嘗試了五六種不同的prompt也不行。

比如，讓它根據奧特曼昨天分享的OpenAI創意寫作模型寫的元小說，來創作一幅畫。

文字太多的話，它就失去了想象能力，只能輸出純文字。

小編親測了一下，結果也是如此。

對此，谷歌Gemini團隊的研究者現身表示，會改進這項功能，并且建議如果讓模型先以文本形式思考，可能會更好。

但好笑的是，「一只馬騎宇航員」這樣的圖像，它依然無法生成。

漫畫和動漫圈，沸騰了

這次，Gemini 2.0 Flash直接攻陷了漫畫圈。

現在用它來生成漫畫，只需要動動嘴的功夫。

有網友嘗試后，發現自己根本停不下來。只需一個簡單的提示，就能進行選擇性修改，而不會破壞整個圖像。

他激動地表示，「用它來制作漫畫和故事分鏡會變得非常輕松」。

給漫畫加個色，也是一句話的事兒。

就連漫畫角色的動作——抬起手臂，也能用嘴完成。而且，輸出圖像與原圖保持了高度的一致性。

動漫圈的二次元們更是激動不已，有人驚呼，這是史上最佳動漫模型！

動漫創作的全流程，它都能依指示完成，比如把素描轉換為線稿；填充基礎色；添加一些柔和的陰影，光源位于左上角；添加一個室內背景，使其與當前的光源和陰影環境相匹配，使用合適的角度；調整為單色灰度，以符合輕小說插畫風格等等。

更多的測試demo，自己體會。

故事分鏡

Gemini 2.0 Flash還可以支持文字+配圖輸出的形式，比如繪本、食譜之類的，它都能通通拿下。

有網友讓它去生成，一個「烏鴉喝水」的經典故事。

從內容到配圖，Gemini 2.0 Flash對故事把控度，和現實邏輯，非常合理。

更驚艷的是，以下這些全部都是一次性輸出的。

還有網友讓Gemini 2.0解釋生命的意義，只用圖像回答。

模型一鏡到底，輸出了一大串圖像。網友表示，「事實上，大部分的寫作是不連貫的，讓這件事更加怪異」。

惡搞表情包

用Gemini 2.0 Flash制作表情包，也是一個不錯的選擇。

網友上傳一張照片后，要求它把人替換成吉卜力工作室風格的狗，并配上一把機關槍。

Gemini 2.0 Flash瞬間完成替換，像那么回事兒。

又或者，給Hugging Face抱抱臉加個胡子。

再比如，給經典表情包，配上文字。

一個提示，完成多個編輯

更令人驚掉下巴的是，Gemini 2.0 Flash還可以根據一個提示，完成圖像多處編輯。

沃頓商學院教授Ethan Mollick表示，如果你使用過LLM圖像生成器，你會知道它們很難控制：LLM需要向一個獨立的圖像生成工具發送提示詞，而不是直接生成圖像。

而Gemini 是首個公開發布的「完全多模態」LLM，能夠直接生成圖像。

下面這個例子中，是Mollick在一家本地手工藝品店拍的照片，提示中核心要求是——把這本小冊子改成關于拿破侖的主題，子任務有多個：

將文本修改為「Napoleon Crochet」，字體保持不變。調整圖片，使其與拿破侖相關，同時保留白色括號和圖像中的其他元素。確保頭部朝向與原圖一致，圖片保持縱向格式。將價格更改為$99.00。

看到Gemini 2.0 Flash生成的圖片后，他完全驚到了，并表示生成的藝術風格竟然完全匹配。

原生圖像生成，四大亮點

去年12月，谷歌首次將Gemini 2.0 Flash，向內部測試者推出了原生圖像生成的功能。

經過幾個月的優化打磨，就在巴黎開發者日期間，正式向支持Google AI Studio所有地區開放。

開發者們可以通過這個平臺，選擇Gemini 2.0 Flash實驗版本——gemini-2.0-flash-exp，或通過Gemini API即可上手新功能。

如上測試中，不難看出，Gemini 2.0 Flash是一款集多模態輸入、增強推理能力、自然語言理解于一身的模型，能夠直接生成圖像。

接下來，一起看看Gemini 2.0 Flash在多模態輸出上的幾大亮點：

1 文本與圖像結合

假設你正在創作一個奇幻冒險的故事，只用文字描述情節，Gemini 2.0 Flash就能自動生成與故事配套的插圖。

更厲害的是，它還能在整個故事中，保持角色和場景的一致性。

如果對插圖風格、敘述方式不滿意，你可以直接給出反饋，Gemini 2.0 Flash會根據你的意見重新調整故事，或優化圖像。

2 對話式圖像編輯

傳統的圖像編輯，往往需要專業軟件和復雜的操作，而Gemini 2.0 Flash讓你通過自然語言對話，就能完成一切。

只要告訴它你的想法，模型就會實時調整，并在多輪對話中不斷優化。

這種方式不僅適合快速迭代創意，還能幫助你在探索不同風格時，節省大量的時間。

3 世界知識理解

與其他圖像生成模型不同，Gemini 2.0 Flash的獨特優勢在于，融合了世界知識和增強推理能力。

這意味著，它不僅能生成美觀的圖像，還更符合現實邏輯。

比如，當你讓它生成一份巧克力曲奇餅干食譜，并繪制插圖，Gemini 2.0 Flash的表現著實令人驚艷。

當然，作為語言模型，Gemini 2.0 Flash并非絕對完美，偶爾需要稍作調整。

4 文本渲染

對于大多數圖像生成模型來說，準確呈現長短文字一直是個難題——要么格式混亂，要么字符模糊，甚至拼寫錯誤層出不窮。

但Gemini 2.0 Flash在這方面表現，非常搶眼。

內部基準測試表明，它在文本渲染上的性能，優于主流競品。

不論是制作廣告、社交媒體帖子，甚至是邀請函，Gemini 2.0 Flash都能清晰、準確呈現文字內容。

用Gemini API快速上手

現在，開發者可以直接通過Gemini API測試Gemini 2.0 Flash圖像生成模型了。

from google import genai
from google.genai import types


client = genai.Client(api_key="GEMINI_API_KEY")


response = client.models.generate_content(
model="gemini-2.0-flash-exp",
cnotallow=(
"Generate a story about a cute baby turtle in a 3d digital art style. ""For each scene, generate an image."
),
cnotallow=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)

Gemini團隊研究人員為此還做了一個邀請廣大開發者適用的圖像，快點上手吧。

責任編輯：張燕妮來源：新智元

谷歌模型生成

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看