成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

截胡OpenAI,谷歌全模態模型首次解禁!Gemini 2.0中文嘮嗑式P圖,動漫游戲圈沸騰

人工智能 新聞
OpenAI的全模態模型沒來,谷歌的全模態圖像生成器倒是搶先上線了!Gemini 2.0 Flash中上線的原生圖像生成功能,動動嘴就能PS,還能輕松制作海報和表情包,動漫和漫畫圈已經沸騰了。

就在剛剛,谷歌Gemini支持原生圖像生成功能了!這是谷歌首個向公眾發布的全模態圖像生成器。

現在,所有開發者都可以使用Gemini 2.0 Flash進行原生圖像生成了,使用Gemini API 和Google AI Studio中的實驗版本即可。

圖片

全模態圖像生成器,跟其他AI生圖模型最大的區別在哪里?

因為它自身具備的超強推理能力,能結合現實世界的知識生成更符合上下文的圖像,理解更多細節,更遵循文化背景特征。

其中,全程都是由Gemini模型完成,無需調用其他模型,只需通過自然語言提示。

此外,傳統的AI生圖器需要分開處理文本和圖片,它則是能同時輸出文本和插圖,保持驚人的一致性。

· 真正的多模態能力:同時理解文字、圖像,以及二者聯系
· 理解世界知識:能做智能推理,結合現實世界知識生成準確內容
· 自然語言交互:僅用對話修改圖片,真正實現動嘴PS

下面這張圖,就是用Gemini 2.0 Flash生成的,包括黑板上的文字。

此前很多圖像生成模型,都死在渲染長序列文本上,這個致命弱點,竟被它克服了。

圖片

有趣的是,其實第一個展示全模態圖像生成的是OpenAI,比谷歌早了整整8個月。

而就在昨天,OpenAI要發布第一個全模態模型的消息更是傳得沸沸揚揚,沒想到今天,竟是谷歌成功發布了第一個版本。

谷歌的這個新功能,可以根據上下文生成相關圖像,支持對話式編輯,還能在圖像中生成長文本。

比如,你只要動動嘴,告訴模型給牛角面包加點巧克力邊,啪的一下,它在對話框里立馬給你滿意的圖像。

圖片

跟它說:可以在桌子上加一些花嗎?它立刻給你在桌子上加上花瓶。

圖片

如果告訴它,自己不太滿意,更喜歡紅色郁金香,它能在幾秒內立刻換成你滿意的圖像。

圖片

網友驚呼:太炸了

現在,我們終于有了原生圖像輸出功能,這樣圖像就能遵循智能的上下文了。

圖片

這個模型的真正厲害之處,就在于它真正能夠理解多模態的信息。

比如在這位網友的實測中,它就可以直接從URL解析YouTube視頻,給出內容摘要,還是基于時間戳分析的。

圖片

圖片

手快的網友,已經開始瘋狂實測了。

圖片

圖片

圖片

圖片

圖片

生成30歲的中年女性不同角度的兩張照片,一致性非常驚艷。

圖片

以后你想要的照片,想怎么p就怎么p。

圖片

一輛小汽車、一個模特,拿著小汽車的廣告大片實時生成。

圖片

圖片

圖片

甚至,你還可以用Gemini來迭代圖像,創建任何游戲!

圖片

Gemini 2.0 Flash的自畫像,有點意思。

圖片

有人表示,這個功能太酷了,自己手中的不少圖,將煥然一新。

圖片

圖片

圖片

有人說,谷歌的首個原生圖像生成功能,可能是今年最棒的發布之一。它的編輯過程和一致性如此簡潔,忍不住讓人期待何時能在Gemini上集成。

圖片

當然,也有人實測后發現,有些情況下很難讓模型輸出不帶文字的圖片,即使嘗試了五六種不同的prompt也不行。

比如,讓它根據奧特曼昨天分享的OpenAI創意寫作模型寫的元小說,來創作一幅畫。

文字太多的話,它就失去了想象能力,只能輸出純文字。

圖片

小編親測了一下,結果也是如此。

圖片

對此,谷歌Gemini團隊的研究者現身表示,會改進這項功能,并且建議如果讓模型先以文本形式思考,可能會更好。

圖片

但好笑的是,「一只馬騎宇航員」這樣的圖像,它依然無法生成。

圖片

漫畫和動漫圈,沸騰了

這次,Gemini 2.0 Flash直接攻陷了漫畫圈。

現在用它來生成漫畫,只需要動動嘴的功夫。

圖片

有網友嘗試后,發現自己根本停不下來。只需一個簡單的提示,就能進行選擇性修改,而不會破壞整個圖像。

他激動地表示,「用它來制作漫畫和故事分鏡會變得非常輕松」。

圖片

給漫畫加個色,也是一句話的事兒。

圖片

圖片

就連漫畫角色的動作——抬起手臂,也能用嘴完成。而且,輸出圖像與原圖保持了高度的一致性。

圖片

動漫圈的二次元們更是激動不已,有人驚呼,這是史上最佳動漫模型!

圖片

圖片

動漫創作的全流程,它都能依指示完成,比如把素描轉換為線稿;填充基礎色;添加一些柔和的陰影,光源位于左上角;添加一個室內背景,使其與當前的光源和陰影環境相匹配,使用合適的角度;調整為單色灰度,以符合輕小說插畫風格等等。

圖片

圖片

圖片

更多的測試demo,自己體會。

圖片

圖片

故事分鏡

Gemini 2.0 Flash還可以支持文字+配圖輸出的形式,比如繪本、食譜之類的,它都能通通拿下。

有網友讓它去生成,一個「烏鴉喝水」的經典故事。

圖片

從內容到配圖,Gemini 2.0 Flash對故事把控度,和現實邏輯,非常合理。

更驚艷的是,以下這些全部都是一次性輸出的。

圖片

圖片

圖片

圖片

還有網友讓Gemini 2.0解釋生命的意義,只用圖像回答。

圖片

模型一鏡到底,輸出了一大串圖像。網友表示,「事實上,大部分的寫作是不連貫的,讓這件事更加怪異」。

惡搞表情包

用Gemini 2.0 Flash制作表情包,也是一個不錯的選擇。

網友上傳一張照片后,要求它把人替換成吉卜力工作室風格的狗,并配上一把機關槍。

Gemini 2.0 Flash瞬間完成替換,像那么回事兒。

圖片

又或者,給Hugging Face抱抱臉加個胡子。

圖片

再比如,給經典表情包,配上文字。

圖片

一個提示,完成多個編輯

更令人驚掉下巴的是,Gemini 2.0 Flash還可以根據一個提示,完成圖像多處編輯。

沃頓商學院教授Ethan Mollick表示,如果你使用過LLM圖像生成器,你會知道它們很難控制:LLM需要向一個獨立的圖像生成工具發送提示詞,而不是直接生成圖像。

而Gemini 是首個公開發布的「完全多模態」LLM,能夠直接生成圖像。

圖片

下面這個例子中,是Mollick在一家本地手工藝品店拍的照片,提示中核心要求是——把這本小冊子改成關于拿破侖的主題,子任務有多個:

將文本修改為「Napoleon Crochet」,字體保持不變。調整圖片,使其與拿破侖相關,同時保留白色括號和圖像中的其他元素。確保頭部朝向與原圖一致,圖片保持縱向格式。將價格更改為$99.00。

看到Gemini 2.0 Flash生成的圖片后,他完全驚到了,并表示生成的藝術風格竟然完全匹配。

圖片

原生圖像生成,四大亮點

去年12月,谷歌首次將Gemini 2.0 Flash,向內部測試者推出了原生圖像生成的功能。

經過幾個月的優化打磨,就在巴黎開發者日期間,正式向支持Google AI Studio所有地區開放。

開發者們可以通過這個平臺,選擇Gemini 2.0 Flash實驗版本——gemini-2.0-flash-exp,或通過Gemini API即可上手新功能。

圖片

如上測試中,不難看出,Gemini 2.0 Flash是一款集多模態輸入、增強推理能力、自然語言理解于一身的模型,能夠直接生成圖像。

接下來,一起看看Gemini 2.0 Flash在多模態輸出上的幾大亮點:

1 文本與圖像結合

假設你正在創作一個奇幻冒險的故事,只用文字描述情節,Gemini 2.0 Flash就能自動生成與故事配套的插圖。

更厲害的是,它還能在整個故事中,保持角色和場景的一致性。

圖片

如果對插圖風格、敘述方式不滿意,你可以直接給出反饋,Gemini 2.0 Flash會根據你的意見重新調整故事,或優化圖像。

2 對話式圖像編輯

傳統的圖像編輯,往往需要專業軟件和復雜的操作,而Gemini 2.0 Flash讓你通過自然語言對話,就能完成一切。

只要告訴它你的想法,模型就會實時調整,并在多輪對話中不斷優化。

這種方式不僅適合快速迭代創意,還能幫助你在探索不同風格時,節省大量的時間。

圖片

3 世界知識理解

與其他圖像生成模型不同,Gemini 2.0 Flash的獨特優勢在于,融合了世界知識和增強推理能力。

這意味著,它不僅能生成美觀的圖像,還更符合現實邏輯。

比如,當你讓它生成一份巧克力曲奇餅干食譜,并繪制插圖,Gemini 2.0 Flash的表現著實令人驚艷。

圖片

當然,作為語言模型,Gemini 2.0 Flash并非絕對完美,偶爾需要稍作調整。

4 文本渲染

對于大多數圖像生成模型來說,準確呈現長短文字一直是個難題——要么格式混亂,要么字符模糊,甚至拼寫錯誤層出不窮。

但Gemini 2.0 Flash在這方面表現,非常搶眼。

內部基準測試表明,它在文本渲染上的性能,優于主流競品。

不論是制作廣告、社交媒體帖子,甚至是邀請函,Gemini 2.0 Flash都能清晰、準確呈現文字內容。

圖片

用Gemini API快速上手

現在,開發者可以直接通過Gemini API測試Gemini 2.0 Flash圖像生成模型了。

from google import genai
from google.genai import types


client = genai.Client(api_key="GEMINI_API_KEY")


response = client.models.generate_content(
model="gemini-2.0-flash-exp",
cnotallow=(
"Generate a story about a cute baby turtle in a 3d digital art style. ""For each scene, generate an image."
),
cnotallow=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)

Gemini團隊研究人員為此還做了一個邀請廣大開發者適用的圖像,快點上手吧。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-05-17 08:33:33

視覺語言模型

2024-12-12 09:09:24

2023-12-07 11:48:00

2025-04-10 10:41:36

2024-12-12 11:29:51

2023-11-06 12:34:14

模型訓練

2024-12-16 19:16:03

Gemini 2.0P圖神器人工智能

2024-12-30 08:33:54

大型模型GeminiLLM

2024-08-14 14:21:00

2023-12-09 14:30:50

2025-03-17 10:56:18

谷歌Gemini大模型

2025-03-24 12:07:34

2025-06-17 08:40:44

2018-01-03 22:20:23

移動

2024-12-12 08:18:50

2025-05-21 06:58:03

2023-12-07 11:12:54

大型語言模型Gemini人工智能

2023-12-20 15:32:02

模型數據

2023-09-19 12:45:36

2025-02-06 13:13:07

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 五月激情婷婷网 | 亚洲日本一区二区三区四区 | 中文字幕亚洲视频 | 国产乱码精品一区二区三区忘忧草 | 国产成人精品免费视频大全最热 | 欧美5区| 黄色网址大全在线观看 | 欧美日本在线 | 久久精品一区 | 成人在线免费观看视频 | 日韩三级精品 | 免费观看av网站 | 亚洲一级二级三级 | 一区二区免费高清视频 | 欧洲一区二区三区 | 成人免费淫片aa视频免费 | 殴美成人在线视频 | 亚洲最新网址 | 中文字幕动漫成人 | 色婷婷亚洲国产女人的天堂 | 欧美日韩一区二区三区四区 | 久久一区| 欧美一区视频 | 亚洲欧美日韩精品久久亚洲区 | 日韩视频在线一区 | 99r在线| 羞羞视频在线观免费观看 | 久久香焦| 国产精品视频一区二区三区, | 日本三级做a全过程在线观看 | 国产精品美女在线观看 | 日韩精品在线一区 | 精品区一区二区 | 51ⅴ精品国产91久久久久久 | 久久久久无码国产精品一区 | aaaaa毛片 | 欧美日一区 | 污视频免费在线观看 | 成年人精品视频 | 99精品久久| 波多野结衣中文字幕一区二区三区 |