成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字節(jié)把GPT-4o級圖像生成能力開源了!

人工智能 新聞
模型一經(jīng)發(fā)布,不僅迅速登上Hugging Face 趨勢榜,還立即在??引發(fā)熱議。

字節(jié)最近真的猛猛開源啊……

這一次,他們直接開源了GPT-4o級別的圖像生成能力。

(輕松拿捏“萬物皆可吉卜力”玩法~)

圖片

不止于此,其最新融合的多模態(tài)模型BAGEL主打一個“大一統(tǒng)”, 將帶圖推理、圖像編輯、3D生成等功能全都集中到了一個模型。

各種花式玩法be like:

雖然活躍參數(shù)只有7B(總計14B),但它已經(jīng)實現(xiàn)了圖像理解、生成、編輯等多冠王,實力超越或媲美一眾頂尖開源(如Stable Diffusion 3、FLUX.1)和閉源(如GPT-4o、Gemini 2.0)模型。

模型一經(jīng)發(fā)布,不僅迅速登上Hugging Face趨勢榜,還立即在??引發(fā)熱議。

有網(wǎng)友見此連連感慨,“字節(jié)像領(lǐng)先了整整一代人”。

圖片

OpenAI研究員也公開贊賞, 字節(jié)Seed團隊在他心目中已經(jīng)穩(wěn)居頂級實驗室之列。

圖片

Okk,我們直接來看BAGEL模型有哪些玩法。

一個模型實現(xiàn)所有多模態(tài)功能

作為多模態(tài)模型,掌握帶圖推理算是如今的一個入門級挑戰(zhàn)。

扔給它疊放整齊的一塊布料,讓它想象出布料展開后的樣子。

圖片

可以看到,生成之前BAGEL模型會自動進行推理,并規(guī)劃出可行方案:

圖片

最終生成的圖片如下,一眼看去布料的拼圖和花紋沒有明顯錯誤:

圖片

換成其他例子,還能看到BAGEL模型支持無縫多輪對話

先是按照文字提示生成符合要求的圖片:

圖片

然后緊接著生成人物的公仔形象,并推出銷售口號。

圖片

當然,除了上面這些,懂推理的BAGEL模型還支持復(fù)雜圖像編輯

最方便的,當屬一鍵試妝了:

圖片

展開其思考過程,不難發(fā)現(xiàn)它是真懂(doge)。

圖片

其他我們相對熟悉的技能,如人物表情轉(zhuǎn)換、憑空造物等更是不在話下。

圖片

最后,BAGEL模型超越傳統(tǒng)圖像編輯,還具備多視角合成和導(dǎo)航等“世界建?!蹦芰?/span>

360°全自動觀賞裝在盒子里的手辦:

圖片

又或者開局一張圖,視角一步步推進,沉浸式走進小巷:

圖片

總之,正如字節(jié)團隊所強調(diào)的,BAGEL模型已經(jīng)展現(xiàn)出統(tǒng)一多模態(tài)能力。

那么接下來的問題是——

它怎么做到的?

重新定義“涌現(xiàn)能力”

據(jù)論文介紹,BAGEL模型采用了MoT(Mixture-of-Transformer-Experts)架構(gòu)。

它由兩個Transformer專家組成,一個專注于多模態(tài)理解,另一個專注于多模態(tài)生成。作為對應(yīng),模型也使用了兩個獨立的視覺編碼器,分別用于捕捉圖像的像素級和語義級特征。

簡單來說,像素級編碼器專注于圖像的底層細節(jié),如顏色、紋理等;語義級編碼器則關(guān)注圖像的高層語義,如物體的類別、場景的含義等。

整體框架遵循“下一個token組預(yù)測范式”,即模型根據(jù)已有的多模態(tài)輸入,學(xué)習(xí)預(yù)測后續(xù)的token,從而不斷優(yōu)化自身對多模態(tài)數(shù)據(jù)的理解和生成能力。

圖片

順便一提,BAGEL基礎(chǔ)模型是基于Qwen2.5-7B-Instructsiglip-so400m-14-384-flash-attn2模型進行微調(diào),并使用了FLUX.1-schnell VAE模型。

基于上述架構(gòu),團隊在模型訓(xùn)練中得出了一項重要發(fā)現(xiàn)。

隨著規(guī)?;瘮?shù)據(jù)與模型參數(shù)的雙重擴展,BAGEL模型表現(xiàn)出了一種“涌現(xiàn)能力(Emerging Properties)”——多模態(tài)理解和生成能力較早出現(xiàn),隨后是基礎(chǔ)編輯能力,而復(fù)雜的智能編輯能力則在后期顯現(xiàn)。

所謂的涌現(xiàn)能力,其實早已在大型視覺或語言模型中被廣泛探討。不過在論文中,聚焦于統(tǒng)一多模態(tài)基礎(chǔ)模型的背景下,團隊重新定義了涌現(xiàn)能力:

當某種能力在早期訓(xùn)練階段尚未出現(xiàn),而在后續(xù)預(yù)訓(xùn)練中出現(xiàn)時,稱其為涌現(xiàn)能力。

結(jié)合BAGEL模型的表現(xiàn),團隊認為其揭示了一種新興模式,即高級多模態(tài)推理是在完善的基礎(chǔ)技能之上逐步形成的,而非某種“突變”。

另外論文中提醒,將VAE(變分自編碼器)與ViT(視覺Transformer)特征相結(jié)合,可以顯著提升智能編輯能力。

圖片

最后,更多基準測試結(jié)果也展現(xiàn)了BAGEL模型領(lǐng)先的圖像理解、生成、編輯能力

例如在圖像理解任務(wù)中,在激活參數(shù)規(guī)模相當(7B)的情況下,BAGEL模型優(yōu)于現(xiàn)有的統(tǒng)一模型Janus-Pro。

同時與專用理解模型(如Qwen2.5-VL和InternVL2.5)相比,BAGEL在大多數(shù)基準測試上表現(xiàn)更優(yōu)。

圖片

在GenEval和WISE這兩個評估圖像生成能力的測試中,BAGEL實現(xiàn)了88%的整體得分,優(yōu)于專用生成模型(FLUX.1-dev:82%、SD3-Medium:74%)和統(tǒng)一模型(Janus-Pro:80%、MetaQuery-XL:80%)。

圖片

在圖片編輯能力測試中,BAGEL的表現(xiàn)可與Step1X-Edit(當前領(lǐng)先的專用圖像編輯模型)相媲美,并且優(yōu)于Gemini 2.0。

圖片

當然,也有更直觀的對比:

圖片

目前模型已在Hugging Face上架,采用相對寬松的Apache 2.0許可證。

項目主頁:
https://bagel-ai.org/
論文:
https://arxiv.org/abs/2505.14683
開源地址:
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-05-27 15:59:41

AI工具模型

2025-04-09 09:08:34

2025-03-31 08:50:00

AI生成模型

2025-04-08 02:26:00

2024-06-27 12:45:30

2025-04-15 08:01:12

2025-04-07 00:00:00

OpenAIGPT-4o圖像

2024-06-21 09:51:17

2024-05-21 12:23:17

2025-05-12 08:50:00

2024-06-05 08:29:35

2024-08-14 14:30:00

AI訓(xùn)練

2024-06-05 13:09:26

2024-05-30 13:13:43

2024-07-04 15:26:56

2024-11-11 09:47:00

AI開源

2024-10-21 14:30:00

AI游戲

2024-11-28 15:51:19

GPT-4o微軟

2024-08-22 13:40:08

開發(fā)者GPT-4oepoch

2025-03-26 09:13:02

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日朝毛片| 精品99在线| 亚洲一区二区中文字幕 | 一级片视频免费 | 在线看黄免费 | 日韩在线视频一区二区三区 | 国产精品人人做人人爽 | 91精品国产一区二区三区动漫 | 亚洲精品在线看 | 久久久国产精品入口麻豆 | 九九在线| 卡通动漫第一页 | 国内精品视频在线观看 | 天天综合亚洲 | 精品久久久久久亚洲精品 | 亚洲一级av毛片 | 女女百合av大片一区二区三区九县 | 中文字幕视频三区 | 中文字幕国产一区 | 一区二区三区不卡视频 | 九九热精品在线 | 一级黄色片一级黄色片 | 亚州激情 | 一级黄色录像片子 | 免费av手机在线观看 | 在线欧美视频 | 久久久蜜臀国产一区二区 | 亚洲精品视频一区 | 成人国产精品免费观看视频 | 免费一级淫片aaa片毛片a级 | 欧美日韩三区 | 国产精品视频播放 | 久久久久久久网 | 一区二区伦理电影 | 天天射网站 | 成人免费在线 | 亚洲一区 | 亚洲a人 | 国产欧美日韩综合精品一 | www视频在线观看 | www.日韩 |