成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<font id="16611"></font>

<table id="16611"><acronym id="16611"></acronym></table>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

字節豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍精華

輕薄滴假象

發布于 2024-6-24 08:37

瀏覽

0收藏

在生成式模型的迅速發展中，Image Tokenization 扮演著一個很重要的角色，例如Diffusion依賴的VAE或者是Transformer依賴的VQGAN。這些Tokenizers會將圖像編碼至一個更為緊湊的隱空間（latent space），使得生成高分辨率圖像更有效率。

然而，現有的Tokenizer通常會將輸入圖像映射為隱空間的一個降采樣后的2D矩陣，這一設計隱式的限制了token與圖像之間的映射關系，導致其很難有效的利用圖像中的冗余信息（比如相鄰的區域經常會有類似的特征）來獲得一個更加有效的圖像編碼。

為了解決這一問題，字節跳動豆包大模型團隊和慕尼黑工業大學提出了全新的1D圖像Tokenizer：TiTok，這一Tokenizer打破了2D Tokenizer的設計局限，可以將整個圖片壓縮至更為緊湊的Token序列。

字節豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍-AI.x社區

論文鏈接：??https://arxiv.org/abs/2406.07550 ??
項目鏈接：??https://yucornetto.github.io/projects/titok.html??
代碼鏈接：https://github.com/bytedance/1d-tokenizer

對于256 x 256分辨率的圖片，TiTok最少僅需32個Token就可以表達，比通常2D Tokenizer的256或1024個Token顯著減少。對于512 x 512分辨率的圖片，TiTok最少僅需64個Token，64倍小于Stable Diffusion的VAE Tokenizer。此外，在ImageNet圖像生成這一任務上，使用TiTok作為Tokenizer的生成器在生成質量和生成速度上都有顯著提高。

在256分辨率，TiTok獲得了1.97的FID，顯著超過使用同樣生成器的MaskGIT 4.21。在512分辨率TiTok可以獲得2.74的FID，不僅超過了DiT（3.04），并且相比DiT在圖像生成上加速了驚人的410倍！TiTok的最好變種取得了2.13的FID，顯著超過DiT的同時仍舊有著74倍的加速。

字節豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍-AI.x社區

TiTok僅用32個Token就可以完成高質量的圖像重建與生成

字節豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍-AI.x社區

圖像所需Token的顯著減少帶來了明顯更快的生成速度，但是同時維持了高質量的圖像生成。

模型結構

TiTok的結構非常簡單，編碼器和解碼器部分各自是一個ViT，在編碼過程中，一組latent tokens會拼接在image patches后，在過完編碼器后，僅保留latent tokens并進行quantization的過程。獲得的quantized latent tokens將會與一組mask tokens拼接在一起，一并送入解碼器，從mask token序列中重建出圖像。

字節豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍-AI.x社區

1D Tokenization 性質研究

研究者進行了一系列實驗研究關于不同數量的用于表示圖像的token，不同的tokenizer大小，重建表現，生成表現，linear probing準確率，以及訓練和推理速度的比較。在這一過程中，研究者發現（1）僅需32個Token便能取得很好的重建與生成效果（2）通過增大Tokenizer的模型大小，研究者可以使用更少的Token來表示圖片（3）當圖片使用較少的Token來表示時，Tokenizer會學到更強的語義信息（4）使用更少的Token來表示圖片時，訓練和推理速度都有了顯著的提升。

字節豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍-AI.x社區

此外，視頻中展示了使用不同的Tokenizer大小以及Token數目時所重建出的圖片，可以看到更大的Tokenizer可以在有限的Token下重建出質量更好的圖像。此外，當僅有有限Token時，模型更傾向于保留顯著區域有更好的重建效果。

字節豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍-AI.x社區

實驗驗證

研究者主要在ImageNet-1k的256 x 256分辨率以及512 x 512分辨率上進行了與其他方法的比較。可以看到，盡管TiTok使用有限的Token數目，但是可以和其他使用更多Token的方法取得相當的重建效果（rFID），使用較少的Token數目讓TiTok在維持較高的生成圖片質量（gFID）的同時有著顯著快于其他方法的生成速度。

例如TiTok-L-32獲得了2.77的gFID score，同時可以以每秒101.6張圖片的速度進行圖片生成，這一速度顯著快于其他Diffusion Models （169倍快于DiT）或者Transformer Models （339倍快于ViT-VQGAN）.

字節豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍-AI.x社區

TiTok使用較少Token的優勢在更高分辨率的圖像生成上更加明顯，其中TiTok-L-64僅使用64個Token就能完成高質量的512分辨率圖像的重建與生成，生成圖像的質量不僅高于DiT (2.74 v.s. 3.04)，同時生成速度提高了近410倍。

字節豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍-AI.x社區

結論

在本文中，研究者專注于一個全新的1D Image Tokenizer，并提出了一種全新的Tokenizer來打破現有2D Tokenizer中的局限，進而更好的利用圖像中的冗余信息。TiTok僅需少量的Token（比如32個）來表示圖像，同時仍舊能進行高質量的圖像重建與生成。在ImageNet的256分辨率和512分辨率生成實驗中，TiTok不僅取得了超過Diffusion Models的生成質量，同時有著百倍更快的生成速度。

本文轉自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/jQwv5MHWPqu1c7YLROBD3A??

標簽

已于2024-6-24 08:38:11修改

贊

收藏

回復

舉報

回復

相關推薦

只需一步！One-Step圖像轉換來了！親測效果驚艷！

angel ? 5011瀏覽 ? 0回復
圖像生成里程碑！VAR:自回歸模型首超Diffusion Transformer！（北大&字節）

angel ? 1.3w瀏覽 ? 0回復
北大字節開辟圖像生成新范式！超越Sora核心組件DiT，不再預測下一個token

Crystalcxt ? 2801瀏覽 ? 0回復
「個性化」圖像生成時代來了！六大頂尖高校聯手發布全新Gen4Gen框架

duhorse ? 3372瀏覽 ? 0回復
圖像生成模型王牌——Diffusion Transformers系列工作梳理

海因斯DK ? 6002瀏覽 ? 0回復
快3倍！Meta 違背經典模型結構，一次預測多個token，路徑可行，大模型大幅提速指日可待！

51CTO技術棧 ? 3027瀏覽 ? 0回復
next-token被淘汰！Meta實測「多token」訓練方法，推理提速3倍，性能大漲10%+

duhorse ? 3369瀏覽 ? 0回復
CVPR 2024｜讓圖像擴散模型生成高質量360度場景，只需要一個語言模型

輕薄滴假象 ? 3474瀏覽 ? 0回復
字節豆包、武大提出 CAL：通過視覺相關的 token 增強多模態對齊效果

輕薄滴假象 ? 2942瀏覽 ? 0回復
MUMU：用文本、圖像引導，多模態圖像生成模型

Aceryt ? 2793瀏覽 ? 0回復
Agent遇上4萬個工具？一個Token搞定！

探索AGI ? 2481瀏覽 ? 0回復
突破個性化圖像生成局限！MagicTailor：組件可控個性化圖像生成創新框架！

angel ? 3109瀏覽 ? 0回復
OmniTokenizer-視覺tokenizer生成

shizhi02 ? 2008瀏覽 ? 0回復
港大&字節發布領先商用級圖像視頻生成模型Goku有點東西

angel ? 2579瀏覽 ? 0回復
4090單卡部署滿血 671B DeepSeek，本地部署“成本驟降32倍”！！！

玄姐聊AGI ? 7279瀏覽 ? 0回復
何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現高分辨率逐像素生成

Crystalcxt ? 1860瀏覽 ? 0回復
阿里開源QwQ-32B，性能與Deepseek R1持平。一個擁有320億參數的全新推理模型

Halo咯咯 ? 2816瀏覽 ? 0回復
0.72秒生成3D世界！建模提速15倍！極佳&北大等的WonderTurbo強勢登場，可實時交互！

angel ? 1952瀏覽 ? 0回復
港大&字節開源GigaTok首次破解圖像重建與生成矛盾，30億參數登頂SOTA！

angel ? 1692瀏覽 ? 0回復

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

DeepSeek一口氣開源3個項目，還有梁文鋒親自參與，昨晚API大降價 2025-02-27 12:40:06發布
全球首個AI CUDA工程師來了！將PyTorch原生實現提速10-100倍 2025-02-21 13:20:31發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： ShareGPT4V作者團隊又一力作！百萬高質量視頻-字幕數據助力社區提升多模態大模型視頻理解及生成能力

下一篇：耳朵沒錯，是聲音太真了，字節豆包語音合成成果Seed-TTS技術揭秘

社區精華內容

目錄

主站蜘蛛池模板：精品国产不卡一区二区三区 | 精品自拍视频 | 国产区在线视频 | 97视频精品| 国产在线精品一区二区三区 | 亚洲成人网在线 | 偷偷操视频 | 久久精品久久久久久 | 久草免费福利 | 国产高清视频一区 | 亚洲视频一区在线 | 韩国电影久久 | 亚洲风情在线观看 | 亚洲欧美国产一区二区三区 | 亚洲精品一区二区三区中文字幕 | 欧美精品网 | 在线第一页 | 福利色导航 | 欧美日韩国产在线观看 | 韩日三级 | 亚洲精品久久久久中文字幕欢迎你 | 激情五月婷婷丁香 | 亚洲精选久久 | 久久久久久综合 | 久久香焦| 日本亚洲一区二区 | 国产精品日韩欧美 | 亚洲久草 | 又黑又粗又长的欧美一区 | 欧美日韩久久 | 久久久久久久亚洲精品 | 亚洲免费在线 | 人人看人人爽 | 99热在线免费 | 一本久久a久久精品亚洲 | 国产乱性| 狠狠综合久久av一区二区小说 | 日韩中文字幕在线视频 | 99自拍视频 | 精品欧美一区二区在线观看视频 | 欧美激情一区 |

<table id="66111"></table>

<input id="66111"><em id="66111"></em></input>

<sup id="66111"></sup>

<kbd id="66111"><dd id="66111"><span id="66111"></span></dd></kbd>

<table id="66111"><tt id="66111"></tt></table>