成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

出圈的Sora帶火DiT,連登GitHub熱榜,已進化出新版本SiT

人工智能 新聞
Sora 研發(fā)負責人之一 Bill Peebles 與紐約大學助理教授謝賽寧撰寫的 DiT(擴散 Transformer)論文《Scalable Diffusion Models with Transformers》被認為是此次 Sora 背后的重要技術(shù)基礎(chǔ)之一。

雖然已經(jīng)發(fā)布近一周時間,OpenAI 視頻生成大模型 Sora 的影響仍在繼續(xù)!

其中,Sora 研發(fā)負責人之一 Bill Peebles 與紐約大學助理教授謝賽寧撰寫的 DiT(擴散 Transformer)論文《Scalable Diffusion Models with Transformers》被認為是此次 Sora 背后的重要技術(shù)基礎(chǔ)之一。該論文被 ICCV 2023 接收。


  • 論文地址:https://arxiv.org/pdf/2212.09748v2.pdf
  • GitHub 地址:https://github.com/facebookresearch/DiT

這兩天,DiT 論文和 GitHub 項目的熱度水漲船高,重新收獲大量關(guān)注。

論文出現(xiàn)在 PapersWithCode 的 Trending Research 榜單上,星標數(shù)量已近 2700;還登上了 GitHub Trending 榜單,星標數(shù)量每日數(shù)百增長,Star 總量已超 3000。

來源:https://paperswithcode.com/

來源:https://github.com/facebookresearch/DiT

這篇論文最早的版本是 2022 年 12 月,2023 年 3 月更新了第二版。當時,擴散模型在圖像生成方面取得了驚人的成果,幾乎所有這些模型都使用卷積 U-Net 作為主干。

因此,論文的目的是探究擴散模型中架構(gòu)選擇的意義,并為未來的生成模型研究提供經(jīng)驗基線。該研究表明,U-Net 歸納偏置對擴散模型的性能不是至關(guān)重要的,并且可以很容易地用標準設(shè)計(如 transformer)取代。

具體來說,研究者提出了一種基于 transformer 架構(gòu)的新型擴散模型 DiT,并訓練了潛在擴散模型,用對潛在 patch 進行操作的 Transformer 替換常用的 U-Net 主干網(wǎng)絡(luò)。他們通過以 Gflops 衡量的前向傳遞復雜度來分析擴散 Transformer (DiT) 的可擴展性。

研究者嘗試了四種因模型深度和寬度而異的配置:DiT-S、DiT-B、DiT-L 和 DiT-XL。

他們發(fā)現(xiàn),通過增加 Transformer 深度 / 寬度或增加輸入 token 數(shù)量,具有較高 Gflops 的 DiT 始終具有較低的 FID。

除了良好的可擴展性之外,DiT-XL/2 模型在 class-conditional ImageNet 512×512 和 256×256 基準上的性能優(yōu)于所有先前的擴散模型,在后者上實現(xiàn)了 2.27 的 FID SOTA 數(shù)據(jù)。

質(zhì)量、速度、靈活性更好的 SiT

此外,DiT 還在今年 1 月迎來了升級!謝賽寧及團隊推出了 SiT(Scalable Interpolant Transformer,可擴展插值 Tranformer),相同的骨干實現(xiàn)了更好的質(zhì)量、速度和靈活性。

謝賽寧表示,SiT 超越了標準擴散并通過插值來探索更廣闊的設(shè)計空間。

該論文標題為《SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers》。


  • 論文地址:https://arxiv.org/pdf/2401.08740.pdf
  • GitHub 地址:https://github.com/willisma/SiT

簡單來講,SiT 將靈活的插值框架集成到了 DiT 中,從而能夠?qū)D像生成中的動態(tài)傳輸進行細微的探索。SiT 在 ImageNet 256 的 FID 為 2.06,將基于插值的模型推向了新的高度。

論文一作、紐約大學本科生 Nanye Ma 對這篇論文進行了解讀。本文認為,隨機插值為擴散和流提供了統(tǒng)一的框架。但又注意到, 基于 DDPM(去噪擴散概率模型)的 DiT 與較新的基于插值的模型之間存在性能差異。因此,研究者想要探究性能提升的來源是什么?

他們通過設(shè)計空間中的一系列正交步驟,逐漸地從 DiT 模型過渡到 SiT 模型來解答這一問題。同時仔細評估了每個遠離擴散模型的舉措對性能的影響。

研究者發(fā)現(xiàn),插值和采樣器對性能的影響最大。當將插值(即分布路徑)從方差保留切換到線性以及將采樣器從確定性切換到隨機性時,他們觀察到了巨大的改進。

對于隨機采樣,研究者表明擴散系數(shù)不需要在訓練和采樣之間綁定,在推理時間方面可以有很多選擇。同時確定性和隨機采樣器在不同的計算預算下各有其優(yōu)勢。

最后,研究者將 SiT 描述為連續(xù)、速度可預測、線性可調(diào)度和 SDE 采樣的模型。與擴散模型一樣,SiT 可以實現(xiàn)性能提升,并且優(yōu)于 DiT。

更多關(guān)于 DiT 和 SiT 的內(nèi)容請參閱原始論文。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2019-12-04 15:00:04

GitHub 技術(shù)開源

2024-07-31 15:10:31

2013-12-10 16:00:46

金和移動OA

2022-09-20 15:24:09

程序員項目

2020-12-10 15:07:56

Windows 10Windows微軟

2011-08-01 15:35:51

GlassFishJava 7

2023-10-20 12:45:00

AI數(shù)據(jù)

2023-02-22 15:02:52

GitHub指南

2023-12-21 14:18:42

統(tǒng)信UOS操作系統(tǒng)

2010-02-23 17:44:48

Python 3.0

2009-06-17 09:24:34

學習strutsStruts新版本

2023-10-10 07:19:07

Github開源庫系統(tǒng)

2011-03-21 13:51:28

FirefoxMozilla進度

2023-04-19 08:14:24

2015-03-13 11:26:57

兩會云計算云概念

2015-07-22 16:29:06

2022-12-12 09:01:03

2015-02-05 16:59:36

平安WiFiiOS

2024-01-04 14:46:10

AI開發(fā)者GPT

2019-12-26 15:31:17

騰訊框架開源
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产精品国产三级国产aⅴ中文 | 亚洲欧美国产一区二区三区 | 国产精品视频入口 | 福利一区在线观看 | 国产成在线观看免费视频 | 亚洲国产一区二区在线 | 国产精品欧美一区二区三区不卡 | 亚洲国产日韩欧美 | 亚洲91av| 黄色免费观看 | 亚州精品天堂中文字幕 | 成人黄色av网站 | 草久久 | 亚洲国产精品一区二区三区 | 精品视频一区二区三区 | 久久精品国产免费看久久精品 | 国产欧美一区二区三区在线看 | 狠狠干美女| 日本三级网站在线观看 | 一区二区三区国产精品 | 天天操天天怕 | 精品国产黄色片 | 少妇淫片aaaaa毛片叫床爽 | 久久无毛 | 免费一级毛片 | 91香蕉视频在线观看 | 久久成人久久 | 久久久久久久久久久久久9999 | 玖玖在线精品 | 国产农村妇女精品一区 | 瑟瑟激情 | 91麻豆精品国产91久久久更新资源速度超快 | 91社区在线观看高清 | 欧美日韩国产一区二区三区 | 国产线视频精品免费观看视频 | av成年人网站 | av色噜噜| 日韩在线观看中文字幕 | 久在线视频 | 草草影院ccyy| 成人高清在线 |