成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DALL·E發布兩天就被復現?官方論文沒出,大神們就在復現了

新聞 人工智能
沒想到,OpenAI剛公布DALL·E,就已經有人在復現了。雖然還是個半成品,不過大體框架已經搭建好了,一位第三方作者Philip Wang正在施工中。

 本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

沒想到,OpenAI剛公布DALL·E,就已經有人在復現了。

DALL·E發布兩天就被復現?官方論文沒出,大神們就在復現了

雖然還是個半成品,不過大體框架已經搭建好了,一位第三方作者Philip Wang正在施工中。

DALL·E是前兩天剛公布的文字轉圖像網絡框架,目前只公布了項目結果,甚至連官方論文都還沒出

論文還沒出,就開始復現了

論文復現的依據,來自一位叫做Yannic Kilcher的博主制作的油管視頻。

他在視頻中,對DALL·E的原理結構進行了猜測。

DALL·E發布兩天就被復現?官方論文沒出,大神們就在復現了

他表示,這些猜測并不代表真實情況,也許DALL·E的論文出來后,會顛覆他的預想。

Yannic認為,DALL·E應該是VQ-VAE模型、和類似于GPT-3的語言模型的結合。

GPT-3這類語言模型,有著非常強大的語言建模能力,可以對輸入的文字描述進行很好的拆分理解。

[[374674]]

而VAE模型,則是一種強大的圖像生成Transformer,在訓練完成后,模型會去掉編碼器(encoder)的部分,只留下解碼器,用于生成圖像。

將二者結合的話,就能像下圖中的那個小方塊一樣,將輸入的各種物體,根據理解的文字,結合成具有實際意義的一幅畫面。

例如,輸入人、太陽和樹,模型就能輸出“太陽下,樹底坐著一個人”所描繪的圖像。

DALL·E發布兩天就被復現?官方論文沒出,大神們就在復現了

要怎么實現?

先簡單分析一下VQ-VAE的模型原理。

與VAE相似,這也是一個Transformer結構的模型,編碼器對圖像進行編碼后,將編碼數據送入隱空間,解碼器再從隱空間中,對圖像進行重構。

相比于VAE,VQ-VAE隱變量的每一維都是離散整數,也就是說,它的隱空間其實是一個編碼簿(codebook),包含提取出的各種向量信息。

DALL·E發布兩天就被復現?官方論文沒出,大神們就在復現了

在DALL·E里,這個編碼簿,本質上可以等價為一個詞匯表(vocabulary)。

這個詞匯表,專門用來存儲對圖像的各種描述。

對輸入圖像進行編碼時,本質上是將圖像分成各種像素塊。

期間,會產生各種各樣的圖像信息。

假設天藍色的格子,包含“天空”的描述信息,那么在重建時,解碼器讀取到“天空”信息,就會分配頂端的一系列像素,用來生成天空。

DALL·E發布兩天就被復現?官方論文沒出,大神們就在復現了

在完成VQ-VAE的訓練后,模型就得到了一個只有解碼器看得懂的編碼簿。

屆時,將由類似于GPT-3的語言模型,對輸入的文字進行解碼,轉換成只有編碼簿才能看懂的向量信息。

然后,編碼簿會將這些信息進行排序,依次列出每個像素塊應該生成的數據,并告訴解碼器。

解碼器會合成這些像素數據,得到最終的圖像。

DALL·E發布兩天就被復現?官方論文沒出,大神們就在復現了

為了實現這樣的目標,既要對類似于GPT-3的語言模型進行訓練,也要提前對VQ-VAE模型進行預訓練。

而且,還需要對二者融合后的模型進行訓練。

這位作者復現的DALL·E,也是依據這個視頻解析的原理復現的。

有關項目本身

目前,DALL·E的復現項目還沒有完成,作者仍然在加工中(WIP),不過已經有700多個Star。

DALL·E發布兩天就被復現?官方論文沒出,大神們就在復現了

作者希望寫出一個PyTorch版本的DALL·E,現在的框架中,已經包含了VAE的訓練、CLIP的訓練,以及VAE和CLIP融合后的模型預訓練。

此外,還包括DALL·E的訓練、和將預訓練VAE模型融合進DALL·E模型中的部分。

上述模塊訓練完成后,就能用DALL·E來做文字生成圖像了。

DALL·E發布兩天就被復現?官方論文沒出,大神們就在復現了

目前,作者正在進行DALL·E模塊部分的代碼復現。

作者承諾,完成DALL·E的部分后,會把CLIP模型也一起補上。

作者介紹

[[374678]]

Philip Wang,本碩畢業于康奈爾大學,博士畢業于密歇根大學醫學院。

他的研究興趣是AI(深度學習方向),以及醫療健康,目前GitHub上已有1.7k個followers。

關于DALL·E本身,視頻解析博主Yannic也表示,之所以能取得這么好的效果,并不全是因為模型設計

DALL·E發布兩天就被復現?官方論文沒出,大神們就在復現了

DALL·E,極可能也像GPT-3一樣,用了樣本量龐大的數據集,來對模型進行訓練。

網友表示,難以想象訓練這個玩意所用的GPU數量,氣候又要變暖了。

DALL·E發布兩天就被復現?官方論文沒出,大神們就在復現了

所以要想完全復現這個項目,最難的其實是硬件部分?(手動狗頭)

項目地址:
https://github.com/lucidrains/DALLE-pytorch

DALL·E視頻解析:
https://www.youtube.com/watch?v=j4xgkjWlfL4

 

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-03-06 13:12:21

AI技術論文

2025-03-10 09:30:00

2023-06-19 13:44:00

AI3D

2023-12-06 13:56:24

智能數據

2021-04-25 15:35:30

開源技術 軟件

2024-04-08 08:03:00

ChatGPTOpenAI大語言模型

2025-05-06 09:09:37

2021-02-01 09:04:42

Python 項目distutils

2024-04-15 12:54:39

2020-11-03 10:09:46

機器學習論文代碼

2023-09-21 10:31:06

人工智能模型

2022-05-30 14:04:23

Log4j遠程代碼漏洞

2023-10-23 09:25:08

模型AI

2023-09-29 18:46:06

谷歌AI代碼

2025-02-20 15:32:28

2011-05-09 00:13:17

Windows Pho微軟

2011-06-10 15:47:26

SEO優化

2024-03-04 09:15:00

AI模型

2011-08-10 09:18:05

亞馬遜彈性計算云故障

2009-07-02 08:45:25

網易魔獸
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产成人免费一区二区60岁 | 久热久热 | 精品视频在线免费观看 | 天天草天天爱 | 欧美极品视频在线观看 | 黄色av网站在线免费观看 | 99国内精品久久久久久久 | 久久精品国产99国产 | 成人精品国产一区二区4080 | avhd101在线成人播放 | 九九看片| 伊人网国产 | 日韩精品在线免费观看 | 国产精品久久久久久久久久妇女 | 久久久www成人免费精品张筱雨 | 一区二区成人 | 亚洲国产欧美91 | 97国产精品 | 午夜日韩 | 国产成人艳妇aa视频在线 | 成av在线 | 日韩国产一区二区三区 | 一二三四在线视频观看社区 | 久久久久久影院 | www国产精品 | 久久国产精品-久久精品 | 久久久久成人精品免费播放动漫 | 欧美日韩黄色一级片 | 国产成人一区二区三区精 | 国产在线播 | 久久久91精品国产一区二区精品 | 97人人超碰 | 91国产在线视频在线 | 伊人久久在线 | 国产1区2区在线观看 | 亚州综合一区 | 综合色播| 午夜精品一区二区三区在线观看 | 午夜免费视频观看 | 国产91丝袜在线18 | 欧美不卡在线 |