成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Pika聯創參與新研究:Diffusion能搶GPT的活了!成功挑戰自回歸文本范式

發布于 2024-4-17 12:59
瀏覽
0收藏

縱觀生成式AI領域中的兩個主導者:自回歸和擴散模型。

?

一個專攻文本等離散數據,一個長于圖像等連續數據。


如果,我們讓后者來挑戰前者的主場,它能行嗎?


斯坦福博士的最新研究,就搞了這么一個擴散模型VS自回歸模的同臺PK。


結果:


挑戰成功!(下面為生成示意圖,最后得到的文本是“Hello world,I am a language diffusion model,named SEDD”)

Pika聯創參與新研究:Diffusion能搶GPT的活了!成功挑戰自回歸文本范式-AI.x社區

并且他們的擴散模型在困惑度和質量上已率先超越自回歸的GPT-2。

Pika聯創參與新研究:Diffusion能搶GPT的活了!成功挑戰自回歸文本范式-AI.x社區

趕緊來瞧瞧。

擴散模型挑戰離散數據

用自回歸來處理離散文本數據,即根據之前的token來預測下一個token,這可能是目前我們能想象到的最簡單可行的方法。

Pika聯創參與新研究:Diffusion能搶GPT的活了!成功挑戰自回歸文本范式-AI.x社區

為什么這么說?


作者在這里用GAN舉了個例子:


對于圖像生成,GAN首先根據隨機噪聲生成圖像,然后使用判別器來“懲罰”偏差,因此梯度信息可以反向傳播到生成器。

Pika聯創參與新研究:Diffusion能搶GPT的活了!成功挑戰自回歸文本范式-AI.x社區

但如果我們假設用GAN來生成文本,就行不通了。


因為盡管我們可以定義同樣原理的生成器和判別器,但文本的離散性質使得更新生成器非常難。


(圖像是連續的,因此可以通過反向傳播來計算梯度,但文本是一堆無法區分的離散值,計算梯度信號相當繁瑣,基本只能粗略估計)

Pika聯創參與新研究:Diffusion能搶GPT的活了!成功挑戰自回歸文本范式-AI.x社區

所以說,文本建模領域基本成了自回歸的天下(如transformer的發揚光大就是基于自回歸模型)。


不過,這個架構也有根本性的缺陷


最有名的“批評”來自Lecun,他就認為自回歸transformer“注定要失敗”,因為生成會“偏離”數據分布并導致模型在采樣過程中發散。


除此之外,自回歸架構的采樣也具有高度迭代性,這對為并行計算而高度優化的GPU來說也不夠match。


最后,由于這類架構的模型都是按照從左往右地完成任務,因此一次執行多個控制任務也很困難(例如補充給定了前綴和后綴的文本)。


正是這些缺點促使作者開始構思另一種概率模型,因此有了本文的主角:


分數熵離散擴散模型(SEDD,Score Entropy Discrete Diffusion)。


簡單來說,為了將擴散模型擴展到離散空間,就必須將“分數函數”(也就是對數概率的梯度)概念推廣到離散空間。


幸運的是,有一種替代方案可以呈現具體分數,即概率的局部比率。


如下圖所示,左邊為分數函數,它直觀地“指向”連續空間中的較高密度區域,具體分數(右)將其推廣到離散空間。

Pika聯創參與新研究:Diffusion能搶GPT的活了!成功挑戰自回歸文本范式-AI.x社區

這些具體的比率(分數)可以通過得分熵(score entropy)損失函數來學習,從而實現離散擴散模型的快速、可擴展訓練。


在這之中,由于作者只知道可以使用得分熵從數據中學習具體得分(對應于學習概率模型),但仍然不知道如何生成樣本。


因此還借用了擴散模型的核心思想,并使用學習到的具體分數將隨機值迭代地去噪為數據點。


為此,他們還定義了向離散文本樣本中“添加噪聲”的含義


對于連續空間,這是通過添加高斯噪聲自然產生的,但在離散空間中,則是被迫直接在不同元素之間“跳躍”。

Pika聯創參與新研究:Diffusion能搶GPT的活了!成功挑戰自回歸文本范式-AI.x社區

而最終,他們的SEDD模型通過學習將樣本不斷迭代去噪為文本,完成從純隨機輸入生成文本的任務。

Pika聯創參與新研究:Diffusion能搶GPT的活了!成功挑戰自回歸文本范式-AI.x社區

超越GPT-2

總的來看,與自回歸模型相比,該擴散模型可以在生成過程中利用完整的全局上下文,從而獲得更好的整體生成效果。


對比起來,自回歸模型特別是像GPT-2這樣的會發生“漂移”現象,從而破壞整體性能的穩定性。


并且即使在較小的模型規模下,SEDD也能始終生成高質量的文本(綠框,讀者很通順),而GPT-2就比較困難(紅框,一眼看上去就很多錯誤)。

Pika聯創參與新研究:Diffusion能搶GPT的活了!成功挑戰自回歸文本范式-AI.x社區

具體測試中,SEDD在困惑度指標上表現出了很強的競爭力:

Pika聯創參與新研究:Diffusion能搶GPT的活了!成功挑戰自回歸文本范式-AI.x社區

此外,作者還發現:


使用更少的采樣步驟,SEDD照樣在控制生成質量上的表現也比GPT-2要好。

Pika聯創參與新研究:Diffusion能搶GPT的活了!成功挑戰自回歸文本范式-AI.x社區

最后,團隊以完全零樣本的方式從任意位置提示SEDD后發現:


對于標準(從左到右)和非標準(填充)提示方法,SEDD都可以與最好的GPT-2解碼方法一較高下。


如下圖所示:


提示標記以藍色表示,不管它在前面中間還是結尾,SEDD都能夠生成有意義的文本。

Pika聯創參與新研究:Diffusion能搶GPT的活了!成功挑戰自回歸文本范式-AI.x社區

Pika創始人是作者之一

本研究一共3位作者:

Pika聯創參與新研究:Diffusion能搶GPT的活了!成功挑戰自回歸文本范式-AI.x社區

一作為斯坦福計算機專業博士生Aaron Lou,康奈爾本科畢業。


二作也是該校博士生Chenlin Meng。


她的名字不算陌生,Pika就是她(下圖右)和“學妹”郭文景一起創辦的。(Meng 2020年入學斯坦福,郭2021年入學)


看起來,一邊創業的她也一邊兼顧著學業。

Pika聯創參與新研究:Diffusion能搶GPT的活了!成功挑戰自回歸文本范式-AI.x社區

最后,通訊作者為一二作的導師Stefano Ermon,他是斯坦福計算機科學系副教授。


論文地址:???https://arxiv.org/abs/2310.16834??


本文轉自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/PMATQzK8Z_Ec0DGoF7Eszg??

標簽
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久综合久久久 | 久久这里只有精品首页 | 国产一区二区三区日韩 | 国产剧情一区 | 亚洲一区二区av | 国产成人精品免费视频大全最热 | 国产在线中文字幕 | 人人干免费 | 91久操视频| 国产目拍亚洲精品99久久精品 | 国产精品网址 | 久久久这里都是精品 | 在线一区观看 | 久久99视频这里只有精品 | 一级片网站视频 | 亚洲一区中文字幕 | 9色网站 | 精品日韩一区 | 日韩黄 | 91高清在线视频 | 国产高清免费视频 | 国产精品一区二区三区99 | 97超碰人人 | 成人99| 爱爱免费视频 | 黄色网址在线免费观看 | 久久久精品网站 | 欧美一区二区三区在线看 | 久久人人爽人人爽人人片av免费 | 欧美日韩在线一区二区 | 成人午夜在线观看 | 黑人一级片视频 | 精品久久网 | 涩涩视频在线看 | 欧美一区二区三区在线 | 久久久久国产一区二区三区 | 一区二区三区中文字幕 | 波多野结衣一区二区 | 日韩成人在线网站 | 成人免费在线播放视频 | 99精品福利视频 |