成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

超越Softmax瓶頸:一種高秩RNN語(yǔ)言模型

人工智能 深度學(xué)習(xí)
在因式分解(factorization)的基礎(chǔ)上,基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的語(yǔ)言模型在多項(xiàng)基準(zhǔn)上都達(dá)到了當(dāng)前最佳的水平。盡管 RNN 作為通用近似器有出色的表達(dá)能力,但點(diǎn)積和 Softmax 的組合是否有能力建模條件概率(會(huì)隨語(yǔ)境的變化而發(fā)生巨大的變化),這個(gè)問(wèn)題還沒(méi)有得到清楚的解答。
超越Softmax瓶頸:一種高秩RNN語(yǔ)言模型
在因式分解(factorization)的基礎(chǔ)上,基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的語(yǔ)言模型在多項(xiàng)基準(zhǔn)上都達(dá)到了當(dāng)前***的水平。盡管 RNN 作為通用近似器有出色的表達(dá)能力,但點(diǎn)積和 Softmax 的組合是否有能力建模條件概率(會(huì)隨語(yǔ)境的變化而發(fā)生巨大的變化),這個(gè)問(wèn)題還沒(méi)有得到清楚的解答。
 
在這項(xiàng)工作中,我們從矩陣分解的角度研究了前面提到的基于 Softmax 的循環(huán)語(yǔ)言模型的表達(dá)能力。我們表明使用標(biāo)準(zhǔn)公式學(xué)習(xí)基于 Softmax 的循環(huán)語(yǔ)言模型等價(jià)于求解矩陣分解問(wèn)題。更重要的是,因?yàn)樽匀徽Z(yǔ)言高度依賴于語(yǔ)境,所以被分解的矩陣可能是高秩的(high-rank)。這進(jìn)一步表明帶有分布式(輸出)詞嵌入的基于標(biāo)準(zhǔn) Softmax 的語(yǔ)言模型沒(méi)有足夠的能力建模自然語(yǔ)言。我們稱之為 Softmax 瓶頸(Softmax bottleneck)。
 
我們提出了一種解決 Softmax 瓶頸的簡(jiǎn)單且有效的方法。具體而言,我們將離散隱變量(discrete latent variable)引入了循環(huán)語(yǔ)言模型,并且將 next-token 概率分布形式化為了 Mixture of Softmaxes(MoS)。Mixture of Softmaxes 比 Softmax 和以前的研究考慮的其它替代方法有更好的表達(dá)能力。此外,我們表明 MoS 可以學(xué)習(xí)有更大的歸一化奇異值(normalized singular values)的矩陣,因此比 Softmax 和基于真實(shí)世界數(shù)據(jù)集的其它基準(zhǔn)有高得多的秩。
 
我們有兩大貢獻(xiàn)。首先,我們通過(guò)將語(yǔ)言建模形式化為矩陣分解問(wèn)題而確定了 Softmax 瓶頸的存在。第二,我們提出了一種簡(jiǎn)單且有效的方法,可以在當(dāng)前***的結(jié)果上實(shí)現(xiàn)顯著的提升。

 
論文地址:https://arxiv.org/pdf/1711.03953.pdf
 
摘要:我們將語(yǔ)言建模形式化了矩陣分解問(wèn)題,并且表明基于 Softmax 的模型(包括大多數(shù)神經(jīng)語(yǔ)言模型)的表達(dá)能力受限于 Softmax 瓶頸。鑒于自然語(yǔ)言高度依賴于語(yǔ)境,這就進(jìn)一步表明使用分布式詞嵌入的 Softmax 實(shí)際上沒(méi)有足夠的能力來(lái)建模自然語(yǔ)言。我們提出了一種解決這一問(wèn)題的簡(jiǎn)單且有效的方法,并且在 Penn Treebank 和 WikiText-2 上分別將當(dāng)前***的困惑度水平改善到了 47.69 和 40.68。
 
在 PTB 和 WT2 上的語(yǔ)言建模結(jié)果分別在表 1 和表 2 中給出。在參數(shù)數(shù)量差不多的情況下,MoS 的表現(xiàn)超越了所有使用了或沒(méi)使用動(dòng)態(tài)評(píng)估(dynamic evaluation)的基準(zhǔn),并且在當(dāng)前***的基礎(chǔ)上實(shí)現(xiàn)了顯著的提升(困惑度改善了高達(dá) 3.6)。 

 

 
表 1:在 Penn Treebank 的驗(yàn)證集和測(cè)試集上的單個(gè)模型困惑度。基準(zhǔn)結(jié)果是從 Merity et al. (2017) 和 Krause et al. (2017) 獲得的。† 表示使用了動(dòng)態(tài)評(píng)估。 

 

 
表 2:在 WikiText-2 上的單個(gè)模型困惑度。基準(zhǔn)結(jié)果是從 Merity et al. (2017) 和 Krause et al. (2017) 獲得的。† 表示使用了動(dòng)態(tài)評(píng)估。
 
為了進(jìn)一步驗(yàn)證上面所給出的改善確實(shí)源自 MoS 結(jié)構(gòu),而不是因?yàn)樵黾恿祟~外的隱藏層或找到了一組特定的超參數(shù),我們?cè)?PTB 和 WT2 上執(zhí)行了 ablation study(是指移除模型和算法的某些功能或結(jié)構(gòu),看它們對(duì)該模型和算法的結(jié)果有何影響)。

 

 
表 3:在 Switchboard 上的評(píng)估分?jǐn)?shù)。 
 
表 4:在 Penn Treebank 和 WikiText-2 上的 ablation study,沒(méi)有使用微調(diào)或動(dòng)態(tài)評(píng)估。
 
我們繪制了歸一化的奇異值的累積百分比,即歸一化的奇異值低于某個(gè)閾值的百分比。 

 

 
圖 1:給定 [0,1] 中的一個(gè)值,歸一化奇異值的累積百分比。 
責(zé)任編輯:龐桂玉 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2015-08-03 09:36:01

賽迪翻譯

2015-08-31 09:27:21

語(yǔ)言界面UI

2025-05-22 04:00:00

PARSCALE大型語(yǔ)言模型LLM

2010-01-21 16:24:02

C++語(yǔ)言

2012-11-01 13:41:25

編程語(yǔ)言BasicPerl

2010-01-25 15:09:17

C++語(yǔ)言

2023-07-18 18:10:04

2022-03-01 09:58:10

高并發(fā)架構(gòu)開(kāi)發(fā)

2024-05-24 08:54:18

2023-08-21 08:00:00

人工智能大型語(yǔ)言模型

2010-11-04 10:55:24

編程語(yǔ)言

2018-03-12 13:32:02

編程語(yǔ)言程序員語(yǔ)言

2020-12-09 10:15:34

Pythonweb代碼

2020-12-23 10:10:23

Pythonweb代碼

2022-07-07 10:33:27

Python姿勢(shì)代碼

2022-06-22 09:44:41

Python文件代碼

2015-12-18 16:15:55

架構(gòu)新型計(jì)算模型

2017-01-22 16:35:02

iOSBlockCallback

2012-01-17 11:02:39

2009-12-15 19:18:39

Ruby源代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 99久久久久久 | 一区二区三区在线观看视频 | av片免费 | 欧美性生交大片免费 | 欧美一区二区三区久久精品视 | 欧美精品一区二区三区在线 | 国产一区二区三区在线 | 一区二区激情 | av在线免费播放 | 日日干日日操 | 久久久国产精品入口麻豆 | 午夜免费观看体验区 | 精品免费| 国产精品综合久久 | 精品久久久久香蕉网 | 欧美成人一区二免费视频软件 | 国产一区二区三区精品久久久 | 精品麻豆剧传媒av国产九九九 | 亚洲精品在线视频 | 欧美精品被 | 羞羞视频网站免费观看 | 天天干 夜夜操 | 在线播放中文字幕 | 日日夜夜精品 | 中文字幕91 | 久久人人网| 精品中文字幕在线观看 | 久久久www| 久久中文免费视频 | 欧美日本韩国一区二区三区 | 伦理午夜电影免费观看 | 欧美精品在线一区二区三区 | 麻豆视频在线免费观看 | 中文字幕一区二区三区四区五区 | 三级视频在线观看电影 | 成人免费淫片aa视频免费 | 91精品国产综合久久婷婷香蕉 | 激情久久网 | 日本字幕在线观看 | 午夜免费视频 | 久草精品视频 |