成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

150B token從頭訓(xùn)練,普林斯頓Meta發(fā)布完全可微MoE架構(gòu)Lory

人工智能 新聞
前幾天,普林斯頓大學(xué)聯(lián)合Meta在arXiv上發(fā)表了他們最新的研究成果——Lory模型,論文提出構(gòu)建完全可微的MoE模型,是一種預(yù)訓(xùn)練自回歸語言模型的新方法。

不同于大多數(shù)模型使用字母縮略起名,論文作者在腳注中解釋道,Lory是一種羽毛有彩虹顏色的鸚鵡,和「軟MoE」的精神非常相似。

圖片

論文的作者團(tuán)隊(duì)也可以稱之為「明星陣容」。

圖片論文地址:https://arxiv.org/abs/2405.03133

主要作者之一陳丹琦是普林斯頓大學(xué)計(jì)算機(jī)科學(xué)系的助理教授,也是普林斯頓NLP小組共同領(lǐng)導(dǎo)人之一。她本科畢業(yè)于清華大學(xué)姚班,2018年在斯坦福大學(xué)獲得博士學(xué)位,導(dǎo)師是大名鼎鼎的Christopher Manning。

斯坦福教授、NLP領(lǐng)域泰斗Dan Jurafsky曾這樣評(píng)價(jià)她:「她在發(fā)現(xiàn)重要的研究問題上很有品位。她已經(jīng)對(duì)該領(lǐng)域產(chǎn)生了非凡的影響,并且她的影響只會(huì)越來越大。」

圖片

Mike Lewis是Meta AI的一名研究科學(xué)家,他領(lǐng)導(dǎo)了Meta剛發(fā)布的大語言模型Llama 3的預(yù)訓(xùn)練工作。

圖片

他此前曾發(fā)表過多項(xiàng)有影響力的研究成果,包括Bart、Roberta、top-k采樣等。

本文的第一作者是普林斯頓大學(xué)五年級(jí)博士生鐘澤軒,導(dǎo)師是陳丹琪教授。

圖片

鐘澤軒碩士畢業(yè)于伊利諾伊大學(xué)香檳分校,本科畢業(yè)于北京大學(xué)計(jì)算機(jī)系,曾在Meta AI和微軟亞洲研究院實(shí)習(xí),這項(xiàng)研究就是他在Meta實(shí)習(xí)期間完成的。

發(fā)布后,論文作者也在推特上提供了全文解讀。

圖片

引入的關(guān)鍵技術(shù)包含兩個(gè)方面,一是用因果分段路由策略取代token級(jí)別的路由,可以在保持語言模型自回歸屬性的同時(shí)實(shí)現(xiàn)高效的專家合并。

二是提出了基于相似性的數(shù)據(jù)批處理方法,如果僅僅是把隨機(jī)選擇的文本拼接在一起訓(xùn)練會(huì)導(dǎo)致低水平的專家模型,而將相似的文本進(jìn)行分組可以使模型更加專業(yè)化。

圖片

基于這些方法,作者使用150B token的數(shù)據(jù)從頭訓(xùn)練了一系列的Lory模型,活躍參數(shù)有0.3B和1.5B兩個(gè)級(jí)別,含有最多32個(gè)專家。

與稠密模型相比,Lory的訓(xùn)練過程更為高效,可以用少2.5倍的步數(shù)實(shí)現(xiàn)相同的損失值。

研究團(tuán)隊(duì)使用上下文學(xué)習(xí)的方法評(píng)估Lory的能力,發(fā)現(xiàn)模型在常識(shí)推理、閱讀理解、閉卷問答、文本分類等下游任務(wù)上都取得了很好的效果。

可以觀察到,使用更多專家可以改進(jìn)模型的表現(xiàn)。

相比目前MoE領(lǐng)域的SOTA模型Expert Choice(EC),Lory模型也表現(xiàn)出了有競(jìng)爭(zhēng)力的性能。

2023年12月,一家名為Mistral AI的法國創(chuàng)業(yè)公司發(fā)布了一款性能媲美甚至優(yōu)于GPT-3.5和Llama 2 70B的模型Mixtral 8x7B。

Mixtral使用了一種稀疏的MoE網(wǎng)絡(luò),不僅表現(xiàn)出了強(qiáng)大的性能,而且十分高效,推理速度相比Llama 2 70B提高了6倍,于是讓MoE得到了開源社區(qū)的廣泛關(guān)注。

甚至有人猜測(cè),GPT-4可能也使用了MoE技術(shù)實(shí)現(xiàn)了超過一萬億參數(shù)的超大模型。

對(duì)于Transformer架構(gòu)的語言模型,MoE主要有兩個(gè)元素:

一是使用參數(shù)更為稀疏的MoE層代替密集的前饋網(wǎng)絡(luò)層(FFN),其中每個(gè)專家都是一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò),甚至可以是MoE本身,從而形成層級(jí)式的MoE結(jié)構(gòu)。

二是使用門控網(wǎng)絡(luò)或路由機(jī)制決定token被發(fā)送到哪個(gè)專家,其中token的路由機(jī)制是決定MoE模型表現(xiàn)的關(guān)鍵點(diǎn)。

因果分段路由

雖然MoE的這種機(jī)制有助于高效擴(kuò)展模型規(guī)模,但訓(xùn)練路由網(wǎng)絡(luò)的過程會(huì)引入離散化、不可微的學(xué)習(xí)目標(biāo)。2023年發(fā)布的SMEAR模型就已經(jīng)開始探索解決方案,使用專家合并方法構(gòu)建完全可微的MoE模型。

論文地址:https://arxiv.org/abs/2306.03745

然而,SMEAR使用的方法是將所有專家進(jìn)行軟合并,取其加權(quán)平均值,這適用于文本分類任務(wù),但很難應(yīng)用到自回歸語言模型上。

于是,作者提出了使用分段路由的方法,對(duì)每一段語句而非每個(gè)token進(jìn)行專家合并,有效減少了合并操作的數(shù)量。

如果僅僅使用當(dāng)前語段進(jìn)行路由,很可能導(dǎo)致語言模型遺漏跨語段的信息,所以論文提出采用類似于自回歸的因果分段路由。

在為當(dāng)前語段合并專家時(shí),需要考慮前一個(gè)語段的信息,從而決定每個(gè)專家的路由權(quán)重。

消融實(shí)驗(yàn)的結(jié)果也證明,與因果分段路由的策略相比,單純使用前綴進(jìn)行路由會(huì)導(dǎo)致語言模型性能降低。

基于相似性的數(shù)據(jù)批處理

預(yù)訓(xùn)練語言模型的標(biāo)準(zhǔn)做法是將數(shù)據(jù)集中的文檔隨機(jī)拼接在一起,構(gòu)造出固定長(zhǎng)度的訓(xùn)練樣本。

對(duì)于MoE模型而言,這種方法存在問題,相鄰段的token可能來自非常不同且毫不相關(guān)的文檔,可能會(huì)損害專家模型的專業(yè)化程度。

因此,受到ICLR 2024中一篇論文的啟發(fā),作者在Lory中采用了類似的技術(shù),依次連接相似的文檔來構(gòu)造訓(xùn)練樣本,使專家模型更「專注」地研究不同的領(lǐng)域或主題。

論文地址:https://arxiv.org/abs/2310.10638

實(shí)驗(yàn)表明,無論是隨機(jī)批處理還是基于相似度批處理,Lory模型的效果都優(yōu)于稠密模型,但使用基于相似度的方法可以得到更大的loss提升。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2012-08-02 16:18:10

普林斯頓結(jié)構(gòu)哈佛結(jié)構(gòu)架構(gòu)

2025-05-06 00:45:00

2011-04-22 10:14:34

無線網(wǎng)絡(luò)DHCPAndroid

2022-07-26 09:56:48

模型AI

2025-06-18 16:42:15

視頻生成AI模型

2024-11-12 13:40:00

2020-12-02 10:05:26

AI 數(shù)據(jù)人工智能

2023-11-17 23:05:18

數(shù)據(jù)模型

2021-11-09 09:52:57

神經(jīng)網(wǎng)絡(luò)AI算法

2024-10-28 22:14:05

2023-12-05 13:25:00

數(shù)據(jù)訓(xùn)練

2023-09-12 14:45:18

2023-05-22 15:17:02

谷歌AI

2023-10-23 13:23:03

數(shù)據(jù)訓(xùn)練

2023-06-19 09:36:16

AI矩陣

2024-09-25 14:41:15

2023-07-03 16:32:10

計(jì)算機(jī)模型

2025-02-13 08:30:00

2024-02-19 00:15:39

模型數(shù)據(jù)

2024-06-04 14:06:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 九七午夜剧场福利写真 | 四虎影院在线播放 | 黄色毛片免费 | 男人的天堂avav | 国产免费又色又爽又黄在线观看 | 超碰美女在线 | 无码日韩精品一区二区免费 | 玖玖视频 | 精品视频网| 精品成人av| 国产午夜精品一区二区三区嫩草 | 久久精品伊人 | 欧美一区二区综合 | 久久99精品国产 | 999久久久| 91高清免费 | 91在线精品一区二区 | 色婷婷综合久久久中文字幕 | 国产精品日韩一区二区 | 日本免费黄色 | 一级a性色生活片久久毛片 午夜精品在线观看 | 高清国产午夜精品久久久久久 | 国产小视频在线 | 日韩电影免费在线观看中文字幕 | 日韩一区不卡 | 日韩欧美在线视频 | 免费视频一区二区 | 欧美中文字幕在线观看 | 亚洲成人黄色 | 一区二区在线观看免费视频 | 一区二区日本 | 亚洲成人一区二区 | 91看片网站 | 久久黄网 | 久久91精品久久久久久9鸭 | 91精品欧美久久久久久久 | 99精品欧美一区二区三区综合在线 | 欧美在线色视频 | 欧美日韩一区二区在线播放 | 国产极品车模吞精高潮呻吟 | 在线亚洲一区 |