150B token從頭訓(xùn)練，普林斯頓Meta發(fā)布完全可微MoE架構(gòu)Lory

作者：新智元 2024-05-20 15:19:25

前幾天，普林斯頓大學(xué)聯(lián)合Meta在arXiv上發(fā)表了他們最新的研究成果——Lory模型，論文提出構(gòu)建完全可微的MoE模型，是一種預(yù)訓(xùn)練自回歸語言模型的新方法。

不同于大多數(shù)模型使用字母縮略起名，論文作者在腳注中解釋道，Lory是一種羽毛有彩虹顏色的鸚鵡，和「軟MoE」的精神非常相似。

論文的作者團(tuán)隊(duì)也可以稱之為「明星陣容」。

論文地址：https://arxiv.org/abs/2405.03133

主要作者之一陳丹琦是普林斯頓大學(xué)計(jì)算機(jī)科學(xué)系的助理教授，也是普林斯頓NLP小組共同領(lǐng)導(dǎo)人之一。她本科畢業(yè)于清華大學(xué)姚班，2018年在斯坦福大學(xué)獲得博士學(xué)位，導(dǎo)師是大名鼎鼎的Christopher Manning。

斯坦福教授、NLP領(lǐng)域泰斗Dan Jurafsky曾這樣評(píng)價(jià)她：「她在發(fā)現(xiàn)重要的研究問題上很有品位。她已經(jīng)對(duì)該領(lǐng)域產(chǎn)生了非凡的影響，并且她的影響只會(huì)越來越大。」

Mike Lewis是Meta AI的一名研究科學(xué)家，他領(lǐng)導(dǎo)了Meta剛發(fā)布的大語言模型Llama 3的預(yù)訓(xùn)練工作。

他此前曾發(fā)表過多項(xiàng)有影響力的研究成果，包括Bart、Roberta、top-k采樣等。

本文的第一作者是普林斯頓大學(xué)五年級(jí)博士生鐘澤軒，導(dǎo)師是陳丹琪教授。

鐘澤軒碩士畢業(yè)于伊利諾伊大學(xué)香檳分校，本科畢業(yè)于北京大學(xué)計(jì)算機(jī)系，曾在Meta AI和微軟亞洲研究院實(shí)習(xí)，這項(xiàng)研究就是他在Meta實(shí)習(xí)期間完成的。

發(fā)布后，論文作者也在推特上提供了全文解讀。

引入的關(guān)鍵技術(shù)包含兩個(gè)方面，一是用因果分段路由策略取代token級(jí)別的路由，可以在保持語言模型自回歸屬性的同時(shí)實(shí)現(xiàn)高效的專家合并。

二是提出了基于相似性的數(shù)據(jù)批處理方法，如果僅僅是把隨機(jī)選擇的文本拼接在一起訓(xùn)練會(huì)導(dǎo)致低水平的專家模型，而將相似的文本進(jìn)行分組可以使模型更加專業(yè)化。

基于這些方法，作者使用150B token的數(shù)據(jù)從頭訓(xùn)練了一系列的Lory模型，活躍參數(shù)有0.3B和1.5B兩個(gè)級(jí)別，含有最多32個(gè)專家。

與稠密模型相比，Lory的訓(xùn)練過程更為高效，可以用少2.5倍的步數(shù)實(shí)現(xiàn)相同的損失值。

研究團(tuán)隊(duì)使用上下文學(xué)習(xí)的方法評(píng)估Lory的能力，發(fā)現(xiàn)模型在常識(shí)推理、閱讀理解、閉卷問答、文本分類等下游任務(wù)上都取得了很好的效果。

可以觀察到，使用更多專家可以改進(jìn)模型的表現(xiàn)。

相比目前MoE領(lǐng)域的SOTA模型Expert Choice（EC），Lory模型也表現(xiàn)出了有競(jìng)爭(zhēng)力的性能。

2023年12月，一家名為Mistral AI的法國創(chuàng)業(yè)公司發(fā)布了一款性能媲美甚至優(yōu)于GPT-3.5和Llama 2 70B的模型Mixtral 8x7B。

Mixtral使用了一種稀疏的MoE網(wǎng)絡(luò)，不僅表現(xiàn)出了強(qiáng)大的性能，而且十分高效，推理速度相比Llama 2 70B提高了6倍，于是讓MoE得到了開源社區(qū)的廣泛關(guān)注。

甚至有人猜測(cè)，GPT-4可能也使用了MoE技術(shù)實(shí)現(xiàn)了超過一萬億參數(shù)的超大模型。

對(duì)于Transformer架構(gòu)的語言模型，MoE主要有兩個(gè)元素：

一是使用參數(shù)更為稀疏的MoE層代替密集的前饋網(wǎng)絡(luò)層（FFN），其中每個(gè)專家都是一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)，甚至可以是MoE本身，從而形成層級(jí)式的MoE結(jié)構(gòu)。

二是使用門控網(wǎng)絡(luò)或路由機(jī)制決定token被發(fā)送到哪個(gè)專家，其中token的路由機(jī)制是決定MoE模型表現(xiàn)的關(guān)鍵點(diǎn)。

因果分段路由

雖然MoE的這種機(jī)制有助于高效擴(kuò)展模型規(guī)模，但訓(xùn)練路由網(wǎng)絡(luò)的過程會(huì)引入離散化、不可微的學(xué)習(xí)目標(biāo)。2023年發(fā)布的SMEAR模型就已經(jīng)開始探索解決方案，使用專家合并方法構(gòu)建完全可微的MoE模型。

論文地址：https://arxiv.org/abs/2306.03745

然而，SMEAR使用的方法是將所有專家進(jìn)行軟合并，取其加權(quán)平均值，這適用于文本分類任務(wù)，但很難應(yīng)用到自回歸語言模型上。

于是，作者提出了使用分段路由的方法，對(duì)每一段語句而非每個(gè)token進(jìn)行專家合并，有效減少了合并操作的數(shù)量。

如果僅僅使用當(dāng)前語段進(jìn)行路由，很可能導(dǎo)致語言模型遺漏跨語段的信息，所以論文提出采用類似于自回歸的因果分段路由。

在為當(dāng)前語段合并專家時(shí)，需要考慮前一個(gè)語段的信息，從而決定每個(gè)專家的路由權(quán)重。

消融實(shí)驗(yàn)的結(jié)果也證明，與因果分段路由的策略相比，單純使用前綴進(jìn)行路由會(huì)導(dǎo)致語言模型性能降低。

基于相似性的數(shù)據(jù)批處理

預(yù)訓(xùn)練語言模型的標(biāo)準(zhǔn)做法是將數(shù)據(jù)集中的文檔隨機(jī)拼接在一起，構(gòu)造出固定長(zhǎng)度的訓(xùn)練樣本。

對(duì)于MoE模型而言，這種方法存在問題，相鄰段的token可能來自非常不同且毫不相關(guān)的文檔，可能會(huì)損害專家模型的專業(yè)化程度。

因此，受到ICLR 2024中一篇論文的啟發(fā)，作者在Lory中采用了類似的技術(shù)，依次連接相似的文檔來構(gòu)造訓(xùn)練樣本，使專家模型更「專注」地研究不同的領(lǐng)域或主題。

論文地址：https://arxiv.org/abs/2310.10638

實(shí)驗(yàn)表明，無論是隨機(jī)批處理還是基于相似度批處理，Lory模型的效果都優(yōu)于稠密模型，但使用基于相似度的方法可以得到更大的loss提升。

責(zé)任編輯：張燕妮來源：新智元

訓(xùn)練模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

150B token從頭訓(xùn)練，普林斯頓Meta發(fā)布完全可微MoE架構(gòu)Lory

因果分段路由

基于相似性的數(shù)據(jù)批處理