成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

十個(gè)2023年最具影響力的開源大語(yǔ)言模型

人工智能
下面精心挑選了一些在2023年上半年掀起波瀾的最有影響力的模型。這些模型幾乎可以與band、GPT-3.5、GPT4、Claude、文心一言等商業(yè)大模型競(jìng)爭(zhēng)。

由于大型語(yǔ)言模型(LLM)的崛起,2023年被認(rèn)為是開源領(lǐng)域的關(guān)鍵一年。下面精心挑選了一些在2023年上半年掀起波瀾的最有影響力的模型。這些模型幾乎可以與band、GPT-3.5、GPT4、Claude、文心一言等商業(yè)大模型競(jìng)爭(zhēng)。

本文僅針對(duì)當(dāng)前開源大語(yǔ)言模型中一些比較有影響力的項(xiàng)目進(jìn)行信息收集與分析,但由于2023年大模型的快速發(fā)展,有些信息可能已經(jīng)滯后,讀者可進(jìn)一步跟蹤官方網(wǎng)站或者開源社區(qū)了解相關(guān)進(jìn)展。

  • LLaMA
  • LLaMA 2
  • Alpaca
  • Vicuna
  • Guanaco
  • RedPajama
  • Falcon
  • FLAN-T5
  • Stable Beluga (formerly ‘FreeWilly’)
  • MPT

 對(duì)于這些模型,下面表格列出了關(guān)鍵信息,例如:架構(gòu)設(shè)計(jì)、訓(xùn)練所用的數(shù)據(jù)庫(kù)、訓(xùn)練過程、許可協(xié)議信息和特征等。

1.LLaMA

LLaMA不僅僅是一個(gè)單一的模型;它是一個(gè)包含多個(gè)大小不一的大型語(yǔ)言模型的集合,參數(shù)從70億到650億不等??捎玫某叽绨?.7B、13.0B、32.5B和65.2B參數(shù),每種參數(shù)在不同的任務(wù)中表現(xiàn)出色,而較大的型號(hào)通常在更復(fù)雜的任務(wù)中表現(xiàn)更好。

LLaMA由Meta開發(fā),基于Transformer架構(gòu),自2018年以來(lái)一直是語(yǔ)言建模的標(biāo)準(zhǔn)架構(gòu)。它與GPT-3有相似之處,但也有一些架構(gòu)差異。LLaMA使用SwiGLU激活函數(shù)代替ReLU激活函數(shù),使用旋轉(zhuǎn)位置嵌入代替絕對(duì)位置嵌入,并且均方根層歸一化代替標(biāo)準(zhǔn)層歸一化。

這些模型是在不同的領(lǐng)域訓(xùn)練出來(lái)并被開源。研發(fā)人員可以將其用于各種應(yīng)用,包括翻譯、問答、文本生成等。LLaMA的多功能性使其能夠針對(duì)眾多任務(wù)進(jìn)行微調(diào),使其成為各種AI項(xiàng)目的理想基礎(chǔ)模型。

LLaMA的訓(xùn)練數(shù)據(jù)非常廣泛,模型是在來(lái)自公開數(shù)據(jù)源的1.4萬(wàn)億個(gè)令牌上訓(xùn)練的。這些來(lái)源包括CommonCrawl抓取的網(wǎng)頁(yè)、GitHub的開源代碼庫(kù)、多種語(yǔ)言的維基百科、Gutenberg項(xiàng)目中公共領(lǐng)域書籍以及Stack Exchange網(wǎng)站上的問題和答案。這些模型的研發(fā)通過增加訓(xùn)練數(shù)據(jù)量來(lái)提高模型性能。

至于許可協(xié)議,Meta在非商業(yè)許可下向研究社區(qū)發(fā)布了LLaMA的模型權(quán)重。

為了訓(xùn)練LLaMA模型,開發(fā)人員使用了帶有余弦學(xué)習(xí)速率計(jì)劃的AdamW優(yōu)化器。最終學(xué)習(xí)率為最大學(xué)習(xí)率的10%。此外,模型使用0.1的權(quán)重衰減和1.0的梯度剪裁。學(xué)習(xí)速率和批量大小是根據(jù)每個(gè)模型的大小定制的,進(jìn)一步優(yōu)化其在訓(xùn)練期間的性能。

2.LLaMA 2

LLaMA 2是Meta的LLaMA模型的第二次迭代,專門為對(duì)話場(chǎng)景設(shè)計(jì).它經(jīng)過了深度微調(diào),使其與ChatGPT等模型相媲美。LLaMA 2模型有三種大小:70億、130億和700億參數(shù)。

LLaMA 2比其前身LLama 1有了重大的進(jìn)步和改進(jìn)。它是在一個(gè)新的公開可用數(shù)據(jù)的混合上訓(xùn)練的,預(yù)訓(xùn)練語(yǔ)料庫(kù)增大40%。該模型的上下文長(zhǎng)度增加了一倍,并利用了分組查詢注意機(jī)制。

Llama 2-Chat是一個(gè)針對(duì)基于聊天的交互而優(yōu)化的微調(diào)版本。LLaMA 2和Llama 2-Chat的開發(fā)旨在確保其輸出的內(nèi)容對(duì)人類有益且安全。這些自回歸模型基于輸入生成文本,非常適合助理式聊天和各種自然語(yǔ)言生成任務(wù)。        根據(jù)基準(zhǔn)評(píng)估,它比大多數(shù)其他模型(包括ChatGPT)更有優(yōu)秀。

LLaMA 2被授權(quán)給研究人員和商業(yè)實(shí)體,堅(jiān)持開放的原則。這使得無(wú)論是研究、商業(yè)應(yīng)用還是項(xiàng)目開發(fā)都能夠使用LLaMA 2。

LLaMA 2的訓(xùn)練數(shù)據(jù)非常廣泛,包括來(lái)自公開來(lái)源的2萬(wàn)億個(gè)代幣。微調(diào)數(shù)據(jù)包括公開可用的指令數(shù)據(jù)集和超過一百萬(wàn)個(gè)新的人類注釋示例。值得注意的是,預(yù)訓(xùn)練數(shù)據(jù)集和微調(diào)數(shù)據(jù)集都不包括Meta用戶數(shù)據(jù),從而確保了用戶隱私和數(shù)據(jù)安全。

LLaMA 2采用Llama 1模型的修改版本來(lái)增強(qiáng)性能,并使用帶有標(biāo)準(zhǔn)Transformer架構(gòu)的AdamW優(yōu)化器。它使用與Llama 1相同的標(biāo)記器,采用字節(jié)對(duì)編碼(BPE)算法,詞匯量為32 k個(gè)標(biāo)記。Llama 2-Chat的發(fā)展經(jīng)歷了兩個(gè)階段。第一個(gè)階段,LLaMA 2使用公開的在線數(shù)據(jù)。然后,通過監(jiān)督微調(diào)創(chuàng)建了Llama 2-Chat的初始版本。在第二階段,Llama 2-Chat使用來(lái)自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)行了改進(jìn)。這個(gè)過程涉及拒絕采樣和鄰近策略優(yōu)化(PPO),以提高其在基于對(duì)話的應(yīng)用程序的性能。

總之,LLaMA 2代表了語(yǔ)言建模方面的重大進(jìn)步,提供了透明度,可訪問性和性能改進(jìn),可能會(huì)被研究和商業(yè)社區(qū)廣泛接受。

3.Alpaca

Alpaca是由斯坦福大學(xué)基礎(chǔ)模型研究中心(CRFM)的研究人員開發(fā)的它是從Meta的LLaMA 7 B模型中微調(diào)的,并使用OpenAI的text-davinci-003作為參考,在52000個(gè)指導(dǎo)遵循演示中進(jìn)行了訓(xùn)練。盡管表現(xiàn)出與OpenAI的text-davinci-003相似的行為,但Alpaca模型更小。

Alpaca模型的突出特點(diǎn)是其強(qiáng)大的指令遵循能力。憑借其微調(diào)的設(shè)計(jì)和許多指令遵循演示的培訓(xùn),它為需要精確遵守指令的任務(wù)提供了可靠和有效的選擇。

該模型主要用于學(xué)術(shù)研究。然而,由于安全措施不足,它還沒有準(zhǔn)備好用于一般用途。它不可用于商業(yè)用途,因?yàn)橛糜谟?xùn)練Alpaca的指令數(shù)據(jù)基于OpenAI的text-davinci-003,其使用條款禁止開發(fā)與OpenAI競(jìng)爭(zhēng)的模型。

采用Hugging Face的訓(xùn)練框架對(duì)Alpaca進(jìn)行微調(diào),充分利用完全分片數(shù)據(jù)并行和混合精度訓(xùn)練。使用8臺(tái)80GB A100對(duì)7B LLaMA模型進(jìn)行微調(diào)大約需要3個(gè)小時(shí),展示了其效率和快速開發(fā)的潛力。

總之,Alpaca是一種專門的、高效的語(yǔ)言模型,適用于需要準(zhǔn)確和精確執(zhí)行的任務(wù)。它的開發(fā)和使用面向研究和學(xué)術(shù)探索,重點(diǎn)是維護(hù)安全和遵守許可證限制。

4.Vicuna

由LMSYS開發(fā)的Vicuna系列大型語(yǔ)言模型以其生成類人文本的能力而聞名。這些模型在理解和提供基于用戶提示的響應(yīng)方面表現(xiàn)出色,使它們對(duì)聊天機(jī)器人和內(nèi)容生成等各種應(yīng)用非常有用。

Vicuna有兩種大小的模型:Vicuna-7B和Vicuna-13B。使用GPT-4作為對(duì)比參考的初步評(píng)估表明,Vicuna-13B的質(zhì)量達(dá)到OpenAI ChatGPT和Google Bard的90%以上。此外,與LLaMA和斯坦福大學(xué)Alpaca等其他型號(hào)相比,它在90%以上的情況下表現(xiàn)出更強(qiáng)的性能。

Vicuna模型的一個(gè)重要方面是它依賴于人類生成的數(shù)據(jù)。這使它成為第一個(gè)使用此類數(shù)據(jù)訓(xùn)練的開源大語(yǔ)言模型之一,生成連貫并且具有創(chuàng)造性的文本。Vicuna是Alpaca模型的改進(jìn)版本,它基于Transformer架構(gòu),但采用人類生成的對(duì)話數(shù)據(jù)集進(jìn)行了微調(diào)。

Vicuna的主要用途是用于研究,特別是自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和人工智能方面的研究人員和愛好者。Vicuna僅供非商業(yè)用途的用戶使用,用戶必須遵守LLaMA制定的使用模型的規(guī)則,尊重OpenAI使用其生成的數(shù)據(jù)的條款,并遵守ShareGPT的隱私規(guī)則。

這兩款Vicuna模型都是在LLaMA-13B模型的基礎(chǔ)上構(gòu)建的,并從ShareGPT.com公開API收集的約70000個(gè)用戶共享對(duì)話進(jìn)行了微調(diào)。HTML被轉(zhuǎn)換回markdown以確保數(shù)據(jù)質(zhì)量,不合適或低質(zhì)量的樣本被過濾掉。冗長(zhǎng)的對(duì)話也被分成較小的片段,以適應(yīng)模型的最大上下文長(zhǎng)度2048個(gè)令牌。

在訓(xùn)練過程中,Vicuna基于斯坦福大學(xué)的Alpaca模型進(jìn)行了幾項(xiàng)關(guān)鍵改進(jìn):

  • 多輪對(duì)話:調(diào)整訓(xùn)練損失,以解釋多輪對(duì)話,使模型更好地理解和響應(yīng)復(fù)雜的,多輪對(duì)話。
  • 內(nèi)存優(yōu)化:最大上下文長(zhǎng)度從512擴(kuò)展到2048,使維庫(kù)納能夠理解更長(zhǎng)的上下文。梯度檢查點(diǎn)和Flash Attention用于內(nèi)存優(yōu)化,以管理增加的GPU內(nèi)存需求。
  • 通過Spot實(shí)例降低成本:為了減輕由更大的數(shù)據(jù)集和增加的序列長(zhǎng)度導(dǎo)致的顯著訓(xùn)練費(fèi)用,使用了SkyPilot管理的點(diǎn)實(shí)例。這些實(shí)例更便宜,并具有自動(dòng)恢復(fù)、搶占和自動(dòng)區(qū)域切換功能,顯著降低了培訓(xùn)成本。

憑借其更加類似人類的文本生成功能,開放性和多功能性,Vicuna代表了大型語(yǔ)言模型領(lǐng)域的一個(gè)突破。

5.Guanaco

Guanaco是一個(gè)基于Meta的LLaMA模型的高級(jí)語(yǔ)言模型系列,用于在多語(yǔ)言環(huán)境中出色地完成指令。Guanaco是建立在LLaMA-7B的基礎(chǔ)上,使用創(chuàng)新的QLoRA(量化低秩適配器)方法進(jìn)行了重大改進(jìn)和微調(diào)的結(jié)果。這種方法允許在單個(gè)GPU上對(duì)大型語(yǔ)言模型進(jìn)行微調(diào)。

Guanaco系列模型包括具有不同數(shù)量參數(shù)的各種變體,參數(shù)從70億到650億不等。根據(jù)研究人員的說法,最大的Guanaco模型能夠達(dá)到了Chat GPT 99.3%的性能,展示了其在基準(zhǔn)測(cè)試中的卓越性能。

Guanaco使用QLoRA方法進(jìn)行訓(xùn)練,該方法有效地將模型量化到4位精度,并結(jié)合了低秩自適應(yīng)權(quán)重(LoRA),在保持高性能的同時(shí)顯著降低了內(nèi)存需求。這種方法允許最大的650億參數(shù)Guanaco模型在GPU內(nèi)存不足48千兆字節(jié)的情況下有效運(yùn)行,在不影響性能的情況下可以減少超過780千兆字節(jié)大小。

Guanaco的一個(gè)顯著特點(diǎn)是它對(duì)擴(kuò)展對(duì)話的適應(yīng)性。它可以根據(jù)用戶的要求繼續(xù)回答問題或討論話題,非常適合聊天機(jī)器人應(yīng)用程序。該模型還支持視覺問答(VQA),使其能夠解釋和響應(yīng)文本和視覺輸入。

 Guanaco最初是基于Alpaca模型的52000個(gè)數(shù)據(jù)集的基礎(chǔ)上進(jìn)行擴(kuò)展,之后加入了超過534530個(gè)額外條目,涵蓋了各種語(yǔ)言、語(yǔ)言任務(wù)和語(yǔ)法任務(wù)。這種廣泛的訓(xùn)練有助于其有效執(zhí)行多語(yǔ)言和多模式任務(wù)。

雖然,Guanaco模型未獲得商業(yè)應(yīng)用許可。其主要用途是學(xué)術(shù)研究和非商業(yè)應(yīng)用。但它在多功能性和強(qiáng)大的性能等方面的自然語(yǔ)言處理任務(wù)能力具有較高價(jià)值。

總之,Guanaco將高效的微調(diào)、多語(yǔ)言功能和適應(yīng)性會(huì)話技能相結(jié)合,使其在語(yǔ)言模型領(lǐng)域取得了重大進(jìn)步,在聊天機(jī)器人、內(nèi)容生成和終端硬件應(yīng)用、私有模型等方面具有潛在應(yīng)用價(jià)值。

6.RedPajama

RedPajama is a collaborative project involving Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, and Hazy Research, with the mission to create a set of leading, fully open-source language models. The project’s primary objective is to bridge the quality gap between open and closed models, as many powerful foundation models are currently locked behind commercial APIs, limiting research, customization, and usage with sensitive data.         

RedPajama是一個(gè)由Together、Ontocord.ai、ETH DS 3Lab、斯坦福大學(xué)CRFM和Hazy Research等多機(jī)構(gòu)合作的項(xiàng)目,其使命是創(chuàng)建一套領(lǐng)先的、完全開源的語(yǔ)言模型。該項(xiàng)目的主要目標(biāo)是彌合開放模型和封閉模型之間的質(zhì)量差距,因?yàn)樵S多強(qiáng)大的基礎(chǔ)模型目前被鎖定在商業(yè)API的后面,限制了敏感數(shù)據(jù)的研究、定制和使用。

RedPajama項(xiàng)目由三個(gè)關(guān)鍵組件組成:

  • RedPajama數(shù)據(jù)集:RedPajama數(shù)據(jù)集是一個(gè)擁有1.2萬(wàn)億令牌完全開放數(shù)據(jù)集,它是按照LLaMA論文中描述的方法創(chuàng)建的。這個(gè)龐大的數(shù)據(jù)集包括來(lái)自不同來(lái)源的七個(gè)數(shù)據(jù)切片,包括CommonCrawl、C4、GitHub、arXiv、Books、Wikipedia和StackExchange。每個(gè)數(shù)據(jù)切片都經(jīng)過精心的預(yù)處理和過濾,確保數(shù)據(jù)質(zhì)量和令牌計(jì)數(shù)與Meta在LLaMA論文中報(bào)告的數(shù)字一致。
  • RedPajama基礎(chǔ)模型:由30億個(gè)參數(shù)和70億個(gè)參數(shù)構(gòu)成了RedPajama模型的基礎(chǔ)。它們是基于Pythia架構(gòu)開發(fā)的,在不同的任務(wù)中表現(xiàn)出色。兩個(gè)變體是RedPajama-INCITE-Chat-3B-v1和RedPajama-INCITE-Instruct-3B-v1,兩者都具有30億個(gè)參數(shù)。RedPajama-INCITE-Chat-3B-v1模型針對(duì)會(huì)話AI任務(wù)進(jìn)行了優(yōu)化,擅長(zhǎng)在會(huì)話環(huán)境中生成類人文本。另一方面,RedPajama-INCITE-Instruct-3B-v1模型旨在有效地執(zhí)行指令,使其非常適合理解和執(zhí)行復(fù)雜指令。
  • RedPajama微調(diào)模型:此組件側(cè)重于微調(diào)基本模型,使其在特定任務(wù)中表現(xiàn)出色。該項(xiàng)目提供了RedPajama-INCITE-Base模型的變體,每個(gè)模型都具有不同的特性和應(yīng)用。例如,RedPajama-INCITE-Chat模型使用Dolly 2.0和Open Assistant數(shù)據(jù)進(jìn)行微調(diào)。相比之下,RedPajama-INCITE-Instruct模型設(shè)計(jì)用于少量提示詞,減少與HELM基準(zhǔn)測(cè)試數(shù)據(jù)集的重疊。

RedPajama模型和數(shù)據(jù)集是在Apache 2.0許可下發(fā)布的,允許在研究和商業(yè)應(yīng)用中使用。

7.Falcon

Falcon模型系列由技術(shù)創(chuàng)新研究所開發(fā),包括一系列的大型語(yǔ)言模型。它們經(jīng)過優(yōu)化,可以在各種應(yīng)用程序中實(shí)現(xiàn)包括文本生成、摘要和聊天機(jī)器人等功能。

Falcon系列模型包括多種型號(hào),例如:Falcon-40B、Falcon-7B、Falcon-180B,每一個(gè)都根據(jù)特定的要求和場(chǎng)景量身定制。Falcon-40B模型有400億個(gè)參數(shù),并在RefinedWeb數(shù)據(jù)集上訓(xùn)練。該數(shù)據(jù)集包含15000億個(gè)Token,是一個(gè)具備高質(zhì)量、過濾和消除重復(fù)數(shù)據(jù)的Web數(shù)據(jù)。Falcon-7B模型是一個(gè)較小的變體,有70億個(gè)參數(shù),也在RefinedWeb數(shù)據(jù)集上訓(xùn)練,但進(jìn)一步補(bǔ)充了精心整理的語(yǔ)料庫(kù),以增強(qiáng)其能力。Falcon-180B擁有1800億參數(shù),是Falcon在3.5萬(wàn)億token完成訓(xùn)練,目前直接登頂HuggingFace排行榜,性能直接碾壓LLaMA 2?;鶞?zhǔn)測(cè)試中,F(xiàn)alcon 180B在推理、編碼、熟練度和知識(shí)測(cè)試各種任務(wù)中,一舉擊敗LLaMA 2。

作為因果解碼器專用模型,F(xiàn)alcon模型可以基于前面的Token預(yù)測(cè)序列中預(yù)測(cè)下一個(gè)令牌,使其特別適合文本生成任務(wù),包括摘要和聊天機(jī)器人等功能。他們的架構(gòu)建立在GPT-3模型的基礎(chǔ)上,并進(jìn)行了一些調(diào)整,以實(shí)現(xiàn)更好的優(yōu)化和增強(qiáng)性能。例如,它們使用FlashAttention和多查詢注意力機(jī)制。    

Falcon-40B在25000億個(gè)RefinedWeb數(shù)據(jù)Token上進(jìn)行訓(xùn)練,訓(xùn)練時(shí)間為兩周,使用384個(gè)A100 40GB GPU。Falcon-7B模型在RefinedWeb數(shù)據(jù)集的15000億個(gè)Token上進(jìn)行訓(xùn)練,也使用相同的384 A100 40GB GPU設(shè)置進(jìn)行了為期兩周的訓(xùn)練。高效的訓(xùn)練過程是通過2D并行策略(PP=2,DP=192)與ZeRO優(yōu)化相結(jié)合來(lái)實(shí)現(xiàn)的,從而使模型在使用更少的訓(xùn)練計(jì)算資源的情況下,性能不亞于其他開源模型。

關(guān)于Falcon 180B,它是40B的升級(jí)版本。據(jù)官方介紹,F(xiàn)alcon 180B 是當(dāng)前最好的開源大模型。在 MMLU上 的表現(xiàn)超過了 Llama 2 70B 和 OpenAI 的 GPT-3.5。在 HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC 及 ReCoRD 上與谷歌的 PaLM 2-Large 不相上下。

它在 Hugging Face 開源大模型榜單上以 68.74 的成績(jī)被認(rèn)為是當(dāng)前評(píng)分最高的開放式大模型,評(píng)分超過了 Meta 的 LlaMA 2 (67.35)。

對(duì)于訓(xùn)練過程,F(xiàn)alcon 180B基于亞馬遜云機(jī)器學(xué)習(xí)平臺(tái)Amazon SageMaker,在多達(dá)4096個(gè)GPU上完成了對(duì)3.5萬(wàn)億token的訓(xùn)練??侴PU計(jì)算時(shí),大約7,000,000個(gè)。Falcon 180B的參數(shù)規(guī)模是Llama 2(70B)的2.5倍,而訓(xùn)練所需的計(jì)算量是Llama 2的4倍。具體訓(xùn)練數(shù)據(jù)中,F(xiàn)alcon 180B主要是RefinedWe數(shù)據(jù)集(大約占85%) 。此外,它還在對(duì)話、技術(shù)論文,以及一小部分代碼等經(jīng)過整理的混合數(shù)據(jù)的基礎(chǔ)上進(jìn)行了訓(xùn)練。這個(gè)預(yù)訓(xùn)練數(shù)據(jù)集足夠大,即使是3.5萬(wàn)億個(gè)token也只占不到一個(gè)epoch。

硬件要求:

Falcon模型是在Apache 2.0許可證下發(fā)布,允許在商業(yè)場(chǎng)合使用,沒有版稅或其他限制。但Falcon-180b 在商業(yè)用途的使用條件非常嚴(yán)格,不包括任何“托管用途”。建議您查看開源許可證并咨詢您的法律團(tuán)隊(duì)。

總之,F(xiàn)alcon模型的多功能性和有效性使其適用于廣泛的場(chǎng)景。它們可以用于大型語(yǔ)言模型的研究,并作為進(jìn)一步專業(yè)化和微調(diào)打下堅(jiān)實(shí)基礎(chǔ),以滿足特定場(chǎng)合應(yīng)用,如摘要,文本生成和聊天機(jī)器人功能。    

8.FLAN-T5

FLAN-T5系列包括幾種不同參數(shù)的模型:

  • Flan-T5 small (80M)
  • Flan-T5 base (250M)
  • Flan-T5 large (780M)
  • Flan-T5 XL (3B)
  • Flan-T5 XXL (11B)

FLAN-T5的架構(gòu)基于T5編碼解碼器架構(gòu),其中編碼器和解碼器都是transformers。這個(gè)基于transformers的語(yǔ)言模型由12個(gè)transformers層和一個(gè)用于并行處理文本的前饋神經(jīng)網(wǎng)絡(luò)組成。

FLAN-T5在多任務(wù)語(yǔ)言理解和跨語(yǔ)言問答等方面表現(xiàn)出色。它在文本生成、常識(shí)推理、問答、情感分類、翻譯、代詞解析等方面十分優(yōu)秀。它為研究零鏡頭NLP任務(wù)和上下文少鏡頭學(xué)習(xí)NLP任務(wù)(如推理和問答)提供了寶貴資源。此外,它理解當(dāng)前大型語(yǔ)言模型的局限性,有助于推進(jìn)公平性和安全性的研究。

Google于2022年底在Apache許可下開源FLAN-T5。

Flan-T5在訓(xùn)練過程中,有兩個(gè)階段的過程中使用了大量的文本數(shù)據(jù):預(yù)訓(xùn)練和微調(diào)。預(yù)訓(xùn)練階段使用T5架構(gòu),模型在給定的Token序列中預(yù)測(cè)中的下一Token。在指令微調(diào)階段,F(xiàn)LAN-T5的功能通過特定指令進(jìn)行了細(xì)化,以增強(qiáng)其在各種任務(wù)和語(yǔ)言上的性能。

FLAN-T5的微調(diào)數(shù)據(jù)類型非常廣泛,包括473個(gè)數(shù)據(jù)集、146個(gè)任務(wù)類別和1836個(gè)任務(wù)。微調(diào)過程中混合四種任務(wù):Muffin、T0-SF、NIV 2和CoT。這些混合包括各種任務(wù),例如:對(duì)話數(shù)據(jù)、程序合成數(shù)據(jù)、算術(shù)推理、多跳推理(multi-hop reasoning)、自然語(yǔ)言推理等等。

Flan-T5模型不限于特定的任務(wù)或語(yǔ)言,為研究人員和開發(fā)人員提供了一個(gè)強(qiáng)大的工具,推動(dòng)了自然語(yǔ)言理解和文本生成的發(fā)展。

9.Stable Beluga (Formerly Free Willy)

Stable AI以及CarperAI實(shí)驗(yàn)室的Stable Beluga項(xiàng)目產(chǎn)生了兩個(gè)模型,Stable Beluga 1和Stable Beluga 2。這些模型建立在Meta的Llama模型之上,并使用標(biāo)準(zhǔn)Alpaca格式的合成生成的新數(shù)據(jù)集進(jìn)行微調(diào)。該項(xiàng)目旨在彌合開放模型和封閉模型之間的質(zhì)量差距,允許研究人員和開發(fā)人員探索和定制這些模型,以滿足各種自然語(yǔ)言處理任務(wù)。

Stable Beluga 1和Stable Beluga 2分別采用LLaMA-65B和LLaMA 2-70B基礎(chǔ)模型。這兩種模型在各種基準(zhǔn)測(cè)試中都表現(xiàn)良好。Stable Beluga 2 甚至在某些基準(zhǔn)測(cè)試中超過了Llama 2。

Stable Beluga大語(yǔ)言模型擅長(zhǎng)解決類似法律、數(shù)學(xué)等專業(yè)領(lǐng)域的復(fù)雜問題,并專注于微妙的語(yǔ)言細(xì)節(jié)。

Stable Beluga模型目前作為一項(xiàng)研究實(shí)驗(yàn),提供了非商業(yè)許可(non-commercial license),強(qiáng)調(diào)致力于促進(jìn)AI社區(qū)的開放研究和可訪問性。該許可證確保模型可免費(fèi)用于學(xué)術(shù)和非商業(yè)目的,鼓勵(lì)自然語(yǔ)言處理領(lǐng)域的合作和創(chuàng)新。

Stable Beluga模型的訓(xùn)練過程基于Orca方法,類似于微軟的漸進(jìn)式學(xué)習(xí)方法。然而,Stable Beluga項(xiàng)目中使用的數(shù)據(jù)集與Orca論文不同。該團(tuán)隊(duì)使用Enrico Shippole的數(shù)據(jù)集,包括COT Submix Original、NIV2 Submix Original、FLAN 2021 Submix Original和T0 Submix Original,來(lái)作為提示詞語(yǔ)言模型。數(shù)據(jù)集包含60萬(wàn)個(gè)高質(zhì)量的樣本,約為Orca數(shù)據(jù)集大小的10%。Stable Beluga使用了刪除測(cè)試數(shù)據(jù)并過濾后的數(shù)據(jù)集進(jìn)行了微調(diào),以實(shí)現(xiàn)其卓越的性能。

10.MPT

由MosaicML開發(fā)的MPT模型是一系列基于transformers的語(yǔ)言模型。這些模型專為商業(yè)用途而設(shè)計(jì),是開源的,并建立在GPT-3模型的基礎(chǔ)上,旨在在各種自然語(yǔ)言處理任務(wù)中更加高效和靈活。

MPT系列由多個(gè)版本組成,其中MPT-7B、MPT-7B-StoryWriter、 MPT-30B是幾個(gè)個(gè)重要的模型。MPT-7B 是一個(gè)只有解碼器的Transformer模型,它在MosaicML數(shù)據(jù)團(tuán)隊(duì)策劃的1萬(wàn)億個(gè)文本和代碼標(biāo)記的大型語(yǔ)料庫(kù)上訓(xùn)練出來(lái),具有67億個(gè)參數(shù)。模型主要使用了FlashAttention算法,為了處理大上下文,它還使用了ALiBi算法。而MPT-30B,擁有 300 億參數(shù),其功能明顯比前一代 MPT-7B 語(yǔ)言模型更強(qiáng)大,并且性能優(yōu)于 GPT-3。

MPT-7B的開源許可是Apache-2.0。但是,需要注意的是,不推薦在沒有微調(diào)的情況下使用基礎(chǔ)模型。

MPT-7B-StoryWriter-65k+是MPT-7B的一個(gè)變體,專為閱讀和寫作等具有極長(zhǎng)上下文長(zhǎng)度的場(chǎng)景而定制。這是在books3數(shù)據(jù)集的小說子集上進(jìn)行微調(diào)的結(jié)果,上下文長(zhǎng)度為65k Token。MPT-7B-StoryWriter-65k+可以在A100-80GB GPU的單個(gè)節(jié)點(diǎn)上生成多達(dá)84k個(gè)Token的內(nèi)容。與MPT-7B一樣,它的開源許可也是Apache-2.0。

MPT-7B-Chat 是個(gè)類似聊天機(jī)器人的對(duì)話生成模型,它是在包括ShareGPT-Vicuna、HC 3、Alpaca、Helpful and Harmless和Evol-Instruct等多個(gè)數(shù)據(jù)集上進(jìn)行微調(diào)的結(jié)果。其開源許可為CC-By-NC-SA-4.0,意味著它只能在非商業(yè)用途使用。

MPT-7B-Instruct是一個(gè)專門為短格式指令而量身定制的模型,基于MosaicML發(fā)布的MPT-7B數(shù)據(jù)集進(jìn)行微調(diào)創(chuàng)建的結(jié)果,該數(shù)據(jù)集的來(lái)源是Databricks Dolly-15k和Anthropic的Helpful和Harmless數(shù)據(jù)集。它的開源許可是CC-By-SA-3.0。

MPT 7B的訓(xùn)練過程使用了8個(gè)A100-80GB的GPU,具有分片數(shù)據(jù)并行性、LION優(yōu)化器和完全分片數(shù)據(jù)并行性(FSDP)技術(shù)。梯度檢查點(diǎn)用于優(yōu)化訓(xùn)練期間的內(nèi)存。該模型由67億個(gè)參數(shù)、32個(gè)Transformer層(每個(gè)層的隱藏大小為4096)、16個(gè)關(guān)注點(diǎn)以及50432個(gè)單詞的詞匯表組成,序列長(zhǎng)度為65536。

MPT-30B 是由MosaicML用2個(gè)月的時(shí)間訓(xùn)練的新一代產(chǎn)品,MPT-30B通過數(shù)據(jù)混合進(jìn)行預(yù)訓(xùn)練,從10個(gè)不同的開源文本語(yǔ)料庫(kù)中收集了1T個(gè)預(yù)訓(xùn)練數(shù)據(jù)的token,并使用 EleutherAI GPT-NeoX-20B分詞器對(duì)文本進(jìn)行分詞,并根據(jù)一定比例進(jìn)行采樣。

MPT-30B使用英偉達(dá)的H100 GPU 集群進(jìn)行訓(xùn)練。采用Apache 2.0開源許可協(xié)議,性能強(qiáng)于原始的 GPT-3,并且與LLaMa-30B和 Falcon-40B 等其他開源模型具有競(jìng)爭(zhēng)力。

總之,MPT是自然語(yǔ)言處理方面一個(gè)有價(jià)值的開源模型。它們專注于處理長(zhǎng)上下文的處理效率、靈活性和令人印象深刻的性能,使它們適合于各種語(yǔ)言相關(guān)的任務(wù)和應(yīng)用場(chǎng)景。

責(zé)任編輯:趙寧寧 來(lái)源: andflow
相關(guān)推薦

2024-01-02 15:41:58

2013-07-18 10:31:35

2023-05-29 14:46:10

生成式人工智能物聯(lián)網(wǎng)

2023-01-04 10:01:53

物聯(lián)網(wǎng)IOT

2009-06-16 10:03:47

開源世界巾幗英雄最具影響力

2024-03-01 16:43:53

2010-04-30 22:30:49

2024-12-31 14:58:37

2021-03-11 09:58:17

IT趨勢(shì)技術(shù)運(yùn)營(yíng)業(yè)務(wù)

2014-08-13 09:17:41

大數(shù)據(jù)應(yīng)用案例

2009-06-16 14:46:55

軟博會(huì)

2022-01-07 10:41:27

網(wǎng)絡(luò)安全事件網(wǎng)絡(luò)安全安全威脅

2012-08-27 13:57:55

2009-11-23 09:29:59

IT市場(chǎng)最具影響力高管

2018-01-04 13:46:30

2009-10-15 15:05:55

2010-03-19 12:00:14

開源影響力

2021-12-28 05:38:36

網(wǎng)絡(luò)安全事件網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2009-09-11 10:11:13

商界女性50強(qiáng)雅虎CEO上榜

2013-12-10 15:09:59

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 午夜视频在线播放 | 在线激情视频 | 亚洲一区二区三区四区五区午夜 | 欧美aaaaaaaa | 91国产在线播放 | 亚洲国产一区视频 | www天天操 | 欧日韩在线 | 日韩一区在线播放 | 国产日韩精品一区 | av片在线免费看 | 亚洲国产成人精品女人久久久 | 99视频在线免费观看 | 日韩中文字幕av | 亚洲狠狠爱| 伊人久久免费视频 | 久久精品国产一区二区三区 | 综合色久 | 欧洲在线视频 | 欧美日韩综合精品 | 国产成人福利视频在线观看 | 国产成人精品一区二区三区 | 成人在线免费观看视频 | 高清国产一区二区 | 黄网站涩免费蜜桃网站 | 国产精品无码专区在线观看 | 日本视频在线播放 | 久久久精品一区二区三区四季av | 亚洲综合二区 | 日本久久黄色 | 91免费在线视频 | 精品欧美 | 99精品国产一区二区青青牛奶 | 天天澡天天狠天天天做 | 欧美人妇做爰xxxⅹ性高电影 | 日韩精品在线播放 | 色一阁| 奇米av| 91中文视频| 日日天天| 91资源在线观看 |