重磅!Meta開(kāi)源“次世代”大模型 Llama 2,扎克伯格:免費(fèi)可商用!
今日凌晨,就在我們還在睡夢(mèng)中時(shí),大洋彼岸的Meta干了一件大事:發(fā)布免費(fèi)可商用版本Llama 2。
圖片
Llama 2 是Llama 1大模型的延續(xù),在數(shù)據(jù)質(zhì)量、訓(xùn)練技術(shù)、能力評(píng)估、安全訓(xùn)練和負(fù)責(zé)任的發(fā)布方面有實(shí)質(zhì)性的技術(shù)進(jìn)步。
在研究共享意愿歷史最低,監(jiān)管困境歷史最高點(diǎn)的當(dāng)今AI時(shí)代,Meta這一步無(wú)疑為大模型生態(tài)系統(tǒng)帶來(lái)了重大進(jìn)展。
從技術(shù)報(bào)告上看,Llama 2的基礎(chǔ)模型比GPT3更強(qiáng),而微調(diào)后聊天模型則能ChatGPT匹敵。相信后續(xù)Llama 2將幫助企業(yè)實(shí)現(xiàn)更多的定制化和降低成本的產(chǎn)品。
以下是扎克伯格在Facebook上發(fā)布的關(guān)于Llama 2的“宣言”,更是將其稱(chēng)之為大模型的次世代的產(chǎn)品:
我們正在與微軟合作,推出Llama 2,這是我們開(kāi)源大語(yǔ)言模型的下一代產(chǎn)品。Llama 2將免費(fèi)提供給研究者和商業(yè)使用者。
Meta一直投身于開(kāi)源事業(yè),從領(lǐng)先的機(jī)器學(xué)習(xí)框架PyTorch,到像Segment Anything,ImageBind和Dino這樣的模型,再到作為Open Compute Project部分的AI基礎(chǔ)設(shè)施。我們一直在推進(jìn)整個(gè)行業(yè)的進(jìn)步,構(gòu)建更好的產(chǎn)品。
開(kāi)源推動(dòng)了創(chuàng)新,因?yàn)樗尭嗟拈_(kāi)發(fā)者能夠使用新技術(shù)。同時(shí),軟件開(kāi)源,意味著更多的人可以審查它,識(shí)別并修復(fù)可能的問(wèn)題,從而提高了安全性。我相信如果生態(tài)系統(tǒng)更加開(kāi)放,將會(huì)釋放更多的進(jìn)步,這就是我們?yōu)槭裁匆_(kāi)源Llama 2。
今天,我們發(fā)布了預(yù)訓(xùn)練和微調(diào)的模型Llama 2,參數(shù)分別為70億,130億和700億。Llama 2比Llama 1預(yù)訓(xùn)練的數(shù)據(jù)多40%,并對(duì)其架構(gòu)進(jìn)行了改進(jìn)。對(duì)于微調(diào)模型,我們收集了超百萬(wàn)的人類(lèi)注釋樣本,并應(yīng)用了有監(jiān)督的微調(diào)和RLHF,在安全性和質(zhì)量方面是領(lǐng)先的。
你可以直接下載這些模型,或者通過(guò)Azure以及微軟的安全和內(nèi)容工具訪(fǎng)問(wèn)這些模型。我們還提供一個(gè)優(yōu)化版本,支持Windows本地運(yùn)行。
我非常期待看到你們的創(chuàng)新成果!
對(duì)于Llama 2的出現(xiàn)和發(fā)布,深度學(xué)習(xí)三巨頭之一的Yann LeCun表示,這將改變大模型的市場(chǎng)格局。
圖片
有網(wǎng)友很快就向Meta發(fā)送了申請(qǐng),并在幾個(gè)小時(shí)內(nèi)獲得了許可,已經(jīng)在應(yīng)用了:
圖片
OpenLLM大模型排行榜對(duì)Llama 2 進(jìn)行了關(guān)于“Eleuther AI Language Model Evaluation Harness” 中的4個(gè)關(guān)鍵基準(zhǔn)的評(píng)估:
圖片
其中,Llama-2-70b獲得了平均分、科學(xué)問(wèn)題ARC、常識(shí)推理HellaSwag等指標(biāo)的第一名;文本多任務(wù)準(zhǔn)確性MMLU指標(biāo)被基于Llama-30B 的微調(diào)模型Platypus-30B超過(guò);生成問(wèn)題答案真實(shí)性TruthfulQA (MC)指標(biāo)位列第8名。
圖片
論文地址:https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
項(xiàng)目地址:
https://github.com/facebookresearch/llama
Llama 2的一些關(guān)鍵點(diǎn)aw的優(yōu)勢(shì)在哪?
Meta發(fā)布了多個(gè)模型,包括7億,13億,34億,70億參數(shù)的Llama基礎(chǔ)模型,以及同等規(guī)模的Llama變體。Meta將預(yù)訓(xùn)練語(yǔ)料庫(kù)的大小增加了40%,將模型的上下文長(zhǎng)度增加了一倍,并采用了分組查詢(xún)注意力機(jī)制(grouped-query attention)。
具體而言,有以下幾個(gè)關(guān)鍵點(diǎn):
能力:廣泛測(cè)試后,在非編碼方面,確定這是第一個(gè)能達(dá)到ChatGPT水平的開(kāi)源模型。
代碼/數(shù)學(xué)/推理:論文中關(guān)于代碼數(shù)據(jù)的討論較少,但有一個(gè)模型在某些評(píng)價(jià)中超越了其他模型。
多輪一致性:采用了新的方法,Ghost Attention (GAtt),以改善模型的多輪對(duì)話(huà)一致性。
獎(jiǎng)勵(lì)模型:為避免安全性和有用性的權(quán)衡,采用了兩個(gè)獎(jiǎng)勵(lì)模型。
RLHF過(guò)程:采用了兩階段的RLHF方法,強(qiáng)調(diào)了RLHF對(duì)模型寫(xiě)作能力的重要影響。
安全性/傷害評(píng)估:進(jìn)行了詳盡的安全評(píng)估,并采用了特定的方法以增強(qiáng)模型的安全性。
許可證:模型可供商業(yè)使用,但有一定的用戶(hù)數(shù)量限制,也即日活大于7億的產(chǎn)品需要單獨(dú)申請(qǐng)商用權(quán)限。
Llama 2的技術(shù)細(xì)節(jié)
Huggingface科學(xué)家Nathan Lambert在一篇博客也對(duì)Llama 2的技術(shù)報(bào)告進(jìn)行了解析。
圖片
這個(gè)模型(Llama 2)與原始的Llama在結(jié)構(gòu)上相似,主要的改變?cè)谟跀?shù)據(jù)和訓(xùn)練過(guò)程,以及增加了上下文長(zhǎng)度和分組查詢(xún)注意力(GQA),且在聊天功能的應(yīng)用性和推理速度方面有所提高。
訓(xùn)練語(yǔ)料庫(kù)來(lái)自公開(kāi)資源,不包含Meta的產(chǎn)品或服務(wù)的數(shù)據(jù)。模型在2萬(wàn)億個(gè)數(shù)據(jù)標(biāo)記(Token)上訓(xùn)練,以提高性能并減少錯(cuò)誤,并盡力刪除含有大量私人信息的數(shù)據(jù)。
論文大部分關(guān)于評(píng)估和微調(diào),而非創(chuàng)建基礎(chǔ)模型。
論文接著遵循RLHF流程,訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型并使用強(qiáng)化學(xué)習(xí)(RL)進(jìn)行優(yōu)化。
圖片
此外,技術(shù)報(bào)告也證實(shí)了一點(diǎn),獎(jiǎng)勵(lì)模型是RLHF的關(guān)鍵,也是模型的關(guān)鍵。為了得到一個(gè)好的獎(jiǎng)勵(lì)模型,Meta收集了大量偏好數(shù)據(jù),這些數(shù)據(jù)遠(yuǎn)遠(yuǎn)超過(guò)了開(kāi)源社區(qū)正在使用的數(shù)據(jù)。
Meta收集二元對(duì)比數(shù)據(jù),而非其他更復(fù)雜類(lèi)型的反饋。這類(lèi)似于1-8的Likert量表,但更側(cè)重于質(zhì)性評(píng)價(jià)如“顯著優(yōu)于、優(yōu)于、稍?xún)?yōu)于或差不多/不確定”。
他們使用多輪次偏好,模型的響應(yīng)來(lái)自不同的模型訓(xùn)練階段;Meta的關(guān)注點(diǎn)更在于有用性和安全性,而不是誠(chéng)實(shí)度(honesty),在每個(gè)數(shù)據(jù)供應(yīng)商的數(shù)據(jù)收集階段使用不同的指令。
此外,在數(shù)據(jù)收集過(guò)程中,團(tuán)隊(duì)添加了額外的安全元數(shù)據(jù),顯示每一輪模型的哪些響應(yīng)是安全的。在建模階段,他們排除了所有“選擇的響應(yīng)不安全而其他響應(yīng)安全”的例子,因?yàn)樗麄冋J(rèn)為更安全的響應(yīng)會(huì)更受人類(lèi)喜歡。
獎(jiǎng)勵(lì)模型
研究人員訓(xùn)練了兩個(gè)獎(jiǎng)勵(lì)模型,一個(gè)專(zhuān)注于有益性,另一個(gè)專(zhuān)注于安全性。這些模型基于語(yǔ)言模型構(gòu)建,用線(xiàn)性回歸層替換了原模型頭部。他們始終使用最新的聊天模型,目的是為了減少在RLHF訓(xùn)練中的分布不匹配。
一些關(guān)鍵的技術(shù)細(xì)節(jié)包括:
- 起始獎(jiǎng)勵(lì)模型基于開(kāi)源數(shù)據(jù)訓(xùn)練,并用于生成早期供應(yīng)商數(shù)據(jù)。
- 他們保留了一些Anthropic的無(wú)害數(shù)據(jù)(占他們自己的90%),但沒(méi)有給出具體原因。
- 他們只訓(xùn)練一個(gè)epoch,防止獎(jiǎng)勵(lì)模型過(guò)擬合。
- 獎(jiǎng)勵(lì)模型的平均準(zhǔn)確率在65-70%范圍內(nèi),但在"顯著不同"的標(biāo)簽上,準(zhǔn)確率達(dá)到80-90%。
其他有趣的發(fā)現(xiàn):
- 在獎(jiǎng)勵(lì)模型的損失函數(shù)中添加了一個(gè)margin項(xiàng)(與偏好的置信度成比例),以提高有益性。
- 隨著模型的訓(xùn)練和改進(jìn),數(shù)據(jù)對(duì)模型輸出的一致性評(píng)價(jià)越來(lái)越高
- 訓(xùn)練的獎(jiǎng)勵(lì)模型在評(píng)估中表現(xiàn)優(yōu)于使用GPT-4生成的獎(jiǎng)勵(lì)模型提示。
圖片
圖表顯示,獎(jiǎng)勵(lì)模型的準(zhǔn)確性隨著時(shí)間的推移有所提高。值得注意的是,盡管OpenAssistant獎(jiǎng)勵(lì)模型可能沒(méi)有得到高度認(rèn)可,但是GPT-4作為獎(jiǎng)勵(lì)模型的性能表現(xiàn)為其他模型提供了基準(zhǔn)。
Meta在討論微調(diào)結(jié)果時(shí)提到,獎(jiǎng)勵(lì)模型的準(zhǔn)確性是Llama 2-Chat性能的關(guān)鍵指標(biāo)。這符合人們對(duì)RLHF會(huì)充分利用獎(jiǎng)勵(lì)模型知識(shí)的理解。
RLHF和微調(diào)
Meta通過(guò)使用RLHF方法來(lái)提升模型性能,如下圖所示使用最優(yōu)秀的獎(jiǎng)勵(lì)模型來(lái)評(píng)估各種模型,以此展示RLHF如何將生成的文本推向更高的獎(jiǎng)勵(lì)。Meta迭代訓(xùn)練了5個(gè)RLHF版本,每個(gè)版本的數(shù)據(jù)分布都有所改進(jìn)。
圖片
Meta指出,第三方的SFT(有監(jiān)督微調(diào))數(shù)據(jù)多樣性和質(zhì)量往往不足以滿(mǎn)足對(duì)話(huà)式指令的LLM對(duì)齊需求。Meta通過(guò)篩選第三方數(shù)據(jù)集中的高質(zhì)量示例,顯著提高了結(jié)果。他們也強(qiáng)調(diào)了注釋數(shù)據(jù)的數(shù)量對(duì)于再現(xiàn)性的重要性。
Meta觀察到,不同的注釋平臺(tái)和供應(yīng)商可能會(huì)導(dǎo)致模型性能的顯著差異,因此在使用供應(yīng)商獲取注釋時(shí),數(shù)據(jù)檢查仍然非常重要。他們的做法是通過(guò)對(duì)比人類(lèi)注釋和模型生成的樣本來(lái)驗(yàn)證數(shù)據(jù)質(zhì)量。
在數(shù)據(jù)質(zhì)量確立之后,Meta開(kāi)始關(guān)注強(qiáng)化學(xué)習(xí)(RL)部分。他們發(fā)現(xiàn),即使有熟練的注釋員,每個(gè)人的寫(xiě)作風(fēng)格也會(huì)有很大的差異。一個(gè)在SFT注釋上進(jìn)行微調(diào)的模型會(huì)學(xué)習(xí)這種多樣性,但同時(shí)也會(huì)學(xué)習(xí)到一些糟糕的注釋。他們指出,模型的性能是由技巧最好的注釋者的寫(xiě)作能力來(lái)限制的。
Meta確實(shí)承認(rèn),這個(gè)過(guò)程需要大量的計(jì)算和注釋資源。在整個(gè)RLHF階段,獎(jiǎng)勵(lì)建模數(shù)據(jù)對(duì)于模型改進(jìn)至關(guān)重要。
結(jié)論是,有效的RLHF需要一個(gè)中等大小的團(tuán)隊(duì)。雖然一個(gè)1-3人的團(tuán)隊(duì)可以發(fā)布一個(gè)好的指令模型,但實(shí)行RLHF可能需要至少6-10人。這個(gè)數(shù)字會(huì)隨著時(shí)間的推移而減小,但這種類(lèi)型的工作需要與外部公司簽訂合同和保持緊密的聯(lián)系,這總是會(huì)耗費(fèi)一些時(shí)間。
此外,Meta對(duì)比了方法間的基本差異以及它們的使用時(shí)機(jī):
- 拒絕抽樣(RS)進(jìn)行更廣泛的搜索(每個(gè)提示生成更多的數(shù)據(jù)),而PPO則對(duì)獎(jiǎng)勵(lì)模型進(jìn)行更多的更新。
- 最終方法之間的差異并不顯著(與WebGPT的發(fā)現(xiàn)相似)。
- 在RLHFV4中,僅使用了拒絕抽樣,然后在最后一步中使用PPO和拒絕抽樣進(jìn)行微調(diào)(在一些評(píng)估中,PPO有輕微的優(yōu)勢(shì))。
評(píng)估
論文以多種方式評(píng)估他們的模型。在自動(dòng)化基準(zhǔn)測(cè)試中,例如Open LLM Leaderboard(MMLU,ARC等)的首字母縮略詞,Llama 2在所有規(guī)模上都比其他任何開(kāi)源模型要好得多。
模型在諸如MMLU這樣的不那么顯眼的基準(zhǔn)測(cè)試中也得分更高,這是因?yàn)樗麄兊拇罅繑?shù)據(jù)工作和RLHF的調(diào)整。然而,他們的模型在與閉源模型的比較中并未表現(xiàn)出色。
此外,論文還深入研究了當(dāng)前流行的評(píng)估技術(shù),人類(lèi)注釋者和LLM-as-a-judge由于其普遍性和可用性而受到歡迎。盡管人類(lèi)評(píng)估可能受到一些限制和主觀性的影響,但結(jié)果顯示了Meta在開(kāi)源領(lǐng)域的主導(dǎo)地位。
圖片
他們采用了模型作為評(píng)判的技術(shù),并用Elo圖展示了RLHF這個(gè)隨時(shí)間變化的概念,這與Anthropic的AI工作類(lèi)似。在性能上,他們的模型在RLHFv3之后超過(guò)了ChatGPT,這可以在圖中看到PPO方法提供了一定的提升:
這篇論文進(jìn)行了多項(xiàng)評(píng)估以展示其一般性能力,包括建立獎(jiǎng)勵(lì)模型。獎(jiǎng)勵(lì)模型的測(cè)試亮點(diǎn):
- 調(diào)整獎(jiǎng)勵(lì)模型分?jǐn)?shù)以適應(yīng)人類(lèi)評(píng)價(jià)者的偏好評(píng)估,盡管誤差范圍較大。
- 與在開(kāi)源數(shù)據(jù)集上訓(xùn)練的獎(jiǎng)勵(lì)模型進(jìn)行比較,以展示開(kāi)源領(lǐng)域的可能實(shí)現(xiàn)。
人類(lèi)/模型評(píng)估的亮點(diǎn):
- 在ChatGPT和Llama-2-Chat的輸出上評(píng)估模型,避免模型因風(fēng)格偏好而提高自身結(jié)果。
- 利用評(píng)價(jià)者間可靠性度量,如Gwet的AC1/2,這些統(tǒng)計(jì)工具為此項(xiàng)工作專(zhuān)門(mén)設(shè)計(jì)。
- 承認(rèn)人類(lèi)評(píng)估的限制,包括大型評(píng)估提示集未覆蓋所有實(shí)際應(yīng)用,缺少對(duì)編碼/推理的評(píng)估,只評(píng)估最后的對(duì)話(huà)輪次。
最后,附上Llama 2 的在線(xiàn)測(cè)試地址:
https://huggingface.co/spaces/ysharma/Explore_llamav2_with_TGI?cnotallow=749dd0fc30bb1d0718aaa9576af51980
參考文獻(xiàn)
https://twitter.com/i/status/1681354211328507917
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
https://www.interconnects.ai/p/llama-2-from-meta?utm_source=profile&utm_medium=reader2