給爆火的Llama 2劃重點,Huggingface機(jī)器學(xué)習(xí)科學(xué)家寫了篇分析文章
Meta 發(fā)布的免費可商用版本 Llama 2 刷屏整個網(wǎng)絡(luò)。
此前,Llama 1 版本因為開源協(xié)議問題,一直不可免費商用。現(xiàn)在,隨著 Llama 2 的發(fā)布,這一限制正式被打破。
Llama 2 模型系列包含 70 億、130 億和 700 億三種模型,此外 Meta 還訓(xùn)練了一個 340 億參數(shù)變體,但并沒有發(fā)布,只在技術(shù)報告中提到了。
發(fā)布之初, Llama -2-70B-Chat 迅速登頂 Hugging Face 的 Open LLM Leaderboard。
圖片
可以說, Llama 2 是 Llama 1 模型的延續(xù),不論是在數(shù)據(jù)質(zhì)量、訓(xùn)練技術(shù)、性能評估、安全訓(xùn)練等方面都進(jìn)行了實質(zhì)性的技術(shù)擴(kuò)展。
Meta 的這一發(fā)布,對于開源來說是一個巨大的飛躍,但對于閉源提供商來說卻是一個巨大的打擊,因為這個模型提供了更高的可定制性和更低的成本。
相信大家很想了解關(guān)于 Llama 2 的更多信息,除了官方公開的技術(shù)資料外,來自 Huggingface 的機(jī)器學(xué)習(xí)科學(xué)家 Nathan Lambert 根據(jù)論文內(nèi)容也為我們整理了一份詳細(xì)的資料,文章還融入了他自己的見解。
Llama 2 論文地址:https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
Nathan Lambert 從以下幾個方面展開介紹:
- 模型:Meta 發(fā)布了多個模型,70 億、130 億、700 億、340 億參數(shù)變體 ,以及 Llama 2-Chat。Meta 將預(yù)訓(xùn)練語料庫的大小增加了 40%,將模型的上下文長度增加了一倍至 4k,并采用了分組查詢注意力機(jī)制;(注:Llama 2 是否可被定義為「開源模型」目前還存在爭議,作者在最新的更正版本中認(rèn)為它不是。)
- 性能:Llama 2 模型系列除了在大多數(shù)基準(zhǔn)測試中優(yōu)于開源模型之外,根據(jù) Meta 對有用性和安全性的人工評估,它或許也是閉源模型的合適替代品;
- 成本:Meta 動用了巨大的預(yù)算,預(yù)計該項目的總成本將在2000萬至4500萬美元之間。單就數(shù)據(jù)來說,如果按市場價格計算,準(zhǔn)備偏好數(shù)據(jù)花費約為 800 萬美元,數(shù)據(jù)團(tuán)隊非常龐大;
- 團(tuán)隊組織:一些關(guān)于 Meta AI 組織變化的跡象,這個團(tuán)隊和 Yann Lecun 以及原始 FAIR 成員似乎不同;
- 代碼、數(shù)學(xué)以及推理:文中對代碼數(shù)據(jù)和 RLHF 的討論并不多;
- 多回合一致性(Multi-turn consistency):文中提出了一種新技術(shù) ——Ghost Attention (GAtt),這種方法有助于控制多個回合的對話流;
- 獎勵模型:研究使用兩種獎勵模型來達(dá)到安全性 - 有用性的權(quán)衡;
- RLHF 過程:本文采用兩階段的 RLHF 方法,首先使用拒絕抽樣(Rejection Sampling),然后結(jié)合近端策略優(yōu)化(Proximal Policy Optimization,PPO)進(jìn)行拒絕抽樣 + 近端策略優(yōu)化處理。論文還指出,RLHF 非常重要,且 LLM 出色的寫作能力,基本上是由 RLHF 驅(qū)動的;
- 安全和危害性評估:論文用大量篇幅介紹了安全評估(幾乎占據(jù)論文一半)、上下文蒸餾以及 RLHF 用于安全目的;
- 許可:該模型可用于商業(yè)用途,除非你的產(chǎn)品月活用戶數(shù) >= 7 億,需要填寫表格以獲取訪問權(quán)限。
Nathan Lambert 猜測,Llama 2 很可能已經(jīng)訓(xùn)練了幾個月,他預(yù)計下一個版本也正在醞釀之中。
基礎(chǔ)模型
Llama 2 在架構(gòu)和其他方面與原始 Llama 非常相似,但 Llama 2 增加了上下文長度并采用了分組查詢注意力(GQA,grouped-query attention)機(jī)制。Llama 2 大多數(shù)更改都是針對數(shù)據(jù)和訓(xùn)練過程的。增加上下文長度可以滿足聊天的可用性要求,分組查詢注意力機(jī)制可以提高推理速度。
Llama 2 的訓(xùn)練語料庫包含了來自公開可用資源的混合數(shù)據(jù),并且不包括 Meta 產(chǎn)品或服務(wù)相關(guān)的數(shù)據(jù)。此次,Meta 努力刪除了包含大量個人隱私信息網(wǎng)站的數(shù)據(jù)。此外,Llama 2 預(yù)訓(xùn)練模型是在 2 萬億的 token 上訓(xùn)練的,這樣可以在性能和成本之間取得良好的平衡。
Meta 公開的論文大部分內(nèi)容是關(guān)于評估和微調(diào)的,而不是重新創(chuàng)建一個強(qiáng)大的基礎(chǔ)模型。這一做法可能會強(qiáng)化 Meta 作為開源大語言模型領(lǐng)導(dǎo)者的地位。
下圖為 Llama 2-Chat 的訓(xùn)練 pipeline。Meta 在偏好數(shù)據(jù)上訓(xùn)練獎勵模型,然后用強(qiáng)化學(xué)習(xí)對其進(jìn)行優(yōu)化,以提高模型質(zhì)量。
圖片
偏好數(shù)據(jù)
Nathan Lambert 表示,通過 Meta 發(fā)布的論文,他證實了一個謠言,即 Meta 贊同獎勵模型是 RLHF 的關(guān)鍵,也是模型的關(guān)鍵。為了獲得一個好的獎勵模型,Meta 不得不努力收集偏好數(shù)據(jù),這些數(shù)據(jù)遠(yuǎn)遠(yuǎn)超過了開源社區(qū)目前使用的數(shù)據(jù)量。
關(guān)于數(shù)據(jù)的更多信息如下:
- Meta 收集了大量的二元比較數(shù)據(jù),如「顯著更好、更好、稍微更好」,而不是其他更復(fù)雜的反饋數(shù)據(jù)類型;
- Meta 將數(shù)據(jù)收集的重點放在有用性和安全性上,在數(shù)據(jù)收集時對每個數(shù)據(jù)供應(yīng)商使用單獨的指導(dǎo)方針;
- Meta 為收集的數(shù)據(jù)添加了額外的安全元數(shù)據(jù)(safety metadata),以顯示在每個回合中模型的哪些響應(yīng)是安全的;
- Meta 采用了迭代式的數(shù)據(jù)收集方法:人工注釋以每周一批的方式進(jìn)行收集。隨著收集到的偏好數(shù)據(jù)增多,獎勵模型也得到了改善。
Nathan Lambert 預(yù)測,假設(shè)供應(yīng)商收費接近市場價格,那么 Meta 這次發(fā)布僅數(shù)據(jù)成本可能超過 800 萬美元。下表總結(jié)了 Meta 長期以來收集到的獎勵建模數(shù)據(jù),并將其與多個開源偏好數(shù)據(jù)集進(jìn)行了對比。
圖片
獎勵模型
關(guān)于獎勵模型有兩個重要細(xì)節(jié):
- 兩個獎勵模型被用來區(qū)分有用性和安全性的目標(biāo)上;
- 獎勵模型在迭代部署時,以確定所需的偏好數(shù)據(jù)量。
首先,論文指出他們訓(xùn)練了兩個獨立的獎勵模型,一個針對有用性進(jìn)行優(yōu)化(稱為 Helpfulness RM),另一個針對安全性進(jìn)行優(yōu)化(稱為 Safety RM)。這兩個模型都基于基礎(chǔ)語言模型構(gòu)建,用線性回歸層替代了標(biāo)準(zhǔn)語言模型的頭部。他們沒有指明模型來自哪個 checkpoint,而是使用最新的聊天模型來最小化 RLHF 訓(xùn)練中的分布不匹配。
在這個過程中還有一些值得注意的技術(shù)細(xì)節(jié):
- 在沒有詳細(xì)解釋為什么需要的情況下,Meta 仍然保留了一些 Anthropic 的無害數(shù)據(jù);
- 只訓(xùn)練了一個 epoch,這是為了避免獎勵模型容易出現(xiàn)過擬合;
- 獎勵模型的平均準(zhǔn)確率仍然只在 65-70%,但當(dāng)標(biāo)注者的偏好一致性較強(qiáng)時,準(zhǔn)確率可達(dá) 80-90%。
下圖展示了獎勵模型的準(zhǔn)確性是如何隨著時間的推移而變化的。
圖片
RLHF 和微調(diào)
Meta 展示了他們?nèi)绾卫?RLHF 來有意義地改進(jìn)模型。他們迭代的訓(xùn)練了 5 個 RLHF 版本,RLHF- V1,…, RLHF-V5。
圖片
從一開始,Meta 就指出了數(shù)據(jù)質(zhì)量對模型的重要性。
Meta 在論文中表示:「Quality Is All You Need。我們可以從不同的來源獲取第三方 SFT( Supervised Fine-Tuning )數(shù)據(jù),但我們發(fā)現(xiàn)很多數(shù)據(jù)缺乏多樣性,并且質(zhì)量也不高,尤其是將 LLM 模型與對話式指令進(jìn)行對齊的數(shù)據(jù)。我們將來自第三方的數(shù)據(jù)集示例置于一旁,并使用少量的、但質(zhì)量更高的、來自我們自己供應(yīng)商的注釋示例,結(jié)果性能顯著改善。」
Meta 發(fā)現(xiàn),注釋數(shù)達(dá)到數(shù)萬個的 SFT 足以實現(xiàn)高質(zhì)量的結(jié)果。因而,Meta 在收集了總共 27540 個注釋后停止了 SFT 的注釋工作。
Meta 還觀察到,不同的注釋平臺和供應(yīng)商提供的數(shù)據(jù)可能會導(dǎo)致下游模型性能的不同,這表明即使是供應(yīng)商注釋的數(shù)據(jù),后續(xù)檢查也是很重要的。Meta 為了驗證數(shù)據(jù)質(zhì)量,他們仔細(xì)檢查了一組包含 180 個示例的數(shù)據(jù),并將人工提供的注釋與模型通過人工審查生成的樣本進(jìn)行比較。
數(shù)據(jù)質(zhì)量建立起來后,Meta 開始專注于強(qiáng)化學(xué)習(xí)組件:
Meta 在論文中表示:「強(qiáng)化學(xué)習(xí)在我們的研究中表現(xiàn)非常高效,尤其是考慮到其成本和時間效率。我們的研究結(jié)果強(qiáng)調(diào)了 RLHF 成功的關(guān)鍵因素在于它在整個注釋過程中促進(jìn)了人類和 LLM 之間的協(xié)同作用。」
Meta 的這一表述非常有趣,因為這是第一篇明確指出 RLHF 在本質(zhì)上提高了模型性能上限的論文,而其他研究團(tuán)隊則認(rèn)為 RLHF 很重要,但只將其視為一種安全工具。
Nathan Lambert 認(rèn)為,高效的 RLHF 需要至少一個中等規(guī)模的團(tuán)隊。一個由 1-3 人組成的團(tuán)隊可以發(fā)布一個優(yōu)秀的指令模型,但他認(rèn)為這種 RLHF 至少需要 6-10 人的團(tuán)隊。隨著時間的推移,這個數(shù)字可能會減少。
評估
論文從很多方面評估了他們的模型。下圖將 Llama 2-Chat 模型的人類評估結(jié)果與開源和閉源模型進(jìn)行比較:結(jié)果顯示,Llama 2-Chat 模型在單回合和多回合提示上均顯著優(yōu)于開源模型。特別是,Llama 2-Chat 7B 模型在 60% 的提示上勝過 MPT-7B-chat 模型。而 Llama 2-Chat 34B 模型在與容量相當(dāng)?shù)?Vicuna-33B 和 Falcon 40B 模型對戰(zhàn)中,總體勝率超過 75%。
圖片
圖 11 報告了不同的 SFT 和 RLHF 版本在安全性和有用性兩個維度上的進(jìn)展:
下圖為安全性的一些結(jié)果,包括偏見、紅隊測試(red-teaming)、預(yù)訓(xùn)練步驟等等。
圖片
以上就是 NATHAN LAMBERT 博客的主要內(nèi)容,后續(xù)關(guān)于 Llama 2 的分析文章他還在準(zhǔn)備中,感興趣的讀者可以關(guān)注一下。