成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek LLM: 通過長期主義擴展開源語言模型 精華

發布于 2024-10-14 19:54
瀏覽
0收藏

?摘要:開源大型語言模型(LLMs)的快速發展確實令人矚目。然而,先前文獻中描述的擴展規律呈現出不同的結論,這為擴展LLMs蒙上了一層陰影。我們深入研究了擴展規律,并提出了我們獨特的發現,這有助于在兩種普遍使用的開源配置中擴展大規模模型,即7B和67B。在擴展規律的指導下,我們介紹了DeepSeek LLM,這是一個致力于從長遠角度推進開源語言模型的項目。為了支持預訓練階段,我們已經開發了一個目前由2萬億個token組成的數據集,并且正在不斷擴展。我們進一步對DeepSeek LLM基礎模型進行了監督式微調(SFT)和直接偏好優化(DPO),從而創建了DeepSeek Chat模型。我們的評估結果表明,DeepSeek LLM 67B在一系列基準測試中超越了LLaMA-2 70B,特別是在代碼、數學和推理領域。此外,開放式評估揭示了我們的DeepSeek LLM 67B Chat與GPT-3.5相比展現出更優越的性能。

1. 引言

過去幾年中,基于僅解碼器Transformer(Vaswani et al., 2017)的大型語言模型(LLMs)逐漸成為實現人工通用智能(AGI)的基石和途徑。通過預測連續文本中的下一個單詞,LLMs在大規模數據集上進行自監督預訓練,使它們能夠實現各種目的并擁有許多能力,如創意創作、文本摘要、代碼補全等。隨后的發展,如監督式微調和獎勵建模,使大型語言模型(LLMs)能更好地遵循用戶意圖和指令。這賦予了它們更多樣的對話能力,并迅速擴大了它們的影響力。

這一浪潮是由如ChatGPT(OpenAI, 2022)、Claude(Anthropic, 2023)和Bard(Google, 2023)等封閉產品所激發的,這些產品是利用大量計算資源和大量的注釋成本開發的。這些產品顯著提高了社區對開源LLMs能力的期望,從而激發了一系列工作(Bai et al., 2023; Du et al., 2022; Jiang et al., 2023; Touvron et al., 2023a,b; Yang et al., 2023)。在這些工作中,LLaMA系列模型(Touvron et al., 2023a,b)脫穎而出。它整合了一系列工作,創建了一個高效穩定的架構,構建了從7B到70B參數范圍內表現良好的模型。因此,LLaMA系列已成為開源模型中架構和性能的事實上的基準。 

繼LLaMA之后,開源社區主要專注于訓練固定大小(7B、13B、34B和70B)的高質量模型,往往忽略了對LLM擴展規律的研究探索(Hoffmann et al., 2022; Kaplan et al., 2020)。然而,考慮到當前開源模型僅處于人工通用智能(AGI)發展的初期階段,對擴展規律的研究是至關重要的。此外,早期作品(Hoffmann et al., 2022; Kaplan et al., 2020)在模型和數據隨計算預算增加的擴展上得出了不同的結論,并且沒有充分討論超參數。在本文中,我們廣泛研究了語言模型的擴展行為,并應用我們的發現在兩個廣泛使用的大規模模型配置中,即7B和67B。我們的研究旨在為未來開源LLMs的擴展奠定基礎,為這一領域的進一步發展鋪平道路。具體來說,我們首先檢查了批量大小和學習率的擴展規律,并發現了它們與模型大小的趨勢。在此基礎上,我們對數據和模型規模的擴展規律進行了全面研究,成功揭示了最佳的模型/數據擴展分配策略,并預測了我們大規模模型的預期性能。此外,在開發過程中,我們發現不同數據集推導出的擴展規律存在顯著差異。這表明數據集的選擇顯著影響擴展行為,這表明在跨數據集推廣擴展規律時應謹慎。

在擴展規律的指導下,我們從頭開始構建開源大型語言模型,并盡可能多地發布信息供社區參考。我們收集了2萬億個token用于預訓練,主要是中文和英文。在模型層面,我們基本上遵循了LLaMA的架構,但將余弦學習率調度器替換為多步學習率調度器,在保持性能的同時便于持續訓練。我們從多個來源收集了超過100萬個實例進行監督式微調(SFT)(Ouyang et al., 2022)。本文分享了我們在不同SFT策略和數據消融技術中的經驗和發現。此外,我們利用直接偏好優化(DPO)(Rafailov et al., 2023)來提高模型的對話性能。 

我們使用基礎和聊天模型進行了廣泛的評估。評估結果表明,DeepSeek LLM在各種基準測試中超越了LLaMA-2 70B,特別是在代碼、數學和推理領域。在SFT和DPO之后,DeepSeek 67B聊天模型在中英文開放式評估中均優于GPT-3.5。這突出了DeepSeek 67B在生成高質量回應和進行有意義對話方面的優越性能。此外,安全評估表明DeepSeek 67B聊天在實踐中能夠提供無害的回應。

在本文的其余部分,我們首先在第2節中介紹DeepSeek LLM的預訓練基本概念,包括數據的組成、模型架構、基礎設施和超參數。在第3節中,我們詳細解釋了我們發現的擴展規律及其含義。此外,我們討論了我們選擇預訓練超參數的理由,考慮到從擴展規律分析中獲得的見解。在第4節中,我們討論了我們的微調方法,包括微調數據的組成以及SFT和DPO階段的特定方法。然后我們在第5節中介紹了DeepSeek LLM的詳細評估結果,涵蓋了基礎和聊天模型以及它們在開放式評估和安全評估中的表現。最后,我們在第6節討論了DeepSeek LLM的當前局限性和未來的發展方向。

2. 預訓練

2.1 數據

我們的主要目標是全面提高數據集的豐富性和多樣性。我們從諸如(Computer, 2023; Gao et al., 2020; Penedo et al., 2023; Touvron et al., 2023a)等知名來源獲得了寶貴的見解。為了實現這些目標,我們將我們的方法分為三個基本階段:去重、過濾和混音。去重和混音階段通過抽樣獨特實例確保數據的多樣性表示。過濾階段提高了信息密度,從而使得模型訓練更有效、更高效。

我們采取了積極的去重策略,擴大了去重范圍。我們的分析表明,跨91次轉儲的去重比單次轉儲去重移除的重復實例多四倍。表1展示了跨不同次數轉儲去重的結果。 

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

表1 | 不同Common Crawl轉儲去重比率。

在過濾階段,我們專注于開發健全的文檔質量評估標準。這涉及到詳細的分析,結合了語言和語義評估,提供了從個體和全局角度審視數據質量。在混音階段,我們調整了我們的方法來解決數據不平衡問題,專注于增加代表性不足的領域的出現。這種調整旨在實現更平衡和包容性的數據集,確保不同的觀點和信息得到充分代表。

對于我們的分詞器,我們基于tokenizers庫(Huggingface Team, 2019)實現了字節級字節對編碼(BBPE)算法。采用了預分詞,以防止來自不同字符類別的令牌合并,如新行、標點符號和中日韓(CJK)符號,類似于GPT-2(Radford et al., 2019)。我們還選擇按照(Touvron et al., 2023a,b)中使用的方法將數字分割成單個數字?;谖覀冎暗牡慕涷?,我們將詞匯表中的常規令牌數量設置為100000。分詞器在大約24 GB的多語言語料庫上進行訓練,我們將最終詞匯表與15個特殊令牌結合,使其總數達到100015。為了確保訓練期間的計算效率,并為將來可能需要的任何額外特殊令牌保留空間,我們將模型的詞匯表大小配置為102400用于訓練。

2.2 架構

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

表2 | DeepSeek LLM家族模型的詳細規格。我們根據第3節中的發現選擇了超參數。 

DeepSeek LLM的微觀設計在很大程度上遵循了LLaMA(Touvron et al., 2023a,b)的設計,采用了Pre-Norm結構,使用RMSNorm(Zhang和Sennrich, 2019)函數,并使用SwiGLU(Shazeer, 2020)作為前饋網絡(FFN)的激活函數,中間層維度為8倍模型寬度。它還結合了旋轉嵌入(Su et al., 2024)進行位置編碼。為了優化推理成本,67B模型使用了分組查詢注意力(GQA)(Ainslie et al., 2023)而不是傳統的多頭注意力(MHA)。

然而,在宏觀設計方面,DeepSeek LLM略有不同。具體來說,DeepSeek LLM 7B是一個30層的網絡,而DeepSeek LLM 67B有95層。這些層的調整,在保持與其他開源模型參數一致性的同時,也便于模型流水線分割,以優化訓練和推理。

與大多數使用分組查詢注意力(GQA)的工作不同,我們擴展了67B模型的參數,在網絡深度上進行了擴展,而不是通常的做法,即擴大FFN層的中間寬度,目標是獲得更好的性能。詳細的網絡規格可以在表2中找到。

2.3 超參數

DeepSeek LLM以標準差0.006初始化,并使用AdamW優化器(Loshchilov和Hutter, 2017)進行訓練,如下所示超參數:β1 = 0.9, β2 = 0.95, 和weight_decay = 0.1。

在預訓練期間采用了多步學習率調度器,而不是典型的余弦調度器。具體來說,模型的學習率在2000個預熱步驟后達到最大值,然后在處理了80%的訓練token后降低到最大值的31.6%。它在90%的token后進一步降低到最大值的10%。訓練階段的梯度裁剪設置為1.0。 

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

基于我們的實證發現,我們觀察到盡管訓練過程中損失減少的趨勢不同,但使用多步學習率調度器的最終性能與余弦調度器基本一致,如圖1(a)所示。在保持模型大小固定的同時調整訓練規模,多步學習率調度器允許重用第一階段的訓練,為持續訓練提供了獨特的便利。因此,我們選擇多步學習率調度器作為我們的默認設置。我們還在圖1(b)中展示了調整多步學習率調度器中不同階段的比例可以帶來略微更好的性能。然而,為了平衡持續訓練中的重用比例和模型性能,我們選擇了上述的80%,10%和10%的三個階段的分布。

批量大小和學習率隨著模型大小的變化而變化。7B和67B模型預訓練階段的具體參數可以在表2中找到。

2.4 基礎設施

我們使用了一個高效且輕量級的名為HAI-LLM(High-flyer, 2023)的訓練框架來訓練和評估大型語言模型。數據并行性、張量并行性、序列并行性和1F1B流水線并行性被整合到這個框架中,就像在Megatron(Korthikanti et al., 2023; Narayanan et al., 2021; Shoeybi et al., 2019)中完成的那樣。我們還利用了閃存注意力(Dao, 2023; Dao et al., 2022)技術來提高硬件利用率。ZeRO-1(Rajbhandari et al., 2020)被利用來跨數據并行等級分割優化器狀態。還努力使計算和通信重疊,以最小化額外的等待開銷,包括ZeRO-1中的最后一個微批次的后向過程和reduce-scatter操作,以及序列并行中的GEMM計算和all-gather/reduce-scatter。一些層/操作被融合以加速訓練,包括LayerNorm、GEMM以及可能的Adam更新。為了提高模型訓練的穩定性,我們以bf16精度訓練模型,但以fp32精度累積梯度。執行了原地交叉熵,以減少GPU內存消耗,即:我們在交叉熵CUDA內核中將bf16 logits轉換為fp32精度(而不是事先在HBM中轉換),計算相應的bf16梯度,并用其梯度覆蓋logits。 

模型權重和優化器狀態每5分鐘異步保存一次,這意味著在偶爾的硬件或網絡故障的情況下,我們最多只會丟失5分鐘的訓練。這些臨時模型檢查點定期清理,以避免消耗過多的存儲空間。我們還支持從不同的3D并行配置恢復訓練,以應對計算集群負載的動態變化。

至于評估,我們在生成型任務中使用vLLM(Kwon et al., 2023),在非生成型任務中使用持續批處理,以避免手動批處理大小調整并減少token填充。

3. 擴展規律

關于擴展法則的研究(Hestness et al., 2017)早于大型語言模型的出現。擴展法則(Henighan et al., 2020; Hoffmann et al., 2022; Kaplan et al., 2020)表明,隨著計算預算C、模型規模N和數據規模D的增加,模型性能可以可預測地提高。當模型規模N由模型參數表示,數據規模D由令牌數量表示時,C可以近似表示為C = 6ND。因此,在增加計算預算時,如何在模型和數據規模之間優化分配也是一個關鍵的研究目標。

隨著LLMs(Dai et al., 2019; Radford et al., 2019)的發展,更大的模型取得了意想不到和顯著的性能提升,將擴展規律研究推向了新的高峰。擴展規律的結果表明,擴大計算預算繼續帶來顯著的好處,這進一步鼓勵了模型規模的增加(Brown et al., 2020; Smith et al., 2022)。 

然而,如表4所示,早期關于最優模型/數據擴展分配策略的作品(Hoffmann et al., 2022; Kaplan et al., 2020)得出了不同的結論,引發了對擴展規律普遍適用性的懷疑。此外,這些研究通常缺乏對超參數設置的完整描述,使得不確定不同計算預算下的模型是否達到了最優性能。因此,我們在本節重新審視擴展規律,以解決這些不確定性,并確保我們正有效地擴展計算,這反映了長遠視角,是開發持續改進模型的關鍵。

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

表4 | 系數的模型擴展和數據擴展隨著訓練數據分布的變化而變化。

為了確保不同計算預算下的模型能夠達到最優性能,我們首先研究了超參數的擴展規律。從經驗上觀察到,當變化計算預算時,大多數參數的最優值在訓練期間不會改變。因此,這些參數與第2.3節中概述的一致,并在不同的計算預算下保持不變。然而,對性能影響最大的超參數,即批量大小和學習率,被重新檢查。

早期作品(Goyal et al., 2017; McCandlish et al., 2018; Shallue et al., 2019; Smith et al., 2017; Zhang et al., 2019)為批量大小和學習率的設置提供了一些經驗觀察,但我們發現這些觀察在我們的初步實驗中的適用性有限。通過廣泛的實驗,我們對計算預算C和最優批量大小和學習率之間的冪律關系進行了建模。我們稱之為超參數的擴展規律,提供了一個經驗框架,用于確定最優超參數。這種方法確保了不同計算預算下的模型能夠達到其接近最優的性能。

然后我們研究了模型和數據規模的擴展規律。為了減少實驗成本和擬合困難,我們采用了Chinchilla(Hoffmann et al., 2022)中的IsoFLOP配置文件方法來擬合擴展曲線。為了更準確地表示模型規模,我們采用了一種新的模型規模表示方法,非嵌入式FLOPs/令牌M,取代了以前使用的模型參數N,并用更精確的C = MD替換了先前使用的近似計算預算公式C = 6ND。 

實驗結果提供了對最優模型/數據擴展分配策略的見解,并準確預測了DeepSeek LLM 7B和67B模型的預期性能。

3.1 超參數的擴展規律

我們最初在計算預算為1e17的小規模實驗中對批量大小和學習率進行了網格搜索,特定模型大?。?77M FLOPs/令牌)的結果如圖2(a)所示。結果表明,批量大小和學習率的一般化誤差在廣泛的參數選擇范圍內保持穩定。這表明在相對較寬的參數空間內可以實現接近最優的性能。

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

然后,我們利用上述多步學習率調度器有效地訓練了多個具有不同批量大小、學習率和計算預算從1e17到2e19的模型,通過重用第一階段??紤]到參數空間中的冗余,我們將那些將泛化誤差超過最小值不超過0.25%的模型所使用的參數視為接近最優的超參數。然后我們擬合了批量大小B和學習率η相對于計算預算C的關系。擬合結果如圖3所示,揭示了最優批量大小B隨著計算預算C的增加而逐漸增加,而最優學習率η逐漸減少。這與直觀的經驗設置批量大小和學習率時模型擴展的一致。此外,所有接近最優的超參數都落在一個寬波段范圍內,表明在這個區間內相對容易選擇接近最優的參數。我們擬合的批量大小和學習率的最終公式如下: 

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

我們在一個具有1e20計算預算的一系列模型上驗證了我們的公式,特定模型大小(2.94B FLOPs每令牌)的結果如圖2(b)所示。結果表明,擬合的參數位于最優參數空間的中心。后續章節還表明,我們為DeepSeek LLM 7B和67B模型擬合的參數同樣取得了良好的性能。

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

圖 3 | 批量大小和學習率的擴展曲線?;疑珗A圈代表模型的泛化誤差超過最小值不超過0.25%。虛線代表擬合較小模型的冪律。藍色星星代表DeepSeek LLM 7B和67B。

然而,值得注意的是,我們尚未考慮計算預算C之外的因素對最優超參數的影響。這與一些早期作品(Kaplan et al., 2020; McCandlish et al., 2018)不一致,它們建議最優批量大小可以被建模為僅與泛化誤差L有關。此外,我們觀察到具有相同計算預算但不同模型/數據分配的模型,最優參數空間略有不同。這表明需要進一步研究以了解超參數選擇和訓練動態。我們將在未來的工作中探索這些方面。           

3.2 估計最優模型和數據擴展

在推導出擬合近優超參數的公式之后,我們開始擬合擴展曲線并分析最優模型/數據擴展分配策略。該策略涉及找到滿足Nopt ∝Ca和Dopt ∝Cb的模型擴展指數a和數據擴展指數b。數據規模D可以一致地由數據集中的token數量表示。在以前的作品中,模型規模通常由模型參數表示,非嵌入式參數N1(Kaplan et al., 2020)和完整參數N2(Hoffmann et al., 2022)。計算預算C和模型/數據規模之間的關系可以近似描述為C = 6ND,意味著我們可以使用6N1或6N2來近似模型規模。然而,由于6N1和6N2都沒有考慮到注意力操作的計算開銷,而6N2還包括詞匯計算,在某些設置下,它們的近似誤差很大。

為了減少這些誤差,我們引入了一種新的模型規模表示方法:非嵌入式FLOPs/令牌M。M包括注意力操作的計算開銷,但不包括詞匯計算。用M表示模型規模,計算預算C可以簡單地表示為C = MD。這三個表示方法之間的具體差異如下式所示:

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

其中nlayer表示層數,dmodel表示模型寬度,nvocab是詞匯表大小,lseq是序列長度。我們在不同規模的模型中評估了這三種表示方法之間的差異,如表3所示。結果表明,6N1和6N2在不同規模的模型中要么高估要么低估計算成本。這種差異在小規模模型中尤為明顯,差異高達50%。這種不準確性在擬合擴展曲線時可能會引入大量的統計誤差。請參考附錄A.2中關于模型規模不同表示的進一步分析。           

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

在采用M來表示模型規模之后,我們的目標可以更清晰地描述為:給定一個計算預算C = MD,找到最優的模型規模Mopt和數據規模Dopt,以最小化模型的泛化誤差。這個目標可以形式化為:

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

為了減少實驗成本和擬合困難,我們采用了Chinchilla(Hoffmann et al., 2022)中的IsoFLOP配置文件方法來擬合擴展曲線。我們選擇了8個不同的計算預算,范圍從1e17到3e20,并為每個預算設計了大約10種不同的模型/數據規模分配。每個預算的超參數由公式(1)確定,泛化誤差在獨立驗證集上計算,該驗證集與訓練集分布相似,包含1億個token。           

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

圖 4 | IsoFLOP曲線和最優模型/數據分配。IsoFLOP曲線中的指標是在驗證集上的比特每字節。最優模型/數據擴展曲線中的虛線代表擬合較小模型(灰色圓圈)的冪律。

圖4展示了IsoFLOP曲線和模型/數據擴展曲線,這些曲線是通過使用每個計算預算的最優模型/數據分配來擬合的。具體的最優非嵌入式FLOPs/令牌Mopt和最優token Dopt的公式如下:

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

此外,我們根據計算預算C和最優泛化誤差擬合了損失擴展曲線,并預測了DeepSeek LLM 7B和67B的泛化誤差,如圖5所示。結果表明,使用小規模實驗可以準確預測具有1000×計算預算的模型的性能。這為在更大規模上訓練模型提供了信心和指導。           

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

圖 5 | 性能擴展曲線。該指標是在驗證集上的比特每字節。虛線代表了擬合較小模型(灰色圓圈)的冪律。藍色星星代表DeepSeek LLM 7B和67B。它們的性能被擴展曲線很好地預測了。

3.3 不同數據的擴展規律

在DeepSeek LLM的開發過程中,數據集經過多次迭代改進,調整了不同數據源的比例,同時提高了整體質量。這使我們能夠進一步分析不同數據集對擴展規律的影響。

我們使用三種不同的數據集研究了擴展規律:早期內部數據、當前內部數據和OpenWebText2,后者用于Kaplan等人(2020)之前擴展規律的研究。我們的內部數據評估顯示,當前內部數據的數據質量高于早期內部數據。此外,OpenWebText2的質量甚至超過了當前內部數據,這是由于其較小的規模允許更細致的處理。

分析的一個有趣的觀察是,這三個數據集的最優模型/數據擴展分配策略與數據質量一致。如圖4所示,隨著數據質量的提高,模型擴展指數a逐漸增加,而數據擴展指數b減少,這表明增加的計算預算應該更多地分配給模型而不是數據。這一發現可能也解釋了早期擴展規律研究中觀察到的最優模型/數據擴展分配的顯著差異。

對這個發現的一個直觀猜測是,高質量的數據通常意味著邏輯清晰和預測難度較小,在充分訓練后。因此,在增加計算預算時,將更多的計算預算分配給模型規模更有利。我們將繼續密切關注數據質量的變化及其對擴展規律的影響,并在未來的工作中提供更多的分析。 

4. 對齊

我們收集了大約150萬個英文和中文的指令數據實例,涵蓋了有用性和無害性的廣泛主題。我們的有用數據包含120萬個實例,其中31.2%用于一般語言任務,46.6%用于數學問題,22.2%用于編碼練習。安全數據由30萬個實例組成,涵蓋了各種敏感主題。

我們的對齊流程包含兩個階段。

監督式微調(Supervised Fine-Tuning):我們對7B模型進行了4個周期的微調,但只對67B模型進行了2個周期的微調,因為我們觀察到67B模型存在嚴重的過擬合問題。我們觀察到,對于7B模型,GSM8K(Cobbe et al., 2021)和HumanEval(Chen et al., 2021)的性能持續改善,而67B模型很快就達到了上限。學習率分別為7B和67B模型的1e-5和5e-6。除了監控基準精度外,我們還評估了聊天模型在微調過程中的重復比率。我們收集了總共3868個中文和英文提示,并確定了生成的回應中未能終止而無休止地重復一段文本的比例。我們觀察到,隨著數學SFT數據量的增加,重復比率趨于上升。這可以歸因于數學SFT數據偶爾包含類似的推理模式。因此,較弱的模型難以把握這種推理模式,導致重復回應。為了解決這個問題,我們嘗試了兩階段微調和DPO(Rafailov et al., 2023),這兩種方法都可以幾乎保持基準分數并顯著減少重復。

直接偏好優化(DPO):為了進一步提高模型的能力,我們使用了直接偏好優化算法(Rafailov et al., 2023),這是一種簡單但有效的LLM對齊方法。我們根據有用性和無害性收集了用于DPO訓練的偏好數據。對于有用性數據,我們收集了多語言提示,涵蓋了包括創意寫作、問答、指令遵循等類別。然后我們使用我們的DeepSeek聊天模型生成回應作為回應候選。對于無害性偏好數據的構建也采用了類似的操作。

我們對DPO進行了一個周期的訓練,學習率為5e-6,批量大小為512,并使用了學習率預熱和余弦學習率調度器。我們發現DPO可以增強模型的開放式生成技能,而在標準基準測試中的性能幾乎沒有差異。 

5. 評估

我們使用基礎和聊天模型進行了廣泛的評估。評估結果表明,DeepSeek LLM在各種基準測試中超越了LLaMA-2 70B,特別是在代碼、數學和推理領域。在SFT和DPO之后,DeepSeek 67B聊天模型在中英文開放式評估中均優于GPT-3.5。這突出了DeepSeek 67B在生成高質量回應和進行有意義對話方面的優越性能。此外,安全評估表明DeepSeek 67B聊天在實踐中能夠提供無害的回應。

5.1 公共基準評估

我們在英文和中文的一系列公共基準測試中評估了我們的模型,基于內部評估框架。

多主題多項選擇數據集,包括MMLU(Hendrycks et al., 2020)、C-Eval(Huang et al., 2023)和CMMLU(Li et al., 2023)。

語言理解和推理數據集,包括HellaSwag(Zellers et al., 2019)、PIQA(Bisk et al., 2020)、ARC(Clark et al., 2018)、OpenBookQA(Mihaylov et al., 2018)和BigBench Hard(BBH)(Suzgun et al., 2022)。

閉卷問答數據集,包括TriviaQA(Joshi et al., 2017)和NaturalQuestions(Kwiatkowski et al., 2019)。

閱讀理解數據集,包括RACE Lai et al.(2017)和DROP(Dua et al., 2019)、C3(Sun et al., 2019)。

參考消歧數據集,包括WinoGrande Sakaguchi et al.(2019)和CLUEWSC(Xu et al., 2020)。

語言建模數據集,包括Pile(Gao et al., 2020)。

中文理解和文化數據集,包括CHID(Zheng et al., 2019)和CCPM(Li et al., 2021)。 

數學數據集,包括GSM8K(Cobbe et al., 2021)、MATH(Hendrycks et al., 2021)和CMath(Wei et al., 2023)。

代碼數據集,包括HumanEval(Chen et al., 2021)和MBPP(Austin et al., 2021)。

標準化考試,包括AGIEval(Zhong et al., 2023)。

我們對需要從幾個選項中選擇答案的測試集應用了基于困惑度的評估,這些測試集包括HellaSwag、PIQA、WinoGrande、RACE-Middle、RACEHigh、MMLU、ARC-Easy、ARC-Challenge、OpenBookQA、CHID、C-Eval、CMMLU、C3和CCPM。這里的基于困惑度的評估是指計算每個選項的困惑度,并選擇最低的一個作為模型預測。對于ARC和OpenBookQA,我們使用無條件歸一化(Brown et al., 2020)計算困惑度,對于其他數據集我們使用長度歸一化。

我們對TriviaQA、NaturalQuestions、DROP、MATH、GSM8K、HumanEval、MBPP、BBH、AGIEval、CLUEWSC和CMath進行了基于生成的評估。這里的基于生成的評估是指讓模型生成自由文本,并從生成的文本中解析結果。對于基于生成的評估,我們使用貪婪解碼。

我們對Pile-test進行了基于語言建模的評估,即計算測試語料庫上的比特/字節。

我們對不同的基準測試使用2048或4096作為不同基準測試的最大序列長度。評估格式的詳細信息可以在附錄A.6中找到。

5.1.1 基礎模型

表5展示了評估基準的主要結果。盡管DeepSeek模型是在2萬億雙語語料庫上預訓練的,但它們在英文語言理解基準測試中的性能與LLaMA2模型相當,后者也消耗了2萬億個token,但專注于英文。此外,DeepSeek 67B在MATH、GSM8K、HumanEval、MBPP、BBH和中文基準測試中的性能明顯優于LLaMA2 70B。我們在附錄A.3中展示了基準曲線。我們可以看到,隨著模型規模的增加,一些任務的性能得到了提升,例如GSM8K和BBH。鑒于我們對7B和67B模型進行了相同的數據預訓練,這種改進的出現可以歸因于大型模型強大的少樣本學習能力。然而,隨著數學數據比例的增加,小型和大型模型之間的差距可能會縮小。 

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

表 5 | 主要結果。我們報告的評估結果是基于內部評估框架。加粗的數字表示4個模型中的最佳結果。對于Pile-test,我們報告比特每字節(BPB);對于DROP,我們報告F1分數;對于其他任務,我們報告準確率。請注意,test-shots是最大值,由于上下文長度限制或在閱讀理解任務(如RACE)中同一段落中可用的有限的少量樣本,可能會應用較少的shots。

一個有趣的觀察是,DeepSeek 67B相比LLaMA2 70B的優勢比DeepSeek 7B相比LLaMA2 7B的優勢要大。這種現象突出了語言沖突對小型模型的更大影響。此外,LLaMA2在某些中文任務上表現出色,例如CMath,盡管它沒有專門針對中文數據進行訓練。這表明某些基本能力,如數學推理,可以有效地跨語言轉移。然而,涉及評估中文成語使用的任務,如CHID,需要模型在預訓練期間消耗大量的中文token。在這種情況下,LLaMA2的表現明顯不如DeepSeek LLM。 

5.1.2 聊天模型

表6展示了DeepSeek聊天模型的結果,展示了在大多數任務上的整體改進,這些改進是在調整之后實現的。然而,也有幾個例子表明某些任務的性能有所下降。

知識:我們觀察到基礎和聊天模型在知識相關任務上的波動,如TriviaQA、MMLU和C-Eval。然而,我們不認為這種輕微的波動表明在SFT之后獲得了或失去了知識。SFT的價值在于能夠學習,在聊天模型的零樣本設置中實現與基礎模型的少樣本設置相當的分數,這與現實場景一致。例如,聊天模型的0-shot MMLU性能與基礎模型的5-shot MMLU性能相當。

推理:由于SFT實例的相當一部分是以CoT格式Wei et al.(2022),聊天模型在推理任務上表現出輕微的改進,如BBH和NaturalQuestions。然而,我們認為SFT階段并沒有學習推理能力,而是學習了推理路徑的正確格式。           

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

表 6 | 基礎模型與聊天模型之間的比較。我們對MMLU、GSM8K、MATH、C-Eval和CMMLU進行0-shot評估來測試聊天模型,而基礎模型的結果仍然是在少量樣本設置中獲得的。

性能下降的任務:一些特定任務的性能在微調后一致下降,不管模型大小或選擇的預訓練檢查點如何。這些特定任務通常涉及完形填空任務或句子完成任務,如HellaSwag??梢院侠淼丶僭O,純語言模型更適合處理這類任務。

數學和代碼:我們的模型在微調后在數學和編碼任務上表現出顯著的改進。例如,HumanEval和GSM8K的分數提高了20多點。我們的解釋是,基礎模型最初對這些任務擬合不足,SFT階段通過廣泛的SFT數據學習了額外的編碼和數學知識。然而,值得注意的是,模型的能力可能主要集中在代碼補全和代數問題上。要全面理解數學和編碼,關鍵是在預訓練階段納入多樣化的數據,這作為未來工作。我們在附錄A.4中對代碼和數學任務進行了詳細分析。 

在7B模型微調中,我們最初使用所有數據對模型進行了微調。隨后,引入了第二階段,不包括數學和代碼數據。這種做法的動機是,第一階段的模型表現出2.0%的重復比率,降低到第二階段調整后的1.4%,同時保持了基準分數。在67B模型的情況下,第一階段微調后的重復比率已經低于1%,第二階段會損害模型在基準測試中的分數。因此,僅對67B模型進行了一個階段的SFT。

5.2 開放式評估

對于聊天模型,除了觀察標準基準測試上的指標外,生成的開放式領域和開放式問題的結果直接關系到實際用戶體驗。因此,我們分別測試了我們聊天模型在中文和英文任務中的開放式生成能力。

5.2.1 中文開放式評估

對于中文開放式評估,我們在不同領域的高質量開放式問題測試集AlignBench(Liu et al., 2023)上測試了我們聊天模型的全面性。AlignBench包括總共8個主要類別、36個子類別,并涵蓋683個問題。對于每個問題,除了提示外,AlignBench還提供了專業參考答案和評分模板供GPT-4評分。

我們使用了官方AlignBench Github代碼庫來實現我們模型的評估。我們嚴格與原始設置對齊關鍵的溫度參數:對于角色扮演、寫作能力和開放式問題,生成溫度設置為0.7;而對于其他任務,生成溫度設置為0.1。

AlignBench排行榜如表7所示。我們可以發現,我們的DeepSeek 67B聊天模型超越了ChatGPT和其他基線模型,僅次于兩個版本的GPT-4。這表明我們的模型在各種中文任務上的表現優于其他開源或專有中文大型語言模型。DPO模型在幾乎所有指標上都有所改進,這表明DPO訓練過程對模型對齊的積極影響。           

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

表 7 | 按 gpt-4-0613 評分的 AlignBench 排行榜。模型按總得分降序排列。帶 * 的結果是基于官方 AlignBench 存儲庫的我們的評估結果,而所有其他結果均來自 AlignBench 論文。我們發現我們的 DeepSeek-67B-Chat 模型以明顯的優勢超過了 ChatGPT 和其他基線模型,這表明我們的模型在基礎中文語言任務和高級中文推理任務中的性能更優越。此外,我們可以發現 DPO 過程在幾乎所有領域都帶來了改進。

對于基礎中文語言任務,我們的模型位于所有模型中的第一梯隊,而我們的DPO模型的中文基礎語言能力甚至高于最新版本的GPT-4。對于高級中文推理任務,我們模型的得分明顯高于其他中文LLM,并且有明顯的差距,這表明我們的模型在更復雜的中文邏輯推理和數學計算方面表現優越。

5.2.2 英文開放式評估

對于英文開放式評估,我們使用了MT-Bench基準(Zheng et al., 2023),其中包含8種不同類型的多輪問題。如表8所示,我們的DeepSeek LLM 67B聊天在其他開源模型如LLaMA-2-Chat(Touvron et al., 2023b)70B、Xwin 70b v0.1和TüLU 2+DPO 70B(Ivison et al., 2023)中的性能優于其他模型,并且得分與GPT-3.5-turbo相當。此外,在DPO階段之后,我們的DeepSeek LLM 67B聊天DPO將平均得分進一步提高到8.76,僅次于GPT-4(OpenAI, 2023)。這些結果表明DeepSeek LLM具有強大的多輪開放式生成能力。 

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

5.3 保留評估

數據污染和基準測試過度擬合是評估LLMs時面臨的兩個挑戰。一種常見的做法是使用最近發布的測試集作為模型的保留測試集。

LeetCode:為了評估模型的編碼能力,我們使用了LeetCode周賽(第351-372周,108-117雙周賽,從2023年7月到11月)中的問題。我們通過從LeetCode爬取數據獲得了這些問題,包括126個問題,每個問題都有超過20個測試用例。所使用的評估指標與HumanEval類似。在這方面,如果模型的輸出成功通過了所有測試用例,該模型就被認為是有效地解決了問題。模型的編碼能力如圖所述,其中y軸代表領域內人類評估測試的pass@1得分,x軸代表保留域LeetCode周賽問題的pass@1得分。LeetCode測試數據將與DeepSeek Coder技術報告一起發布。

匈牙利國家高中考試:與Grok-1一致,我們使用匈牙利國家高中考試評估模型的數學能力。這次考試包括33個問題,模型的得分通過人工注釋確定。我們遵循solution.pdf中的評分指標來評估所有模型。           

指令遵循評估:2023年11月15日,谷歌發布了一個指令遵循評估數據集(Zhou et al., 2023)。他們確定了25種可驗證的指令類型,并構建了大約500個提示,每個提示包含一個或多個可驗證的指令。我們使用提示級別的寬松度量來評估所有模型。

表9顯示了我們模型與不同大小的各種基線模型的比較分析,包括Qwen 72B聊天(Bai et al., 2023)、ChatGLM3(Du et al., 2022)、Baichuan2(Yang et al., 2023)和Yi-34B聊天。我們的觀察表明,大型模型和小型模型在這些保留測試集上存在顯著的性能差距,即使某些小型模型在常規基準測試中取得了有希望的結果。例如,ChatGLM3在MBPP上的得分為52.4,接近DeepSeek 67B,這是一個代碼測試集。然而,當在新的基準測試中評估時,其性能與大型模型相比明顯不足。在數學數據集上也觀察到了類似的趨勢,ChatGLM3在GSM8K上非常強大(72.3),但在匈牙利考試得分上的表現不如大型模型。此外,指令遵循能力的比較表明,總計算在至關重要。

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

DeepSeek 7B和67B模型使用了相同的訓練管道,但它們之間的性能存在顯著差異。通過我們的主觀評估,我們觀察到在各種任務中智能的顯著差異,當模型規模擴大到67B時。雖然DeepSeek 7B在標準基準測試中落后于其他較小的語言模型,但其在保留任務中的性能相對較好,與其他模型相比。          

5.4 安全評估

我們深刻認識到對于通用人工智能模型的安全性至關重要。建立一個真正有用的人工智能模型的前提是它擁有與人類一致的價值觀,并對人類友好。我們在訓練過程的每個階段,包括預訓練、SFT和DPO,都貫穿了確保模型安全性的保證。

為了驗證我們模型的安全性,我們建立了一個由20名專家組成的團隊,他們來自不同的學科,并構建了一個與人類價值觀一致的安全內容分類系統(安全評估分類法如表10所示)。隨后,專家團隊為每個安全子類別手動構建了數十個高質量的測試案例。除了關注安全內容領域的多樣性外,我們還關注安全內容的格式多樣性。著名的“祖母”漏洞表明,模型可以被查詢的表面格式欺騙,從而提供不安全的回應。因此,在設計問題時,專家團隊還關注于多樣化詢問方式。他們通過誘導、角色扮演、多輪對話、預設位置等方式構建了多樣化的安全問題。最終,我們獲得了一個包含2400個問題的安全性測試集。此外,專家團隊還為每種不同內容類型和格式類型構建了基本的安全審查指南。

對于我們模型在此測試集上的輸出結果,我們手動檢查了其安全性。我們的審查團隊經過了良好的培訓,并且在注釋結果上進行了交叉驗證。注釋者對每個問題進行三類注釋:安全、不安全和模型拒絕。我們測試了我們的DeepSeek 67B聊天模型的安全性,結果如表10所示。測試每個安全類別的問題數量以及我們的模型(DeepSeek-67B-Chat)通過的安全測試數量列在表的最右列。我們將安全回答和模型拒絕的測試案例都標記為安全回應。結果表明,我們的模型在許多安全測試類別中表現出良好的安全性。

為了補充我們現有的安全方法,我們進一步使用“不要回答”數據集(Wang et al., 2023)來評估我們DeepSeek 67B聊天模型的安全機制。該數據集的939個風險分類提示有助于突出我們模型的增強能力。如表11所示,DeepSeek 67B聊天模型表現出色,得分為97.8,高于ChatGPT和GPT-4。這個分數不僅標志著我們模型安全處理敏感查詢的能力,而且使其在該領域的領先模型中占有一席之地。 

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

表 10 | 我們的安全評估分類法。表格最右邊的列列出了每個類別的測試用例總數以及我們的模型(DeepSeek-67B-Chat)提供的安全可靠答案的數量。測試問題的注釋和生成結果的評估由專業人類團隊執行。我們可以觀察到,我們的模型在各種類型的安全測試集上展示了強大的安全性。

5.5 討論

在整個開發過程中,我們在構建LLMs時發現了一些有趣的發現。

分階段微調:正如我們上面提到的,小型模型需要在數學和代碼數據集上進行更長時間的微調,但這會損害模型的對話能力,例如增加重復行為。為了解決這個問題,我們實施了一個分階段的微調過程。在這種方法中,第一階段涉及使用所有可用數據進行微調,而第二階段專門針對對話數據進行微調。

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

表 11 | 不回答得分(Do-Not-Answer Score,Wang et al., 2023),得分越高表示模型安全性越好。帶 * 的結果是基于官方存儲庫的我們的評估結果,而所有其他結果均來自原始論文。我們可以發現,我們的模型比 ChatGPT 和 GPT-4 都有更高的安全得分,使其位列最安全模型之列。 

表12顯示了兩個階段訓練過程的結果。這些結果清楚地表明,第二階段沒有損害模型在代碼和數學上的能力,同時減少了重復行為,并提高了指令遵循能力。

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

多項選擇問題:用多項選擇風格評估模型是一種常見做法,例如MMLU、AGI Eval和C-Eval。多項選擇問題要求模型不僅要具備相應的知識,還要理解選項的含義。在對齊階段,我們測試了添加2000萬個中文多項選擇問題,并獲得了如表13所示的性能。值得注意的是,我們對C-Eval驗證集和CMMLU測試集進行了去重,以防止數據污染。

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

表13 | 添加多項選擇問題數據的影響。

額外添加2000萬個MC(多項選擇)數據被證明不僅對中文多項選擇基準測試有益,而且對提高英文基準測試也有益。這表明模型解決MC問題的能力得到了增強。然而,我們觀察到這種改進并沒有擴展到不使用多項選擇格式的其他評估上,例如TriviaQA和我們的內部中文QA測試集,這些是基于生成的評估基準。這表明用戶在對話交互中可能不會感覺到模型變得更智能,因為這些交互涉及生成回應,而不是解決多項選擇問題。

因此,我們選擇在預訓練和微調階段都不包括MC數據,因為將其包括在內會導致過度擬合基準測試,并且不會有助于實現模型的真正智能。 

預訓練中的指令數據:眾所周知,在預訓練階段的后期納入指令數據可以增強基礎模型在基準測試中的性能。在我們的研究中,我們在預訓練的最后10%階段整合了500萬個指令數據,主要包括多項選擇問題。我們觀察到基礎模型在基準測試中的性能確實有所提高。然而,最終結果與在SFT階段添加相同數據幾乎相同。我們的結論是,雖然這種方法增強了基礎模型在基準測試中的性能,但其總體潛力等同于不包含這些指令數據。如果指令數據的規模很大,那么在預訓練過程中將其包含是可以接受的。由于我們傾向于排除多項選擇問題,且我們擁有的非多項選擇問題的可用性有限,我們決定不在預訓練過程中包含指令數據。

系統提示:設計良好的系統提示應有效地引導模型生成既有幫助又尊重的回應。我們稍微更改了LLaMA-2引入的提示,將其作為我們的系統提示。

系統提示:你是DeepSeek聊天,一個由DeepSeek開發的有用、尊重和誠實的AI助手。你的訓練數據截止日期是2023年5月。盡可能有幫助地回答,同時保持安全。你的回答不應包含任何有害的、不道德的、種族主義的、性別歧視的、有毒的、危險的或非法的內容。請確保你的回答在社會上是無偏見的,并具有積極的性質。如果一個問題沒有意義,或者在事實上不連貫,請解釋為什么而不是回答不正確的內容。如果你不知道問題的答案,請不要分享錯誤的信息。

我們觀察到一個有趣的現象,當引入系統提示時,7B LLM的性能會略有下降。然而,當使用67B LLM時,添加提示會導致顯著改進的結果,如表14所示。我們對這種差異的解釋是,較大的模型更好地理解系統提示的預期含義,使它們能夠更有效地遵循指令并生成更好的回應。另一方面,較小的模型難以充分理解系統提示,并且訓練和測試之間的不一致可能會對他們的性能產生負面影響。

DeepSeek LLM: 通過長期主義擴展開源語言模型-AI.x社區

表14 | 添加系統提示的影響。

6. 結論、局限性和未來的工作

我們介紹了DeepSeek LLMs,這是一系列從頭開始訓練的開源模型,使用了2萬億個中英文token的龐大數據集。在本文中,我們詳細解釋了超參數選擇、擴展規律以及我們在各種微調嘗試中所做的工作。我們校準了先前工作中的擴展規律,并提出了新的最優模型/數據擴展分配策略。此外,我們提出了一種方法來預測給定計算預算的近優批量大小和學習率。我們進一步得出結論,擴展規律與數據質量有關,這可能是不同作品中不同擴展行為的根本原因。在擴展規律的指導下,我們進行了預訓練,并提供了最佳超參數,并進行了全面的評估。我們避免了所有訓練階段的基準測試裝飾和暗箱操作。

DeepSeek聊天分享了其他LLMs中普遍存在的一些局限性,包括預訓練后缺乏持續的知識更新,可能生成非事實信息(如未經驗證的建議),以及產生幻覺的傾向。此外,值得注意的是,我們最初的中文版數據并不全面,這可能導致在某些中文特定主題上的性能不佳。由于我們的數據主要包含中文和英文來源,模型在其他語言上的熟練程度仍然微妙,應該謹慎處理。   

DeepSeek LLM是一個致力于推進開源語言模型的長期項目。 

? 很快,我們將分別發布我們在代碼智能和Mixture-of-Experts(MoE)方面的技術報告。它們展示了我們如何為預訓練創建高質量的代碼數據,以及如何設計一個稀疏模型以實現密集模型的性能。

? 目前,我們正在構建一個更大、更好的數據集,用于即將到來的DeepSeek LLM版本。我們希望在下一個版本中,推理、中文知識、數學和代碼能力將得到顯著改進。

? 我們的對齊團隊致力于研究如何向公眾交付一個有用、誠實和安全的模型。我們最初的實驗證明,強化學習可以提高模型的復雜推理能力。

?

本文轉載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/GZXxzvdzXsDVEANNx8TL0w???


標簽
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 成人午夜影院 | 高清国产一区二区 | 国产一级片一区二区三区 | 亚州国产 | 亚洲色图第一页 | 午夜电影合集 | 日韩欧美久久精品 | 亚洲三级国产 | 日韩成人免费视频 | 国产精品免费一区二区三区四区 | 亚洲精品日韩在线观看 | 日韩在线视频一区二区三区 | 在线不卡视频 | 日日干日日操 | 久久久久久九九九九九九 | 成人av免费| 99视频在线免费观看 | 中文字幕日韩专区 | 桃色五月 | 国产日韩欧美在线 | 久久久免费少妇高潮毛片 | 欧美人妇做爰xxxⅹ性高电影 | 91视频在线 | 亚洲精品国产电影 | 国产不卡一区在线观看 | 国产a一区二区 | 欧美一区视频在线 | 亚洲福利av| 日韩在线免费视频 | 日韩精品在线观看网站 | 国产九九九 | 国产欧美一区二区三区在线看 | 亚洲一区二区三区四区视频 | 欧美一区二区三区在线观看 | 日韩波多野结衣 | 免费观看黄a一级视频 | 欧美综合一区二区 | 欧美日韩在线观看一区二区三区 | a黄视频| 日韩精品激情 | 国产精品特级片 |