AMD開源30億小參數(shù)模型,媲美Qwen-2.5
AMD在官網(wǎng)開源了最新小參數(shù)模型Instella-3B。比較特別的是,這是一個基AMD Instinct? MI300X GPU從頭訓練的模型。
根據(jù)測試數(shù)據(jù)顯示,Instella-3B的性能超過了Llama-3.2-3B、Gemma-2-2B,可以媲美阿里開源的Qwen-2.5-3B,這也證明了AMD的GPU也能訓練出高性能的大模型。
開源地址:https://huggingface.co/amd/Instella-3B
Instella-3B-SFT是經(jīng)過監(jiān)督微調(diào)的模型,使用了89.02億tokens的數(shù)據(jù),增強了遵循指令的能力。Instella-3B-Instruct則是經(jīng)過直接偏好優(yōu)化的模型,使用了7.6億tokens的數(shù)據(jù),使模型的輸出更符合人類偏好,增強了聊天能力。
架構(gòu)方面,Instella模型是基于文本的自回歸Transformer架構(gòu),擁有30億參數(shù),包含36個解碼器層,每層有32個注意力頭,支持最長4096tokens的序列長度,詞匯量約為50,000tokens。
在預訓練和微調(diào)過程中,AMD使用了FlashAttention-2、Torch Compile和bfloat16混合精度訓練,以減少內(nèi)存使用,提高計算速度和資源利用率。此外,AMD還采用了全分片數(shù)據(jù)并行(FSDP)與混合分片技術(shù),以平衡集群內(nèi)節(jié)點間的內(nèi)存效率和節(jié)點內(nèi)通信開銷。
Instella模型的訓練分為四個階段,每個階段都逐步增強了模型從基礎(chǔ)自然語言理解到遵循指令以及與人類偏好對齊的能力。在第一階段預訓練中,AMD使用了4.065萬億tokens的數(shù)據(jù),這些數(shù)據(jù)來自O(shè)LMoE-mix-0924,是一個涵蓋編碼、學術(shù)、數(shù)學和網(wǎng)絡(luò)爬取等領(lǐng)域的高質(zhì)量數(shù)據(jù)集組合。這一階段為Instella模型奠定了自然語言理解的基礎(chǔ)。
在第二階段預訓練中,AMD在第一階段的基礎(chǔ)上進一步訓練了模型,使用了額外的575.75億tokens的數(shù)據(jù),這些數(shù)據(jù)來自多個高質(zhì)量和多樣化的數(shù)據(jù)集,包括Dolmino-Mix-1124、SmolLM-Corpus(python-edu)、Deepmind Mathematics以及對話數(shù)據(jù)集等。
此外,AMD還使用了內(nèi)部合成數(shù)據(jù)集,專注于數(shù)學問題。這些合成數(shù)據(jù)是通過使用GSM8k數(shù)據(jù)集的訓練集生成的,通過抽象數(shù)值、生成Python程序解決問題,并替換數(shù)值以生成新的問題-答案對。這一階段的訓練使Instella-3B模型在多個基準測試中表現(xiàn)出色,與現(xiàn)有的先進開源權(quán)重模型相比具有競爭力。
在指令微調(diào)階段,AMD使用Instella-3B作為基礎(chǔ)模型,使用89億tokens的高質(zhì)量指令-響應對數(shù)據(jù)進行了三個周期的訓練,以增強模型在交互式環(huán)境中的表現(xiàn),使其更適合執(zhí)行用戶指令的任務(wù)。訓練數(shù)據(jù)來自多個任務(wù)和領(lǐng)域的精選數(shù)據(jù)集,確保模型能夠泛化各種指令類型。
在最后的對齊階段,AMD使用直接偏好優(yōu)化(DPO)技術(shù),以Instella-3B-SFT為基礎(chǔ)模型,使用7.6億tokens的數(shù)據(jù)進行了訓練,以確保模型的輸出符合人類價值觀和期望,從而提高其輸出的質(zhì)量和可靠性。
Instella-3B在多個基準測試中超越了現(xiàn)有的全開源模型,并且與阿里開源的Qwen-2.5-3B能力差不多。例如,在MMLU、BBH和GSM8k等基準測試中,Instella-3B模型的表現(xiàn)優(yōu)于Llama-3.2-3B和Gemma-2-2B等模型。
經(jīng)過指令微調(diào)和對齊后的Instella-3B-Instruct模型在指令遵循任務(wù)和多輪問答任務(wù)中表現(xiàn)出色,同時在訓練數(shù)據(jù)量上更少。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
原文鏈接:??https://mp.weixin.qq.com/s/UefvMir-v6Bzc--TDIyBaA??
