成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AMD開源30億小參數(shù)模型,媲美Qwen-2.5

發(fā)布于 2025-3-19 12:06
瀏覽
0收藏

AMD在官網(wǎng)開源了最新小參數(shù)模型Instella-3B。比較特別的是,這是一個基AMD Instinct? MI300X GPU從頭訓練的模型。


根據(jù)測試數(shù)據(jù)顯示,Instella-3B的性能超過了Llama-3.2-3B、Gemma-2-2B,可以媲美阿里開源的Qwen-2.5-3B,這也證明了AMD的GPU也能訓練出高性能的大模型。

AMD開源30億小參數(shù)模型,媲美Qwen-2.5-AI.x社區(qū)

開源地址:https://huggingface.co/amd/Instella-3B


Instella-3B-SFT是經(jīng)過監(jiān)督微調(diào)的模型,使用了89.02億tokens的數(shù)據(jù),增強了遵循指令的能力。Instella-3B-Instruct則是經(jīng)過直接偏好優(yōu)化的模型,使用了7.6億tokens的數(shù)據(jù),使模型的輸出更符合人類偏好,增強了聊天能力。


架構(gòu)方面,Instella模型是基于文本的自回歸Transformer架構(gòu),擁有30億參數(shù),包含36個解碼器層,每層有32個注意力頭,支持最長4096tokens的序列長度,詞匯量約為50,000tokens。


在預訓練和微調(diào)過程中,AMD使用了FlashAttention-2、Torch Compile和bfloat16混合精度訓練,以減少內(nèi)存使用,提高計算速度和資源利用率。此外,AMD還采用了全分片數(shù)據(jù)并行(FSDP)與混合分片技術(shù),以平衡集群內(nèi)節(jié)點間的內(nèi)存效率和節(jié)點內(nèi)通信開銷。

AMD開源30億小參數(shù)模型,媲美Qwen-2.5-AI.x社區(qū)

Instella模型的訓練分為四個階段,每個階段都逐步增強了模型從基礎(chǔ)自然語言理解到遵循指令以及與人類偏好對齊的能力。在第一階段預訓練中,AMD使用了4.065萬億tokens的數(shù)據(jù),這些數(shù)據(jù)來自O(shè)LMoE-mix-0924,是一個涵蓋編碼、學術(shù)、數(shù)學和網(wǎng)絡(luò)爬取等領(lǐng)域的高質(zhì)量數(shù)據(jù)集組合。這一階段為Instella模型奠定了自然語言理解的基礎(chǔ)。


在第二階段預訓練中,AMD在第一階段的基礎(chǔ)上進一步訓練了模型,使用了額外的575.75億tokens的數(shù)據(jù),這些數(shù)據(jù)來自多個高質(zhì)量和多樣化的數(shù)據(jù)集,包括Dolmino-Mix-1124、SmolLM-Corpus(python-edu)、Deepmind Mathematics以及對話數(shù)據(jù)集等。

AMD開源30億小參數(shù)模型,媲美Qwen-2.5-AI.x社區(qū)

此外,AMD還使用了內(nèi)部合成數(shù)據(jù)集,專注于數(shù)學問題。這些合成數(shù)據(jù)是通過使用GSM8k數(shù)據(jù)集的訓練集生成的,通過抽象數(shù)值、生成Python程序解決問題,并替換數(shù)值以生成新的問題-答案對。這一階段的訓練使Instella-3B模型在多個基準測試中表現(xiàn)出色,與現(xiàn)有的先進開源權(quán)重模型相比具有競爭力。


在指令微調(diào)階段,AMD使用Instella-3B作為基礎(chǔ)模型,使用89億tokens的高質(zhì)量指令-響應對數(shù)據(jù)進行了三個周期的訓練,以增強模型在交互式環(huán)境中的表現(xiàn),使其更適合執(zhí)行用戶指令的任務(wù)。訓練數(shù)據(jù)來自多個任務(wù)和領(lǐng)域的精選數(shù)據(jù)集,確保模型能夠泛化各種指令類型。


在最后的對齊階段,AMD使用直接偏好優(yōu)化(DPO)技術(shù),以Instella-3B-SFT為基礎(chǔ)模型,使用7.6億tokens的數(shù)據(jù)進行了訓練,以確保模型的輸出符合人類價值觀和期望,從而提高其輸出的質(zhì)量和可靠性。


Instella-3B在多個基準測試中超越了現(xiàn)有的全開源模型,并且與阿里開源的Qwen-2.5-3B能力差不多。例如,在MMLU、BBH和GSM8k等基準測試中,Instella-3B模型的表現(xiàn)優(yōu)于Llama-3.2-3B和Gemma-2-2B等模型。

AMD開源30億小參數(shù)模型,媲美Qwen-2.5-AI.x社區(qū)

經(jīng)過指令微調(diào)和對齊后的Instella-3B-Instruct模型在指令遵循任務(wù)和多輪問答任務(wù)中表現(xiàn)出色,同時在訓練數(shù)據(jù)量上更少。


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/UefvMir-v6Bzc--TDIyBaA??


已于2025-3-19 13:30:32修改
收藏
回復
舉報
回復
相關(guān)推薦
主站蜘蛛池模板: 国产亚洲精品综合一区 | 国产精品视频播放 | 91精品国产一区二区三区 | 最新免费视频 | 亚洲一区综合 | 亚洲欧洲一区 | 亚洲精品99 | 久久久久久黄 | 在线观看视频一区二区三区 | 一区视频在线 | 国产激情网站 | 97视频在线观看网站 | 久久精品视频在线免费观看 | 91美女在线观看 | 911精品美国片911久久久 | 成人a视频片观看免费 | 久久夜视频| 久久久久久国产精品 | 中文字幕在线网 | 中文字幕一区二区三区在线观看 | 成人三级网址 | 欧美在线观看网站 | 在线看h| 国产成人叼嘿视频在线观看 | 一区二区三区国产精品 | 国产一区不卡在线观看 | 国产精品视频一区二区三区四蜜臂 | 国产在线视频在线观看 | 一区二区三区福利视频 | 久久免费精品 | 亚洲一二三区在线观看 | 日美女逼逼 | 精品二区 | 国产精品久久久久久久久久久久久 | 午夜激情视频 | 天天干狠狠干 | 久久天堂| 亚洲成人免费视频在线观看 | 日本视频免费观看 | 欧美性生活网 | 欧美日韩成人一区二区 |