INTELLECT-1:全球首個(gè)去中心化訓(xùn)練的 10B 參數(shù)大模型
近日,Prime Intellect 團(tuán)隊(duì)發(fā)布了全球首個(gè)由全球協(xié)作訓(xùn)練的 10B 參數(shù)語(yǔ)言模型——INTELLECT-1 。這一突破性成果不僅標(biāo)志著大規(guī)模模型訓(xùn)練不再局限于大型企業(yè),而是可以通過(guò)分布式、社區(qū)驅(qū)動(dòng)的方式實(shí)現(xiàn),為未來(lái)的 AI 發(fā)展開(kāi)辟了新的道路。
項(xiàng)目亮點(diǎn)
INTELLECT-1 的成功訓(xùn)練涉及五大洲、五個(gè)國(guó)家,同時(shí)使用了 112 臺(tái)H100 GPU,由全球 30 位貢獻(xiàn)者共同完成。這一壯舉不僅展示了分布式訓(xùn)練的巨大潛力,還實(shí)現(xiàn)了高計(jì)算利用率:在美國(guó)境內(nèi)達(dá)到 96%,跨洋訓(xùn)練也有 83%的效率,整個(gè)訓(xùn)練過(guò)程僅耗時(shí) 42 天。
技術(shù)細(xì)節(jié)
INTELLECT-1 基于 Llama-3 架構(gòu),擁有 42 層、 4,096 個(gè)隱藏維度、 32 個(gè)注意力頭和 8,192 的序列長(zhǎng)度。模型訓(xùn)練使用了 1萬(wàn)億個(gè) token 的數(shù)據(jù)集,包括 FineWeb-Edu 、Stack v2 等多種數(shù)據(jù)源。
Prime Intellect 團(tuán)隊(duì)開(kāi)發(fā)的 PRIME 框架是這一項(xiàng)目的核心。該框架包括ElasticDeviceMesh,用于動(dòng)態(tài)管理全球和本地進(jìn)程組,確保通信的容錯(cuò)性;還實(shí)現(xiàn)了 live checkpoint recovery 和hybrid DiLoCo-FSDP2,大幅降低了通信帶寬需求。
同時(shí),Prime Intellect 慷慨的開(kāi)源了所有相關(guān)資源:
- 詳細(xì)技術(shù)報(bào)告:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf
- INTELLECT-1 基礎(chǔ)模型、檢查點(diǎn)和后訓(xùn)練模型:https://huggingface.co/PrimeIntellect/INTELLECT-1-Instruct
在線聊天體驗(yàn):https://chat.primeintellect.ai/,
- 預(yù)訓(xùn)練數(shù)據(jù)集:https://huggingface.co/collections/PrimeIntellect/intellect-1-dataset-6704f3d3a9dee8678da3d407
- 后訓(xùn)練數(shù)據(jù)集:https://huggingface.co/datasets/arcee-ai/EvolKit-75K
- PRIME 框架:https://github.com/PrimeIntellect-ai/prime
小結(jié)
開(kāi)放、去中心是模型民主化的最重要的一步,INTELLECT-1 已經(jīng)做到了。我們期待Prime Intellect 能夠進(jìn)一步優(yōu)化分布式訓(xùn)練架構(gòu),跟上主流模型的模型性能表現(xiàn),更早落地應(yīng)用。
本文轉(zhuǎn)載自AI工程化,作者: ully ????
