騰訊混元宣布大語(yǔ)言模型和3D模型正式開源 ?
騰訊混元大模型正在加快開源步伐。
11月5日,騰訊混元宣布最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”正式開源,支持企業(yè)及開發(fā)者精調(diào)、部署等不同場(chǎng)景的使用需求,可在HuggingFace、Github等技術(shù)社區(qū)直接下載,免費(fèi)可商用。
本次開源是騰訊混元繼文生圖模型后持續(xù)開放的一大舉措。其中,騰訊混元Large是目前開源領(lǐng)域參數(shù)規(guī)模最大、效果最好的MoE模型,而騰訊混元3D生成大模型則是業(yè)界首個(gè)同時(shí)支持文字、圖像生成3D的開源大模型。兩個(gè)模型均屬騰訊自研,在架構(gòu)、算法、數(shù)據(jù)等方面有獨(dú)特創(chuàng)新,填補(bǔ)了行業(yè)空白。目前,兩個(gè)模型均已經(jīng)在騰訊業(yè)務(wù)場(chǎng)景中落地應(yīng)用,經(jīng)過(guò)實(shí)踐的檢驗(yàn),是面向?qū)嵱脠?chǎng)景的應(yīng)用級(jí)大模型。
當(dāng)天,騰訊云TI平臺(tái)和高性能應(yīng)用服務(wù)HAI也開放接入這兩個(gè)模型,為模型的精調(diào)、API調(diào)用及私有化部署提供一站式服務(wù)。
堅(jiān)持MoE架構(gòu),模型持續(xù)升級(jí)開放
騰訊混元Large模型總參數(shù)量 389B,激活參數(shù)量 52B ,上下文長(zhǎng)度高達(dá)256K,公開測(cè)評(píng)結(jié)果顯示,騰訊混元Large 在CMMLU、MMLU、CEval、MATH等多學(xué)科綜合評(píng)測(cè)集以及中英文NLP任務(wù)、代碼和數(shù)學(xué)等9大維度全面領(lǐng)先,超過(guò)Llama3.1、Mixtral等一流的開源大模型。
騰訊混元Large 在各類測(cè)試集上得分領(lǐng)先現(xiàn)有主流開源模型
MoE(Mixture of Experts),即混合專家模型,是目前國(guó)內(nèi)外主流的大模型結(jié)構(gòu)。2024年年初,騰訊混元就宣布在國(guó)內(nèi)率先采用MoE架構(gòu)模型,總體性能比上一代Dense模型提升50%。此后,騰訊混元推出基于 MoE 架構(gòu)的多模態(tài)理解大模型以及基礎(chǔ)模型"混元turbo",在性能、效果、速度等多個(gè)領(lǐng)域表現(xiàn)優(yōu)越,第三方測(cè)評(píng)居國(guó)內(nèi)大模型第一。
在模型結(jié)構(gòu)和訓(xùn)練策略方面,騰訊混元Large全面探索了MoE ScalingLaw,進(jìn)行了MoE共享專家路由、回收路由等策略上的創(chuàng)新,并引入了專家特化的學(xué)習(xí)率適配訓(xùn)練策略,有效提升不同專家利用率和穩(wěn)定性,帶來(lái)模型效果的提升。
騰訊混元Large在Post-Train方面做了大量創(chuàng)新優(yōu)化。面對(duì)SFT通用領(lǐng)域繁多,數(shù)學(xué)、代碼高質(zhì)量指令數(shù)據(jù)獲取困難,業(yè)界廣泛采用的離線DPO,強(qiáng)化策略效果上限不高,泛化性弱等挑戰(zhàn),騰訊混元Large模型分門別類提升數(shù)學(xué)、邏輯推理、代碼等能力,另外在一階段離線DPO的基礎(chǔ)上引入了二階段在線強(qiáng)化策略。
數(shù)據(jù)方面,騰訊混元Large構(gòu)建了覆蓋數(shù)十個(gè)類目,高質(zhì)量、高多樣性、大量級(jí)的中英文合成數(shù)據(jù),顯著提升模型效果,其中數(shù)學(xué)和代碼效果提升超過(guò)10%。 針對(duì)長(zhǎng)文領(lǐng)域測(cè)評(píng)數(shù)據(jù)集缺乏,方法不夠客觀等問(wèn)題,騰訊混元Large還基于公開數(shù)據(jù),構(gòu)建了一套完整覆蓋長(zhǎng)文閱讀理解、多文檔摘要總結(jié)、長(zhǎng)文邏輯推理等領(lǐng)域任務(wù)的數(shù)據(jù)集企鵝卷軸(PenguinScrolls),并將對(duì)外開放,助力大模型長(zhǎng)文方向的技術(shù)研究。
騰訊混元Large模型專項(xiàng)提升的長(zhǎng)文能力已經(jīng)應(yīng)用到騰訊AI助手騰訊元寶上,最大支持256K上下文,相當(dāng)于一本《三國(guó)演義》的長(zhǎng)度,可以一次性處理上傳最多10個(gè)文檔,并能夠一次性解析多個(gè)微信公眾號(hào)鏈接、網(wǎng)址,讓騰訊元寶具備獨(dú)有的深度解析能力。
工程平臺(tái)方面,騰訊混元Large模型由騰訊自研,其訓(xùn)練和推理均基于騰訊Angel機(jī)器學(xué)習(xí)平臺(tái)。其中,針對(duì) MoE 模型通信效率問(wèn)題,Angel訓(xùn)練加速框架AngelPTM實(shí)現(xiàn)了多項(xiàng)技術(shù)優(yōu)化,性能是主流開源框架DeepSpeed的2.6倍;針對(duì)模型推理加速,騰訊Angel機(jī)器學(xué)習(xí)平臺(tái)和騰訊云智能聯(lián)合研發(fā) AngelHCF-vLLM框架,在最大限度保障精度的條件下,可節(jié)省50%以上顯存,相比于業(yè)界主流的框架BF16吞吐提升1倍以上。
騰訊混元Large 模型已同步上架騰訊云 TI平臺(tái)。TI 平臺(tái)具備實(shí)戰(zhàn)型大模型精調(diào)工具鏈,提供靈活的大模型訓(xùn)練數(shù)據(jù)標(biāo)注能力和開源的數(shù)據(jù)構(gòu)建Pipeline,內(nèi)置 Angel訓(xùn)練和推理加速能力,支持一鍵啟動(dòng)混元Large精調(diào),幫助用戶訓(xùn)練出真正滿足業(yè)務(wù)需求的專屬大模型,提升研發(fā)效率。
同時(shí),騰訊混元大模型 PaaS平臺(tái)開放支持包含混元 Large 模型在內(nèi)的十余種混元API 服務(wù)調(diào)用,可滿足文生文、圖生文、文生圖等不同模態(tài)以及角色扮演、FunctionCall、代碼等不同專項(xiàng)的模型需求。
業(yè)界首個(gè)同時(shí)支持文字、圖像生成3D的開源大模型
騰訊混元3D生成大模型首批開源模型包含輕量版和標(biāo)準(zhǔn)版,輕量版僅需10s即可生成高質(zhì)量3D資產(chǎn),目前已在技術(shù)社區(qū)公開發(fā)布,包含模型權(quán)重、推理代碼、模型算法等完整模型,可供開發(fā)者、研究者等各類用戶免費(fèi)使用。
騰訊混元Hunyuan3D-1.0 模型也已上架到騰訊云HAI,通過(guò)HAI上更高性價(jià)比的GPU算力、模型一鍵部署能力和可視化圖形界面WebUI,有效降低模型開放和部署門檻。
此次騰訊混元開源的3D生成大模型 Hunyuan3D-1.0 ,解決了現(xiàn)有的3D生成模型在生成速度和泛化能力上存在不足的問(wèn)題,可以幫助 3D 創(chuàng)作者和藝術(shù)家自動(dòng)化生產(chǎn) 3D 資產(chǎn)。該模型具有強(qiáng)大泛化能力和可控性,可重建各類尺度物體,大到建筑,小到工具花草。經(jīng)過(guò)定性、定量多個(gè)維度的評(píng)估,騰訊混元3D生成大模型的生成質(zhì)量已達(dá)到開源模型的先進(jìn)水平。
在兩個(gè)公開的3D數(shù)據(jù)集 GSO 與 OmniObject3D 上,騰訊混元Hunyuan3D-1.0 效果優(yōu)于主流開源模型,整體能力屬于國(guó)際領(lǐng)先水平。從定性角度評(píng)估,Hunyuan3D-1.0 與行業(yè)領(lǐng)先的開源模型的 3D 生成效果表現(xiàn)對(duì)比也顯示出較高水平,包括幾何細(xì)節(jié)、紋理細(xì)節(jié)、紋理-幾何一致性、3D合理性、指令遵循等評(píng)價(jià)維度。
應(yīng)用上,3D生成相關(guān)技術(shù)已經(jīng)開始應(yīng)用于UGC 3D創(chuàng)作、商品素材合成、游戲3D資產(chǎn)生成等騰訊業(yè)務(wù)中。其中,騰訊地圖基于騰訊混元3D大模型,發(fā)布了自定義3D導(dǎo)航車標(biāo)功能,支持用戶創(chuàng)作個(gè)性化的 3D 導(dǎo)航車標(biāo),相比傳統(tǒng)的3D車標(biāo)重建方案,速度提升了91%。此前,騰訊元寶 APP 也上線了”3D 角色夢(mèng)工廠“玩法,支持個(gè)性化的 UGC 3D 人物生成。
隨著自研大模型技術(shù)強(qiáng)大的和應(yīng)用實(shí)踐經(jīng)驗(yàn)的豐富,開源已經(jīng)成為騰訊混元大模型的一個(gè)戰(zhàn)略選擇,未來(lái),騰訊混元也將繼續(xù)帶來(lái)更多模態(tài)、更多尺寸的開源模型,將更多經(jīng)過(guò)騰訊業(yè)務(wù)場(chǎng)景打磨和檢驗(yàn)的模型開源,促進(jìn)大模型技術(shù)進(jìn)步和行業(yè)生態(tài)繁榮。
附:騰訊混元Large訪問(wèn)地址
官網(wǎng)地址:https://llm.hunyuan.tencent.com/
Github地址:
https://github.com/Tencent/Tencent-Hunyuan-Large
Hugging Face 地址:
https://huggingface.co/tencent/Tencent-Hunyuan-Large
附:騰訊3D模型訪問(wèn)地址
官網(wǎng)地址:https://3d.hunyuan.tencent.com/
Github 地址:https://github.com/Tencent/Hunyuan3D-1
Hugging Face 模型地址:https://huggingface.co/tencent/Hunyuan3D-1