成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

騰訊放大招,超Meta!史上參數最大,開源專家混合模型

發布于 2024-11-6 09:58
瀏覽
0收藏

開源大模型領域迎又來一位重磅玩家——騰訊。


騰訊一出手就是個超大模型,開源的Hunyuan-Large是目前市面上最大基于 Transformer架構的專家混合(MoE)模型。一共有3890 億參數,其中激活參數為 520 億,具備處理長達256K上下文能力。


根據騰訊公開測試數據顯示,Hunyuan-Large不僅超過了社交巨頭Meta開源的最新、最大模型LLama3.1 - 405B,并且在激活參數數量顯著減少的情況下,實現了高達3.2%的性能提升。在數學、日常推理、文本生成等方面非常優秀。


開源地址:https://github.com/Tencent/Tencent-Hunyuan-Large

huggingface:https://huggingface.co/tencent/Tencent-Hunyuan-Large

云開發平臺:https://cloud.tencent.com/document/product/851/112032

騰訊放大招,超Meta!史上參數最大,開源專家混合模型-AI.x社區

Hunyuan-Large采用了高效的MoE結構,使用多個專家替換了Transformer中的原始前饋網絡。在訓練過程中,只有一小部分專家會被激活,這樣的設計使得模型能夠更加高效地進行訓練和推理。


一共包含共享專家和專用專家兩種模式,不僅能夠捕捉所有token所需的共同知識,還能夠動態學習特定領域的知識。同時Hunyuan-Large還開發了一種新的回收路由策略,用于處理在原始top-k路由過程中被丟棄的token。這種策略通過將這些token重新分配給未超過容量的其他專家,以優化訓練效率和穩定性。


Hunyuan-Large還對KV緩存進行了創新,使用了壓縮技術。在傳統的Transformer架構中,每層都會維護一個用于存儲先前計算出的鍵值對的緩存,這對于支持長序列輸入非常必要。但隨著序列長度的增長,這種緩存機制會導致巨大的內存開銷。


而KV緩存壓縮技術通過減少KV緩存的存儲需求來降低內存占用,同時保持了模型對于長序列處理的能力,可以有效地減少鍵值對的存儲空間,而不犧牲準確性或速度。即使面對非常長的文本輸入,模型也能高效運行,不會因為內存限制而受到阻礙。

騰訊放大招,超Meta!史上參數最大,開源專家混合模型-AI.x社區

在專家特定的學習率縮放方面,Hunyuan-Large采用了AdamW作為優化器,并根據批量大小調整學習率。根據最新的研究,對于Adam風格的優化器,最佳學習率與批量大小之間的關系有了新的理解。Hunyuan-Large根據每個專家在單次迭代中處理的token數量不同,為不同專家分配了不同的學習率,以優化訓練效率。


訓練數據方面,Hunyuan-Large一共使用了7萬億token數據進行了預訓練,其中包括近1.5萬億的高質量和多樣化的合成數據。這些合成數據的生成過程涉及四個關鍵步驟:指令生成、指令演化、響應生成和響應過濾。


在指令生成階段,利用高質量的數據源,如網頁、問答數據、代碼庫、書籍等,配合多樣化的指令生成提示,生成覆蓋多個領域的多樣化指令。在指令演化階段,通過增強指令的清晰度和信息量、擴展低資源領域指令以及增加指令難度等手段,進一步提升指令的質量。


響應生成階段則利用多個專業化模型為這些演化后的指令生成信息豐富、準確的答案。最后,在響應過濾階段,通過批評模型和自一致性檢查,確保合成的指令-響應對的質量,有效去除低質量或不一致的數據。

騰訊放大招,超Meta!史上參數最大,開源專家混合模型-AI.x社區

在Hunyuan-Large的訓練過程中,學習率調度扮演了至關重要的作用,一共分為三個階段:初始的預熱階段、隨后的逐漸衰減階段,以及最后的退火階段。這種設計使得模型能夠在初始階段有效地探索解空間,避免過早收斂到次優的局部最小值。隨著訓練的進行,學習率的逐漸降低確保了模型能夠向更優解收斂。


在預訓練的最后5%階段,Hunyuan-Large引入了退火階段,將學習率降低到峰值的十分之一。這有助于模型細致地調整參數,實現更高的泛化能力,從而提升整體性能。在這個階段,模型優先使用最高質量的數據集,這對于增強模型在退火階段的性能至關重要。

在退火階段之后,Hunyuan-Large還進行了長文本預訓練,以增強其處理長文本的能力,逐漸增加token長度從32K增長至256K。Hunyuan-Large采用了RoPE來構建位置嵌入,并在256K預訓練階段將RoPE的基礎頻率擴展到10億。


長文本預訓練的數據主要來自書籍和代碼等自然長文本數據,這些數據與正常長度的預訓練數據混合,形成了長文本預訓練語料庫。

騰訊放大招,超Meta!史上參數最大,開源專家混合模型-AI.x社區

騰訊將Hunyuan-Large與LLama3.1-405B、LLama3.1-70B、Mixtral-8x22B和DeepSeek-V2市面上超大開源模型進行了綜合評測。


結果顯示,Hunyuan-Large皆取得了超強的性能表現,例如,在CommonsenseQA測試中,Hunyuan-Large 的準確率達到 92.9%,而 LLama3.1 - 70B 為 84.1%,LLama3.1 - 405B 為 85.8%。


在PIQA 測試中,Hunyuan-Large 的準確率為 88.3%,優于LLama3.1 - 405B的83.7%。在WinoGrande 測試中,Hunyuan-Large的準確率達到 88.7%,超過了LLama3.1 - 70B 的 85.3%和LLama3.1 - 405B的86.7%。


本文轉自 AIGC開放社區  ,作者:AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/7QvcYCjPKfzpueW2gHPMtQ??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 夜夜爽夜夜操 | 97伦理电影| 99精品免费久久久久久日本 | 久久久久国产精品一区二区 | 亚洲国产成人精品女人久久久 | 91高清在线观看 | 国产黄色大片在线免费观看 | 爱操av| 日韩毛片 | 国产精品国产馆在线真实露脸 | 亚洲欧美另类在线 | 99热视| 久久电影一区 | 欧美精品一区二区三区在线 | 国产9999精品 | 久久久久一区二区三区四区 | 美女一级a毛片免费观看97 | 中文字幕精品一区二区三区精品 | 欧美二区三区 | 久久精品免费观看 | 欧美久久一区 | 精品欧美一区二区三区久久久小说 | 老司机免费视频 | 国产成人一区二区三区电影 | 色免费看 | 精品乱子伦一区二区三区 | 亚洲伊人久久综合 | 亚洲综合色视频在线观看 | 男女羞羞视频大全 | 欧美精品啪啪 | 中文字幕国产精品视频 | 国产精品.xx视频.xxtv | 亚洲日本成人 | 国产成人jvid在线播放 | 国产精品久久久久久久久污网站 | 亚洲精品一区二区在线观看 | 国产精品久久久久久久久久 | 久久久久亚洲精品 | 久久男人| 一区二区影视 | 亚洲第一av网站 |