成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

小紅書開源首個 AI 文本大模型:11.2T 精煉語料吊打海量數(shù)據(jù),證明“大模型≠大數(shù)據(jù)”

人工智能
dots.llm1 是一個 Mixture of Experts(MoE)結(jié)構(gòu)的語言模型。盡管總參數(shù)規(guī)模達 142B,但在每次推理中只激活 14B,有效控制了計算開銷。這種“低激活、高表現(xiàn)”的設計理念,是對 MoE 架構(gòu)效率潛力的一種驗證。

近日,在中文開源大模型愈發(fā)稀缺的背景下,小紅書旗下 hi lab 公布了中等規(guī)模的 MoE 模型 dots.llm1,以 1420 億總參數(shù)、每次僅激活 140 億參數(shù)的設計,達成與 Qwen2.5-72B 相近的性能,吸引了社區(qū)的關(guān)注。

圖片圖片

據(jù)悉,dots.llm1 是一個 Mixture of Experts(MoE)結(jié)構(gòu)的語言模型。盡管總參數(shù)規(guī)模達 142B,但在每次推理中只激活 14B,有效控制了計算開銷。這種“低激活、高表現(xiàn)”的設計理念,是對 MoE 架構(gòu)效率潛力的一種驗證。

圖片圖片

它采用 6in128 的專家配置,并配有兩個共享 Expert,在架構(gòu)選擇上參考了 DeepSeek 系列;訓練策略上,則使用穩(wěn)定的 WSD 學習率調(diào)度,先維持高學習率跑 10T token,再通過兩輪退火調(diào)整,分別聚焦知識強化與數(shù)學代碼領(lǐng)域。

在訓練效率方面,hi lab 聯(lián)合 NVIDIA 中國團隊對 Megatron-LM 進行了底層優(yōu)化:使用 Interleaved 1F1B + A2A overlap 的并行策略,讓計算覆蓋通信時間;同時,在 Grouped GEMM 的實現(xiàn)上做了調(diào)度層面改造,使 warpgroup 中專家的 token 分布更規(guī)整,最終實現(xiàn)前向階段提速 14%、反向階段提速近 7%。

這些看似技術(shù)細節(jié)的改動,其實是讓 MoE 模型從“概念驗證”邁向“工程可行”的關(guān)鍵步驟。

重點不在數(shù)據(jù)量,而在數(shù)據(jù)質(zhì)量

圖片圖片

相比動輒幾十萬億 token 的訓練數(shù)據(jù),dots.llm1 用了 11.2T 的“高質(zhì)量 token”達成對比模型效果,在數(shù)據(jù)選擇上更傾向“精挑細選”而非“海量堆積”。

hi lab 的數(shù)據(jù)來源主要是 Common Crawl 和自主抓取的 Spider Web 數(shù)據(jù),團隊在清洗流程中融入了多層判別機制。例如,對網(wǎng)頁正文提取使用 trafilatura 的改進版本,文檔去重采用 minhash 結(jié)合行級分析,避免重復和冗余內(nèi)容。對網(wǎng)頁首尾常見的噪聲句子,比如導航欄、版權(quán)信息等,還專門設計了“行級過濾”策略。

更進一步,hi lab 還通過語義質(zhì)量分類器和 200 類別的數(shù)據(jù)平衡模型,對語料的類型結(jié)構(gòu)做出篩選,提升知識類文本占比,降低虛構(gòu)小說、電商數(shù)據(jù)等結(jié)構(gòu)化內(nèi)容的比例。在 PII 和內(nèi)容安全方面,也引入模型輔助標注和人工審核,確保安全底線。

這些多層次的處理流程,是 dots.llm1 能以中等體量模型取得對標性能的重要原因之一。

一次盡量完整的開源嘗試

圖片圖片

與當前很多國產(chǎn)大模型“僅開放模型權(quán)重”不同,hi lab 嘗試將 dots.llm1 開源做到相對完整。他們不僅放出了 final instruct 模型,還包含從預訓練初期開始、每 1T token 存儲的中間 checkpoint,覆蓋多個 base 模型、退火階段模型、超參數(shù)和 batch size 配置等。

此外,團隊還開源了數(shù)學與代碼領(lǐng)域微調(diào)中使用的規(guī)則與驗證機制。這種全流程的開放做法,不僅便于其他開發(fā)者繼續(xù)預訓練或微調(diào),也為研究人員觀察模型學習路徑、分析訓練動態(tài)提供了更多可能。

開源的基礎(chǔ)上,hi lab 明確表示歡迎社區(qū)在 dots.llm1 上進行二次開發(fā)或任務定制,如長文場景訓練、指令微調(diào)或繼續(xù)預訓練,并希望此舉能為中文大模型社區(qū)提供一種新范式。

最后,hi lab 是小紅書內(nèi)部較早布局 AI 的團隊,強調(diào)“人文智能”愿景,關(guān)注 AI 與用戶之間的交互關(guān)系。團隊成員多來自技術(shù)背景較強的公司,在工程效率、數(shù)據(jù)安全和復現(xiàn)性方面有較明確傾向。

github: https://github.com/rednote-hilab/dots.llm1

huggingface:https://huggingface.co/collections/rednote-hilab/dotsllm1-68246aaaaba3363374a8aa7c

小紅書:https://www.xiaohongshu.com/user/profile/683ffe42000000001d021a4c

責任編輯:武曉燕 來源: 大數(shù)據(jù)文摘
相關(guān)推薦

2025-06-10 03:30:00

2025-01-20 15:50:00

AI軟件模型

2025-04-24 09:26:13

大模型AI人工智能

2023-10-07 08:05:17

數(shù)據(jù)分析模型行為分析

2024-06-03 08:30:00

2024-08-19 08:45:00

開源模型

2024-10-12 10:57:39

2024-12-25 14:30:00

大語言模型AI計算

2025-06-16 09:10:00

2024-12-25 08:02:17

人工智能AI運維

2024-10-10 11:59:11

2024-10-30 12:21:18

2022-02-21 17:35:50

漏斗模型流程數(shù)據(jù)

2023-05-10 14:40:40

AI模型算力

2023-11-13 19:35:12

訓練數(shù)據(jù)

2024-10-22 08:55:40

2023-09-04 15:42:19

人工智能

2024-09-29 13:10:08

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲国产精品成人 | 欧美日韩成人在线 | 国产精品一二三区在线观看 | 狠狠天天 | 国产精品一区一区 | 91av视频| 国产午夜高清 | 91精品国产综合久久久久久丝袜 | 国产乱码精品一区二区三区忘忧草 | 国产男女视频 | 欧洲精品一区 | 伊人久久大香线 | av香蕉 | 521av网站| 国产精品久久久久久久久久久久久 | 欧美精品1区2区3区 免费黄篇 | 精品国产乱码久久久久久a丨 | 91豆花视频 | 波多野结衣电影一区 | 国产成人精品一区 | 欧美日韩三级在线观看 | 国产男女视频 | 国精产品一区一区三区免费完 | 日韩一区二区免费视频 | 中文字幕 在线观看 | 9999视频| 国产一区亚洲二区三区 | 亚洲一区在线日韩在线深爱 | 欧美精品在线观看 | 国产亚洲精品精品国产亚洲综合 | 欧美成视频 | 国产精品1 | 成人精品免费视频 | 可以免费观看的av片 | 亚洲欧洲中文日韩 | 亚洲精品一区二区 | 亚洲国产网址 | 欧美操操操| 久久国产精品免费一区二区三区 | 视频在线一区二区 | 国产精品亚洲成在人线 |