成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

小紅書開源首個大模型,11萬億非合成訓練數據

人工智能 新聞
dots.llm1是一個1420億參數的專家混合模型(MoE),在推理過程中僅激活140億參數,能保持高性能的同時大幅度降低訓練和推理成本。

國內著名社交平臺小紅書,開源了首個大模型——dots.llm1。

dots.llm1是一個1420億參數的專家混合模型(MoE),在推理過程中僅激活140億參數,能保持高性能的同時大幅度降低訓練和推理成本。

dots.llm1最大特色是使用了11.2萬億token的非合成高質量訓練數據,這在現階段的開源大模型中非常罕見,看來小紅書也得益于自己龐大的語料庫出手就是闊啊。

所以,在中文測試中dots.llm1的性能非常強,以91.3的平均分超過了DeepSeek開源的V2、V3和阿里開源的Qwen2.5 32B和72B。

圖片

開源地址:https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main

dots.llm1架構簡單介紹

dots.llm1使用了單向解碼器Transformer架構,但把前饋網絡替換為MoE。在傳統的Transformer架構中,每一層的前饋網絡是密集連接的,這意味著每一層都會對輸入的所有標記進行計算。在處理大規模數據時會消耗巨大的算力。

而MoE將模型分為多個專家網絡,每個專家網絡專注于輸入數據的不同方面。在推理過程中,并不激活所有的專家網絡,而是根據輸入標記的特性,動態地選擇一小部分專家網絡進行計算。這種稀疏激活的方式極大減少了算力的需求,同時保持了模型的高性能。

圖片

dots.llm1的MoE由128個路由專家和2個共享專家組成。每個專家網絡是一個兩層的前饋網絡,使用了SwiGLU激活函數。SwiGLU是一種高效的激活函數,它結合了門控機制和非線性激活,能夠更好地捕捉數據中的復雜關系。

在每個輸入標記的處理過程中,dots.llm1會通過一個路由機制選擇出6個最相關的專家網絡,加上2個共享專家,總共激活8個專家網絡。這種選擇機制是動態的,會根據輸入標記的特性來決定哪些專家網絡最適合處理當前的標記。

除了MoE模塊的設計,dots.llm1在注意力層也進行了優化。采用了經典的多頭注意力機制(MHA),這是一種廣泛應用于Transformer架構中的注意力機制。

dots.llm1在MHA的基礎上引入了RMSNorm歸一化操作。RMSNorm是一種改進的歸一化方法,通過計算輸入的均方根值來進行歸一化,從而避免了輸入值過大或過小對模型訓練的影響。這種歸一化操作在多頭注意力機制中尤為重要,因為注意力機制的輸出是多個頭的加權和,如果沒有適當的歸一化,很容易出現數值不穩定的情況。通過引入RMSNorm,dots.llm1能夠更好地控制注意力機制的輸出,從而提高模型的穩定性和性能。

圖片

在MoE模塊中,dots.llm1還引入了無輔助損失的負載平衡策略。負載平衡是MoE架構中的一個關鍵問題,因為如果專家網絡之間的負載不平衡,會導致一些專家網絡被過度使用,而另一些專家網絡則很少被激活。

這種不平衡不僅會影響模型的性能,還會降低計算效率。dots.llm1通過引入一個動態調整的偏置項來解決這個問題。偏置項會根據每個專家網絡的負載情況動態調整,從而確保所有專家網絡的負載相對平衡,不僅能夠有效地解決負載不平衡的問題,而且不會引入額外的損失函數,從而避免了對模型性能的負面影響。

此外,dots.llm1在訓練過程中還采用了AdamW優化器進一步提高模型的性能和效率。這是一種改進的Adam優化器,它通過引入權重衰減來防止模型過擬合,同時采用了梯度裁剪技術,通過限制梯度的最大值來避免梯度爆炸的問題。

dots.llm1訓練數據

數據處理是大模型訓練的基石,dots.llm1一共使用了11.2萬億token非合成數據,并構建了一套三級數據處理流水線,從雜亂無章的原始網頁數據中篩選出高質量的語料。

在第一階段的文檔準備中,利用URL過濾技術屏蔽成人、賭博等有害域名,通過 trafilatura 庫精準提取正文內容,借助 fastText 語言檢測工具,將置信度 <0.65 的文檔果斷丟棄,并采用 MD5 去重方法去除重復數據,同時將中英文數據比例精心控制在 1:1。

第二階段的規則處理同樣至關重要,通過行級去重,刪除前5行/后5行中出現超200次的重復行;利用啟發式過濾移除廣告、注冊提示等低質內容;借助MinHash - LSH 模糊去重,保留 Jaccard 相似度< 80%的文檔,這一系列操作剔除了約 30% 的低質內容。

第三階段的模型處理堪稱畫龍點睛之筆,運用15億參數分類器精準區分“文本詳情頁” 與工具 / 視頻頁面,保留高價值內容;通過自主開發的網頁雜波去除模型逐行評分(0 - 1 分),過濾掉導航欄、邊框等無關內容;

圖片

最后通過 200 類分類器平衡數據分布,將百科、科普等知識性內容占比提升至 60%,大幅減少小說和產品描述至 15%。經過TxT360數據集對比實驗驗證,該流水線處理后的網頁數據在 MMLU、TriviaQA 等基準測試中表現優于當前 SOTA 開源數據。

值得一提的是,為了促進學術研究,小紅書還開源了每1萬億token 的中間訓練檢查點,為大模型的學習動態提供了寶貴的見解。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2025-06-11 14:44:48

AI文本大模型

2025-06-09 08:56:00

2025-05-14 08:51:00

2025-01-20 13:52:45

2022-09-29 09:08:15

數據體系

2022-08-18 09:12:17

存儲數據

2025-06-20 14:29:02

模型訓練大數據

2023-07-14 14:14:07

模型開源

2023-07-10 08:00:00

2015-08-06 17:19:46

大數據標準

2025-04-21 09:20:00

2024-04-01 12:43:40

模型訓練開源

2024-04-18 08:38:15

LLM數據訓練模型

2024-09-12 15:10:00

AI智能體

2025-04-22 09:17:00

模型生成開源

2025-06-10 03:30:00

2023-09-07 11:05:43

小紅書REDtao

2021-12-02 13:43:42

達摩院AliceMind人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜综合 | 亚洲一区二区三区在线播放 | 亚洲欧美日本在线 | 黄色片在线免费看 | 一区二区三区成人 | 在线黄色影院 | 亚洲啪啪 | 黄免费看| 美女在线视频一区二区三区 | 91在线视频播放 | 亚洲一区二区三区四区五区中文 | 污污的网站在线观看 | 国产第1页| 丝袜一区二区三区 | 日韩视频中文字幕 | 又黄又色 | 91精品国产一二三 | 国产精品免费高清 | 国产一级淫片免费视频 | 日韩欧美国产精品 | 国产一区2区 | 91正在播放 | 亚洲狠狠丁香婷婷综合久久久 | 久久网国产 | 性色视频| 亚洲人成人一区二区在线观看 | 国产乱码久久久 | 国产一区二区在线免费视频 | 亚洲精选一区二区 | 欧美一区二区三区的 | 日本大香伊一区二区三区 | 亚洲天堂中文字幕 | 天天躁天天操 | 色爱综合网 | 精品日韩一区二区三区 | 久久久国产精品 | 亚洲精品黑人 | 亚洲中午字幕 | 黄网站涩免费蜜桃网站 | 国产精品视频一二三区 | 国产一区二区三区 |