Llama3背后的秘密:HuggingFace發(fā)布萬億級數(shù)據(jù)集Fineweb 原創(chuàng) 精華
Llama3是在15萬億個公共數(shù)據(jù)標(biāo)記上進(jìn)行訓(xùn)練的。但是,您可以在哪里找到這樣的數(shù)據(jù)集和處理方法呢?
近日,HuggingFace發(fā)布??Fineweb,一個高質(zhì)量的大規(guī)模篩選網(wǎng)絡(luò)數(shù)據(jù)集,優(yōu)于目前所有同等規(guī)模的數(shù)據(jù)集。HuggingFace訓(xùn)練了200多個消融模型,精心制作了這個數(shù)據(jù)集,對Common Crawl進(jìn)行了解析和過濾。HuggingFace對2013年至2024年間的所有CommonCrawl數(shù)據(jù)進(jìn)行了篩選和去重。在FineWeb上訓(xùn)練的模型優(yōu)于RefinedWeb、C4、DolmaV1.6、The Pile和SlimPajama
所有的處理方法、數(shù)據(jù)、消融模型和超參數(shù)都是開源的,并且HuggingFace計劃持續(xù)改進(jìn)Fineweb。
這是什么?
?? FineWeb數(shù)據(jù)集由超過15T標(biāo)記的英文網(wǎng)絡(luò)數(shù)據(jù)組成,經(jīng)過了清洗和去重處理,數(shù)據(jù)來源于CommonCrawl。數(shù)據(jù)處理流程針對LLM性能進(jìn)行了優(yōu)化,并在我們的大規(guī)模數(shù)據(jù)處理庫?? datatrove上運(yùn)行。
?? FineWeb最初旨在成為?? RefinedWeb的完全開放復(fù)制品,全套數(shù)據(jù)集將根據(jù)ODC-By 1.0許可證發(fā)布。然而,通過謹(jǐn)慎添加額外的過濾步驟,研究人員成功將?? FineWeb的性能推高到原始?? RefinedWeb的水平之上,并且在基準(zhǔn)任務(wù)組上,基于數(shù)據(jù)集訓(xùn)練的模型也優(yōu)于基于其他常用高質(zhì)量網(wǎng)絡(luò)數(shù)據(jù)集(如C4、Dolma-v1.6、The Pile、SlimPajama)訓(xùn)練的模型。
發(fā)布了什么?
除了數(shù)據(jù)集之外,還包括自2013年以來的所有CommonCrawl轉(zhuǎn)儲數(shù)據(jù)。HuggingFace還在此處共享了使用?? datatrove庫完全重現(xiàn)我們處理設(shè)置所需的所有代碼。為了實(shí)現(xiàn)對結(jié)果的完全復(fù)制,HuggingFace還發(fā)布了我們使用nanotron訓(xùn)練的小型消融模型,以驗證數(shù)據(jù)集并與其他參考數(shù)據(jù)集進(jìn)行比較。您可以在此處找到它們,每1000步進(jìn)行一次檢查點(diǎn)。HuggingFace還在此處發(fā)布了我們的評估結(jié)果。
如何下載和使用?? FineWeb
方法1
from datasets import load_dataset
fw = load_dataset("HuggingFaceFW/fineweb", name="CC-MAIN-2024-10", split="train", streaming=True)
方法2
from huggingface_hub import snapshot_download
folder = snapshot_download(
"HuggingFaceFW/fineweb",
repo_type="dataset",
local_dir="./fineweb/",
allow_patterns="data/CC-MAIN-2023-50/*")
譯自(有刪改):https://huggingface.co/datasets/HuggingFaceFW/fineweb
本文轉(zhuǎn)載自公眾號AIGC最前線
