Llama3背后的秘密:HuggingFace發布萬億級數據集Fineweb
原創 精華
Llama3是在15萬億個公共數據標記上進行訓練的。但是,您可以在哪里找到這樣的數據集和處理方法呢?近日,HuggingFace發布??Fineweb,一個高質量的大規模篩選網絡數據集,優于目前所有同等規模的數據集。HuggingFace訓練了200多個消融模型,精心制作了這個數據集,對CommonCrawl進行了解析和過濾。HuggingFace對2013年至2024年間的所有CommonCrawl數據進行了篩選和去重。在FineWeb上訓練的模型優于RefinedWeb、C4、DolmaV1.6、Th...