成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集

發(fā)布于 2024-8-6 10:49
瀏覽
0收藏

華盛頓大學、斯坦福大學、Salesforce等研究人員聯(lián)合開源了多模態(tài)數(shù)據(jù)集MINT-1T。


據(jù)悉,MINT-1T共包含了大約1萬億個文本標記和34億張圖像,是現(xiàn)有開源多模態(tài)數(shù)據(jù)集的10倍,同時還首次從ArXiv網(wǎng)站中爬取了專業(yè)論文,進一步提升了數(shù)據(jù)質(zhì)量。這對于開源領(lǐng)域開發(fā)GPT-4o、Gemini等多模態(tài)模型,提供了全面、多元化的數(shù)據(jù)集。

開源地址:https://github.com/mlfoundations/MINT-1T

斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集-AI.x社區(qū)

MINT-1T數(shù)據(jù)集包含了多種來源,其中,HTML文檔的主要來源于CommonCrawl,是一個非盈利性的組織,通過爬取互聯(lián)網(wǎng)上的網(wǎng)頁生成了大量的數(shù)據(jù)集,被廣泛用于各種學術(shù)研究和模型訓練。


在提取的過程中,為了確保數(shù)據(jù)集的質(zhì)量和多樣性,研究人員對文檔進行了數(shù)據(jù)過濾,排除了那些不包含圖像或包含超過三十張圖像的文檔,同時剔除了那些圖像URL中包含不適當子字符串(例如,logo、avatar、porn、xxx等)的文檔


在處理HTML文檔時,團隊采用了OBELICS的方法,通過解析WARC條目的DOM樹來提取交錯的多模態(tài)文檔。這種方法允許團隊在保持圖像和文本原始順序的同時,提取出有用的數(shù)據(jù)。

斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集-AI.x社區(qū)

此外,團隊還對HTML文檔進行了去重處理,使用了Bloom Filter技術(shù),通過設(shè)置0.01的誤報率,對13-gram段落進行去重。如果一個文檔中超過80%的段落是重復(fù)的,那么整個文檔就會被丟棄。這種方法有效地減少了數(shù)據(jù)集中的冗余內(nèi)容,提高了數(shù)據(jù)的質(zhì)量和可用性。


PDF文檔是MINT-1T數(shù)據(jù)集中的另一個重要組成部分。這些文檔主要來源于CommonCrawl WAT文件,涵蓋了2023年2月——2024年4月的數(shù)據(jù)。與HTML文檔的處理方法類似,研究人員首先從這些轉(zhuǎn)儲中提取所有PDF鏈接,然后嘗試使用PyMuPDF 2下載和讀取PDF文件。


在處理的過程中,研究人員對PDF文件的大小和頁數(shù)進行了限制,排除了超過50MB大或超過50頁的PDF文檔。這是因為這些文檔通常包含大量的圖像,可能會影響數(shù)據(jù)處理的效率和效果。

斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集-AI.x社區(qū)

ArXiv是全球著名提供物理、數(shù)學、計算機科學、AI等領(lǐng)域的專業(yè)論文網(wǎng)站,研究人員從這里提取了大量基于LaTeX源代碼的文檔,包含了論文的文本內(nèi)容、圖像、表格、參考文獻等所有元素。


在處理LaTeX源代碼時首先需要識別圖形標簽,這些標簽通常以\includegraphics的形式出現(xiàn),指示了圖像在文檔中的位置。


通過分析這些標簽,研究人員能夠確定圖像在文本中的相對位置,并據(jù)此將圖像與文本內(nèi)容進行交錯,這對于保持文檔的原始結(jié)構(gòu)和閱讀順序至關(guān)重要。

斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集-AI.x社區(qū)

在獲取了經(jīng)過初步處理的PDF、HTML等數(shù)據(jù)后,研究人員對這些數(shù)據(jù)做了進一步處理。首先,使用Fasttext的語言識別模型排除了非英語文檔,以確保數(shù)據(jù)集的語言一致性。


其次,刪除了URL包含NSFW子字符串的文檔,以排除色情和不良內(nèi)容。還使用了RefinedWeb的文本過濾方法,移除了包含過多重復(fù)n-gram或被識別為低質(zhì)量的文檔。


在圖像過濾方面,團隊嘗試下載HTML數(shù)據(jù)集中的所有圖像URL,丟棄了任何無法檢索的鏈接,并移除了沒有有效圖像鏈接的文檔。為了提高圖像質(zhì)量,移除了小于150像素的圖像,以避免包含諸如徽標和圖標等噪聲圖像。


為了確保數(shù)據(jù)集的安全性和合規(guī)性,研究人員對所有圖像使用了NSFW圖像檢測器。如果發(fā)現(xiàn)文檔包含單個NSFW圖像,則丟棄整個文檔。同時對對文本數(shù)據(jù)中的電子郵件地址和IP地址等個人信息,進行了匿名化處理防止敏感數(shù)據(jù)泄露。


本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/b9OqedOwVpNMuvp2ViHedg??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 亚洲免费观看视频 | 亚洲一区高清 | 久久久久国产一区二区三区四区 | 日本黄色免费视频 | 国产亚洲一区二区三区 | 久久狠狠 | 欧美激情视频一区二区三区在线播放 | 国产精品视频一 | 波多野结衣中文字幕一区二区三区 | 7777奇米影视| 日韩av一区在线观看 | 黄视频网址 | 日韩一区二区视频 | 成人视屏在线观看 | 特级毛片www | 欧美一区永久视频免费观看 | 亚洲一区二区久久久 | 亚洲一区二区av在线 | 草久在线 | 国产日韩欧美一区 | 精品国产黄a∨片高清在线 www.一级片 国产欧美日韩综合精品一区二区 | 黄色成人免费在线观看 | 亚洲一级在线 | 国产精品一区二区av | 日韩一区二区三区在线 | 国产高清精品在线 | 国产超碰人人爽人人做人人爱 | 午夜天堂 | heyzo在线 | 日韩精品免费视频 | 精品一区二区不卡 | 国产不卡在线播放 | 国产一区二区日韩 | 亚洲视频中文字幕 | 爱综合| 日韩精品 | 欧美日韩精品一区 | 精品欧美乱码久久久久久1区2区 | 午夜视频在线观看视频 | 91国内精品久久 | 91麻豆精品国产91久久久久久久久 |