深度學習中常用的開源數據集
圖像分類
1.MNIST
http://yann.lecun.com/exdb/mnist/
MNIST 數據集是機器學習和計算機視覺領域中最著名的數據集之一,常用于訓練各種圖像處理系統。
MNIST 數據集包含了 70,000 張小型的黑白圖像,每張圖像的大小是 28x28 像素。每個圖像都是手寫數字(0到9)的一個實例。
它非常適合初學者練習圖像分類技術和卷積神經網絡(CNN)等算法。
圖片
2.CIFAR-10
CIFAR-10 數據集是另一種在機器學習和計算機視覺研究領域廣泛使用的標準數據集。
https://www.cs.toronto.edu/~kriz/cifar.html
它由加拿大高級研究院(Canadian Institute For Advanced Research, CIFAR)發布,因此得名 CIFAR。CIFAR-10 特別適用于開發和測試圖像識別算法。
CIFAR-10 包含 60,000 張 32x32 像素的彩色圖像,這些圖像被分為 10 個類別,每個類別各 6,000 張圖像。這些類別包括:飛機、汽車、鳥、貓、鹿、狗、青蛙、馬、船和卡車。
圖片
3.ImageNet
https://www.image-net.org/
ImageNet 數據集是一個大規模的圖像數據集,廣泛用于計算機視覺研究和各種圖像處理算法的訓練和測試。
這個數據集由斯坦福大學的研究人員啟動和維護,包含超過 1400 萬張圖片和超過 20,000 個類別。
它用于大規模視覺識別挑戰和訓練深度學習模型。
圖片
4.fashion-mnist
Fashion-MNIST 數據集是由 Zalando(一家德國的時尚科技公司)發布的一個圖像數據集,旨在作為機器學習研究中經典的 MNIST 手寫數字數據集的直接替代品。
Fashion-MNIST 包含 70,000 張 28x28 像素的灰度圖像,這些圖像分為 10 個類別,每個類別有 7,000 張圖像,這些類別包括:T恤/上衣、褲子、套頭衫、連衣裙、外套、涼鞋、襯衫、運動鞋、包和踝靴。
圖片
5.CelebA
https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
CelebA 數據集是一個大型的人臉屬性數據集,廣泛用于計算機視覺研究中,特別是在面部識別、面部屬性識別和面部編輯等領域。
這個數據集由香港中文大學的研究者開發和維護,CelebA 包含超過 200,000 張名人面部的圖像,覆蓋了大約 10,000 名不同的名人,每張圖像都標有 40 種不同的屬性(如發型、帽子、眼鏡、笑容等),以及 5 個關鍵點位置(眼睛、鼻子、嘴巴)的標記。
圖片
自然語言處理
6.IMDB 評論
https://ai.stanford.edu/~amaas/data/sentiment/)
IMDB 評論數據集(Internet Movie Database Review Dataset)是一個廣泛用于自然語言處理(NLP)和情感分析研究的數據集。
它包含來自 IMDB 網站的 50,000條電影評論,分為訓練集和測試集各 25,000 條,每個評論都是一個文本片段,并且帶有一個標簽,表示該評論是正面的(positive)還是負面的(negative)。
圖片
7.20個新聞組
https://www.kaggle.com/datasets/crawford/20-newsgroups
20 個新聞組數據集由 Ken Lang 編制,包含約 18000 個新聞組文檔,分布在 20 個不同的新聞組。
它常用于文本分類和聚類任務。
圖片
8.SQuAD
https://rajpurkar.github.io/SQuAD-explorer/
斯坦福問答數據集 (SQuAD) 是一個閱讀理解數據集,由眾包工作者針對一系列維基百科文章提出的問題組成,其中每個問題的答案都是來自相應段落的一段文本。斯坦福問答數據集包含 100,000 多個用于機器理解的問題。
圖片
9.GLUE
https://gluebenchmark.com/
GLUE (General Language Understanding Evaluation) 是一個用于評估自然語言處理(NLP)模型在廣泛語言理解任務上的性能的基準數據集。
GLUE 旨在提供一個綜合性的評估框架,通過多個不同的NLP任務來測試模型的廣泛性和魯棒性。
10.COCO
https://cocodataset.org/#home
COCO 數據集是一個用于對象檢測、分割和圖像字幕生成的廣泛使用的基準數據集。
它由微軟研究院發布,旨在提供豐富的標注數據,用于訓練和評估計算機視覺模型。
圖片
11.Sentiment140
https://www.kaggle.com/datasets/kazanova/sentiment140
Sentiment140 數據集包含來自Twitter的160萬條標注推文。這些推文被標注為正面或負面情感,主要用于訓練和評估情感分類模型。
12.Yelp 開放數據集
https://www.yelp.com/dataset
Yelp數據集包含了用戶對不同業務的評論、評分、用戶信息、業務信息等。它常用于研究和開發推薦系統、情感分析、文本分類和其他NLP任務。
語音識別
13.LibriSpeech
https://www.openslr.org/12/
LibriSpeech 數據集包含約1000小時的英語語音數據,主要用于訓練和評估語音識別系統。
該數據集中的音頻文件經過高質量的預處理,并且都帶有準確的文字轉錄。
圖片
14.VoxCeleb
https://www.robots.ox.ac.uk/~vgg/data/voxceleb/
VoxCeleb 數據集包含大量名人的音頻片段,這些片段從 YouTube 視頻中提取,并經過仔細的過濾和標注,以確保數據的質量和多樣性。
圖片
衛生保健
15.Breast Cancer Wisconsin
https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic
Breast Cancer Wisconsin 數據集是一個廣泛用于機器學習和數據挖掘領域的醫學數據集,主要用于訓練和評估分類模型,以區分良性和惡性乳腺腫瘤。
該數據集包含569個樣本,每個樣本有30個特征,這些特征從細胞核的圖像中提取。
圖片
推薦系統
16.MovieLens
https://grouplens.org/datasets/movielens/
MovieLens 數據集是一個廣泛用于推薦系統研究和開發的電影評分數據集。該數據集由明尼蘇達大學的 GroupLens 研究小組創建,包含用戶對電影的評分信息。
17.Amazon Product Reviews
https://cseweb.ucsd.edu/~jmcauley/datasets.html#amazon_reviews
Amazon Product Reviews 數據集是一個廣泛用于情感分析、推薦系統和其他自然語言處理(NLP)任務的大規模數據集。該數據集包含了來自 Amazon 網站的用戶對各種產品的評論和評分信息。