成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ML能用上的實用數據集

大數據
機器學習中重要的一步是創建或尋找合適的數據來訓練和檢驗算法。使用好的數據集可以幫助你規避或發現算法中的錯誤,改善程序的結果。在多數情況下,創建自己的數據集是一件費時的事。本文會向介紹一些有用的數據集,用于文本分類和圖像分類問題。

機器學習數據集

機器學習中重要的一步是創建或尋找合適的數據來訓練和檢驗算法。使用好的數據集可以幫助你規避或發現算法中的錯誤,改善程序的結果。在多數情況下,創建自己的數據集是一件費時的事。本文會向介紹一些有用的數據集,用于文本分類和圖像分類問題。

文本分類

本節將介紹一些用于普通文本分類任務的數據集,如垃圾信息檢測、情感分析和文檔主題分類。

• 垃圾信息 – 非垃圾信息

垃圾信息過濾任務在文本分類中很常見,因此,用于這類任務的數據集很多。

SMS 垃圾短信語料庫

SMS 垃圾短信語料庫由兩類文本信息組成,每個短信都被標記為垃圾信息或正常信息。這個數據集有大(1002條正常信息,322條垃圾信息)、小(1002條正常信息,82條垃圾信息)兩種版本可下載。

Enron 數據集

如果想研究垃圾電子郵件過濾,你可能會對 Enron 數據集感興趣,該數據集收集了成千上萬的郵件,都被分為垃圾郵件和正常郵件。有未處理和經過預處理的版本可供下載。

其它你可能會感興趣的垃圾郵件分類的數據集有:SpamAssassin 公共郵件語料庫、TREC 公共垃圾郵件語料庫 、Spambase 數據集。

• 情感分析

可通過機器學習解決的另一個任務是文本情感分析,其中一個例子就是判斷文本對某個主題陳述的是支持意見還是反對意見。

Twitter 情感分析訓練語料庫

如果你對推文(tweet)的情感分類感興趣,Twitter 情感分析訓練語料庫可能是你需要的。它由超過 100 萬條 tweets 組成,存于一個 .csv 文件中,每條語料都被標記為支持(1)或反對(0)。

影評數據集

影評數據集包含更復雜的文本,收集了 1,000 條正面影評和 1,000 條負面影評,未處理的 .html 文件形式和已處理的文本形式皆可獲得。這個數據集的一部分作為語句集,還被標記了主觀或客觀的標簽。

更多關于情感分類的更好用的數據集被整理形成一個列表,放在 Kavita Ganesan 的博客中。

• 主題分類

文檔主題分類是一個復雜的問題。根據待研究的文檔種類不同,所需的合適的數據集也不相同。一個經常研究的案例是報刊文章的分類。

20 Newsgroups

20 Newsgroups 數據集包含大約 20,000 份文檔,幾乎平均分布于 20 個類別。數據被分為訓練集和測試集。這些新聞組有些密切相關,而另一些毫不相關。數據集中的新聞組如下:

 

20 newsgroups 數據集的組織形式,資源: http://qwone.com/~jason/20Newsgroups/

路透社-21578

一個經常使用的用于評估文本分類算法的數據集是路透社-21578, 它由出現在 1987 年路透社新聞專線中的文本組成,由路透社公司員工整理。通常只是使用這個數據集的一些子集,作為類別不均勻分布的文檔使用。通常情況下,使用最頻繁的文檔只占了10或90個類別。

在 Ana Cardoso Cachopo 的主頁提供了一個很有用的收集單標記文本的數據集,不僅可以找到有用數據的概覽,還提供了數據集的可讀版本和預處理版本,可以為你省去很多時間和麻煩。

圖像分類

這一節將介紹一些在用機器學習解決圖像分類問題時有用的數據集,列出的數據集從簡單的手寫數字,到復雜物體的圖像,會對學習圖像分類和測試算法很有幫助。

• 數字和字母

MNIST

MNIST 數據集是學習圖像分類經常使用的數據集,包含上千張從 0 到 9 的手寫數字的小二進制圖像,劃分為訓練集和測試集。可以從 YannLeCun 的網站下載 IDX 文件格式,如果你想使用 png 格式的圖像做數據,可以從這找到轉化的版本。

 

MNIST 數據集摘錄

Chars74K

另一個可通過機器學習解決的任務是字符識別,基于這個目的,可以用 Chars74K 數據集可用來訓練和測試。它擁有超過 74,000 張字母和數字圖像,被分成 64 個不同的種類。字母都是手寫體,通過自然圖片和電腦字體獲得。由于種類更多,并且數據是彩色圖像,這個數據集比 MNIST 集復雜得多。

 

Chars74K 數據集摘錄, 資源: http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/Samples/english.png

• 人臉

正面人臉圖像

正面人臉圖像數據集是為評估圖像中正面人臉識別程序而建立的,包含人的圖像以及通過 x、y 坐標給出的人臉在圖片中的位置信息。這里可以下載該數據集。

 

正面人臉圖像數據集摘錄

復雜場景中標記人臉

面部檢測中經常使用的數據集是復雜場景中標記人臉數據集,擁有從網絡中收集的超過 13,000 張圖片。很多人不止一次出現在數據集中的圖片中,對面部識別評估很有用。

復雜場景中標記人臉數據集摘錄 

復雜場景中標記人臉數據集摘錄

• 動物

Oxford-IIIT 寵物數據集

如果你在找大規模的貓狗數據集,你可以看看牛津- IIIT寵物數據集,有 37 個包含不同種類貓狗的類別,每個類別有 200 張圖片。與很多其它數據集不同,它的圖片的大小不一,更酷的是這個數據集不僅提供圖像,還有動物的面部位置信息,以及圖像的前景、背景信息(見下圖)。

牛津-IIIT 寵物數據集 

牛津-IIIT 寵物數據集示例, 資源: http://www.robots.ox.ac.uk/~vgg/data/pets/

KTH-ANIMALS

如果你需要更普遍的動物數據集,KTH-ANIMALS 值得一看。它可以從這下載,提供了 19 種不同類別的圖像。每一類有大約 100 張不同大小的圖片,和 牛津-IIIT 寵物數據集一樣,也提供了前景、背景信息。

 

KTH-Animals 數據集概覽,資源: http://www.csc.kth.se/~att/Site/Animals.html

• 各種物體

CIFAR-10 and CIFAR-100

對于更高級的圖像分類應用,你可能對 CIFAR 數據集感興趣。這些數據集包含大小為 32×32 像素的彩色圖像,可以從 Alex Krizhevsky 的網站下載。

CIFAR-10 數據集由 60,000 張圖片組成,平均分布于 10 個種類。如果你需要擁有更多種類的更復雜的數據集,你可以使用 CIFAR-100 數據集,它提供了100個類,20個超類的圖片。

 

CIFAR-10 數據集摘錄,資源: https://www.cs.toronto.edu/~kriz/cifar.html

這兩個 CIFAR 數據集都有 python、matlab 或二進制版本提供下載。如果你更喜歡用 png 圖像作為數據,可以使用這個工具進行轉換。

STL-10

CIFAR 數據集提供的圖片很小,因此如果你想使用更高分辨率的圖片,STL-10 數據集可能更吸引你。這個數據集包含 10 個類的標記圖片,與 CIFAR-10 數據集相似,但是圖像大小有 96×96 像素。每個類含有較少的標記樣例,但卻有很大的未標記圖像集,可以用作非監督訓練。

 

STL-10 數據集摘錄, 資源: https://cs.stanford.edu/~acoates/stl10/images.png 

責任編輯:龐桂玉 來源: Python開發者
相關推薦

2012-09-03 10:27:08

Windows 8Aero Glass

2024-05-14 00:15:42

JSONWeb 應用程

2013-06-13 10:15:20

WebWeb工具Web開發人員

2018-05-07 14:11:15

RootAndroidXposed

2014-06-11 09:46:09

2021-01-04 09:32:30

數據平臺架構

2020-02-14 13:10:03

iPhoneAndroid捷徑

2019-02-25 10:03:17

程序員技能開發者

2017-06-15 17:44:25

環衛保潔大數據

2010-11-02 15:44:20

瘦客戶端

2009-03-24 13:07:57

Nehalem四核服務器

2017-03-06 14:30:07

5G3GVR

2020-10-20 10:05:00

iOS安卓手機移動手機

2023-04-05 14:37:43

2020-10-15 12:43:59

ML Ops數據質量機器學習

2019-06-19 08:09:05

CSSJavaScript前端

2021-01-05 05:29:07

Windows10操作系統21H2

2023-12-01 16:23:52

大數據人工智能

2023-12-08 08:45:41

CSS屬性顏色變換屬性前端

2019-10-12 11:20:42

機器學習人工智能計算機
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 永久免费在线观看 | 日韩欧美亚洲 | 人人草人人干 | 国产精品久久久久久吹潮 | 91精品久久久久久久久中文字幕 | 日韩视频观看 | 免费黄网站在线观看 | 午夜在线免费观看视频 | 欧美黄色一级毛片 | 日韩精品 电影一区 亚洲 | 日韩视频精品在线 | 久久999 | 不卡在线视频 | 国产目拍亚洲精品99久久精品 | 草草影院ccyy | 亚洲成人精选 | 国产精品福利久久久 | 99精品欧美一区二区三区综合在线 | 鲁视频| 国产在线精品一区二区三区 | 91久久久久久 | 久久99国产精一区二区三区 | 国产精品99久久久久久久久 | 国产精品亚洲成在人线 | www.av在线| 国产精品亚洲精品久久 | 久久精品视频一区二区三区 | 久久久91| 波多野结衣中文字幕一区二区三区 | 久久99精品久久久久久国产越南 | 国产免费一级片 | av一级毛片| 国产精品欧美精品日韩精品 | 日本精品久久 | 亚洲精品一区二区在线观看 | 天天色图| av一级毛片 | 欧美视频一区 | 在线免费观看视频黄 | 亚洲日韩中文字幕一区 | 国产精品欧美一区二区三区不卡 |