機器學習和計算機視覺的20大圖像數(shù)據(jù)集
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)。
計算機視覺使得計算機能夠理解圖像和視頻的內(nèi)容,其目標是能夠如同人體視覺系統(tǒng)一樣,自動完成任務。計算機視覺任務包括圖像采集、處理和分析。圖像數(shù)據(jù)以不同的形式呈現(xiàn),如視頻序列、多機位成像,或是來自醫(yī)學掃描儀的多維數(shù)據(jù)。本文就將介紹一些適用于機器學習訓練的數(shù)據(jù)集。
(1) Labelme:由麻省理工學院計算機科學和人工智能實驗室(CSAIL)共同創(chuàng)建的大型數(shù)據(jù)集,包含187240張圖像、62197張帶注釋的圖像和658992個帶標簽的對象。
(2) ImageNet:新算法的實際圖像數(shù)據(jù)集,根據(jù)WordNet層次結構進行組織,層次結構中的每個節(jié)點都由成百上千的圖像描述。
(3) LSUN:場景理解,附帶許多輔助任務(房間布局估計、顯著性預測等)。
(4) MS COCO:COCO是一個大規(guī)模的對象檢測、分割和說明的數(shù)據(jù)集,包含200000張以上帶標簽的圖像。可用于對象分割、上下文中的識別等等。
(5) 哥倫比亞大學圖像庫:COIL100數(shù)據(jù)集包含100個不同的對象,以360°全角度成像。
(6) Visual Genome:是一個數(shù)據(jù)集兼知識庫,旨在將結構化圖像概念與語言聯(lián)系起來。該數(shù)據(jù)集是包含108077張圖像說明的詳細視覺知識庫。
(7) Lego Bricks:包含大約12700張16種不同樂高積木的圖片,按文件夾分類,用Blender進行計算機渲染。
(8) 谷歌開放圖像:在知識共享(Creative Commons)的支持下,900萬張圖像的URL“已經(jīng)用跨越6000多個類別的標簽進行了注釋”。

(9) Youtube-8M:由數(shù)百萬個YouTube視頻ID組成的大規(guī)模標簽數(shù)據(jù)集,包含超過3800個視覺實體的注釋。
(10) Labelled Faces in the Wild:包含13000張帶標簽的人臉圖像,旨在開發(fā)人臉識別相關應用。
(11) 斯坦福犬類數(shù)據(jù)集:包含20580張圖像和120個犬類品種,每個類別大概150張圖像。
(12) Places:以場景為主的數(shù)據(jù)庫,包含205個場景類別和250萬個帶有類別標簽的圖像。
(13) CelebFaces:擁有超過200000張名人圖像的人臉數(shù)據(jù)集,每張都有40個屬性注釋。

(14) Flowers:在英國常見的花卉圖像數(shù)據(jù)集,由102個不同類別組成。每個花卉類別由40到258張不同姿態(tài)和光線變化的圖像組成。
(15) Plant Image Analysis:跨越100多萬張植物圖像的數(shù)據(jù)集的集合。可以從11種植物中選擇。
(16) Home Objects:包含家庭中隨機對象的數(shù)據(jù)集,主要來自廚房、浴室和客廳,分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集。
(17) CIFAR-10:由60000張32×32彩色圖像組成的大型圖像數(shù)據(jù)集,分為10類。數(shù)據(jù)集分為五個訓練批次和一個測試批次,每個批次包含10000張圖像。
(18) CompCars:包含163款汽車品牌,共有1716種車型,每種車型都標有五個屬性,包括最大速度、排量、車門數(shù)量、座椅數(shù)量和汽車類型。
(19) 室內(nèi)場景識別數(shù)據(jù)集:這是一個非常獨特的數(shù)據(jù)集。因為大多數(shù)場景識別模型在室外發(fā)揮更好,所以該數(shù)據(jù)集很有用。包含67個室內(nèi)類別,共15620張圖片。
(20) VisualQA:VQA數(shù)據(jù)集包含265,016張圖像的開放性問題。這些問題需要對視覺和語言的理解。對于每張圖像,至少有3個問題,每個問題至少有10個答案。