成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

想學習人工智能,這個的數據集必須掌握,MNIST入門與實戰

存儲 數據管理 人工智能
今天我們就介紹一個非常簡單,但很有用的數據集,這就是MNIST。這個數據集非常適合我們進行人工智能相關算法的學習和練習。

學習人工智能少不了需要一些數據集,比如進行鑒黃的人工智能少不了一些類似的圖片。進行語音識別的人工智能,語料庫是少不了的。對于初學人工智能的同學常常為數據集而發愁。今天我們就介紹一個非常簡單,但很有用的數據集,這就是MNIST。這個數據集非常適合我們進行人工智能相關算法的學習和練習。

MNIST 數據集是美國國家標準與技術研究所(National Institute of Standards and Technology,簡稱NIST)制作的一個非常簡單的數據集。那么該數據集是什么內容呢?其實就是一些手寫的阿拉伯數字(0到9十個數字)。

NIST在制作數據集的時候還是很認真的。數據集中的訓練集 (training set) 由來自 250 個不同人手寫的數字構成,其中 50%是高中學生,50% 來自人口普查局 (the Census Bureau) 的工作人員。測試集(test set) 也是同樣比例的手寫數字數據。

如何下載MNIST數據集

MNIST數據集可從其官網(http://yann.lecun.com/exdb/mnist/ )下載,由于是國外網站,下載可能比較慢。它包含了四個部分:

  • 訓練集圖片:train-images-idx3-ubyte.gz (9.9 MB, 解壓后 47 MB, 包含 60,000 個樣本)
  • 訓練集標簽:train-labels-idx1-ubyte.gz (29 KB, 解壓后 60 KB, 包含 60,000 個標簽)
  • 測試集圖片:t10k-images-idx3-ubyte.gz (1.6 MB, 解壓后 7.8 MB, 包含 10,000 個樣本)
  • 測試集標簽:t10k-labels-idx1-ubyte.gz (5KB, 解壓后 10 KB, 包含 10,000 個標簽)

上述包含兩種類型的內容,一種是圖片,另外一種是標簽,圖片與標簽一一對應。但是這里的圖片并非是我們平時看到的圖片文件,而是一個二進制的文件。該數據集以一個二進制的形式對6萬個圖片進行了存儲。標簽則是圖片對應的真是數字。

如下圖所示,本文將數據集下載到本地,并且解壓后的結果。為了便于對比,這里面包含原始的壓縮包和解壓后的文件。

數據集的格式簡析

大家已經發現,壓縮包解壓后并非一個個的圖片,而是每個壓縮包對應著一個獨立的問題。而在這個文件中存儲著上萬個圖片或者標簽的信息。那么這些信息是如何存儲在這個文件當中的呢?

其實MNIST的官網給出了詳細的描述。以訓練集的圖片文件為例,官網給出的文件格式描述如下:

從上圖可以看出,前4個32位數是該訓練集的描述信息。其中第一個是魔數,為固定值0x0803;第二個是圖片的數量,0xea60,也就是60000;第三個和第四個是圖片的大小,也就是圖片是28*28像素。下面則是以一個字節來描述每個像素。由于該文件中以一個字節來描述一個像素,可以知道像素的值可以是從0到255。其中0表示白色,而255表示黑色。

標簽文件的格式與圖片文件的類似。前面有兩個32位數,其中第一個是魔數,固定值0x0801;第二個用于描述標簽的數量。接下來的數據是每個標簽的值,用一個字節表示。這里表示值的范圍是

對應實際訓練集的標簽文件的數據如下所示。可以看出與上述格式的描述是一致的。另外,我們可以看出,對應該標簽集,前面幾張圖片表示的數字分別應該是5,0,4,1等等。這里大家記一下,后面會用到。

關于數據集的文件格式我們了解了,下面我們實際操作一下。

數據集的可視化處理

知道上述數據的存儲格式后,我們就可以對數據進行解析了。比如下面本文實現了一個小程序,用于解析該圖片集合中的某個圖片,并得到可視化結果。當然,其實我們可以根據標簽集合的值知道圖片是什么,這里只是一個實驗。最終結果是以一個文本文件存儲的,用字符“Y”表示筆跡,字符“0”表示背景色。具體程序代碼很簡單,本文不再贅述。

# -*- coding: UTF-8 -*-
def trans_to_txt(train_file, txt_file, index):

with open(train_file, 'rb') as sf:
with open(txt_file, "w") as wf:
offset = 16 + (28*28*index)
cur_pos = offset
count = 28*28
strlen = 1
out_count = 1
while cur_pos < offset+count:
sf.seek(cur_pos)
data = sf.read(strlen)
res = int(data[0])

#雖然在數據集中像素是1-255表示顏色,這里簡化為Y
if res > 0 :
wf.write(" Y ")
else:
wf.write(" 0 ")

#由于圖片是28列,因此在此進行換行
if out_count % 28 == 0 :
wf.write("\n")

cur_pos += strlen
out_count += 1

trans_to_txt("../data/train-images.idx3-ubyte", "image.txt", 0)

我們運行上述代碼,可以得到一個名為image.txt的文件??梢钥吹皆撐募膬热萑缦隆F渲屑t色筆記是后面添加了,主要是為看的清楚一些。從圖中內容可以看出,這個其實就是手寫的“5”。

前面我們通過原生的Python接口對數據集進行了可視化的解析。Python有很多已經實現好的庫函數,因此我們可以通過一個庫函數簡化上述功能。

基于第三方庫解析數據

采用原生的Python接口實現起來略顯復雜。我們知道Python有很多第三方庫,因此我們可以借助第三方庫來實現對數據集的解析和展示,具體代碼如下。

# -*- coding: utf-8 -*-
import os
import struct
import numpy as np

# 讀取數據集,以二維數組的方式返回圖片信息和標簽信息
def load_mnist(path, kind='train'):
# 從指定目錄加載數據集
labels_path = os.path.join(path,
'%s-labels.idx1-ubyte'
% kind)
images_path = os.path.join(path,
'%s-images.idx3-ubyte'
% kind)
with open(labels_path, 'rb') as lbpath:
magic, n = struct.unpack('>II',
lbpath.read(8))
labels = np.fromfile(lbpath,
dtype=np.uint8)

with open(images_path, 'rb') as imgpath:
#解析圖片信息,存儲在images中
magic, num, rows, cols = struct.unpack('>IIII',
imgpath.read(16))
images = np.fromfile(imgpath,
dtype=np.uint8).reshape(len(labels), 784)

return images, labels

# 在終端打印某個圖片的數據信息
def print_image(data, index):
idx = 0;
count = 0;
for item in data[index]:
if count % 28 == 0:
print("")

if item > 0:
print("\033[7;31mY \033[0m", end="")
else:
print("0 ", end="")

count += 1

def main():
cur_path = os.getcwd()
cur_path = os.path.join(cur_path, "..\data")
imgs, labels = load_mnist(cur_path)
print_image(imgs, 0)


if __name__ == "__main__":
main()

上述代碼中分為兩步,第一步是將數據集解析到數組中,第二步是對數組中的某個圖片進行顯示。這里顯示也是通過文本的方式程序,只不過不是存儲在文件中,而是打印在終端。比如我們依然打印第一個圖片,其效果如下:

上述結果的呈現只是通過字符來模擬圖片。其實我們可以借助第三方庫實現更加完美的圖片呈現。接下來我們介紹一下如何通過matplotlib庫來呈現圖片。這個庫非常有用,后續還會接觸到這個庫。

我們實現一個

def show_image(data, index):
fig, ax = plt.subplots(nrows=1, ncols=1, sharex=True, sharey=True, )

img = data[0].reshape(28, 28)
ax.imshow(img, cmap='Greys', interpolation='nearest')

ax.set_xticks([])
ax.set_yticks([])
plt.tight_layout()
plt.show()

此時可以看到

實現上述功能的時候可能會缺少一些第三方庫,比如matplotlib等。此時需要我們手動進行安裝,具體方法如下:

pip install matplotlib -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

基于TensorFlow的數據解析

MNIST是如此出名,以至于TensorFlow已經對其進行了支持。因此,我們可以通過TensorFlow對其進行加載和解析。下面我們給出用TensorFlow實現的代碼。

# -*- coding: utf-8 -*-
from tensorflow.examples.tutorials.mnist import input_data
import pylab

def show_mnist():
# 通過TensorFlow庫解析數據
mnist = input_data.read_data_sets("../data", one_hot=True)
im = mnist.train.images[0]
im = im.reshape(28 ,28)
# 進行繪圖
pylab.imshow(im, cmap='Greys', interpolation='nearest')
pylab.show()

if __name__ == "__main__":
show_mnist()

該代碼實現的最終效果與上一個實例一致,這里不再贅述。

責任編輯:華軒 來源: 今日頭條
相關推薦

2021-02-22 10:59:43

人工智能機器學習深度學習

2021-03-30 13:45:00

人工智能

2022-03-30 14:30:34

人工智能機器學習模型

2021-07-27 13:30:25

人工智能機器學習深度學習

2018-05-11 14:34:24

人工智能機器學習深度學習

2018-07-12 11:11:46

人工智能AI術語

2020-11-10 16:03:06

人工智能編程語言Java

2022-06-20 11:05:58

通用人工智能機器人

2021-11-05 09:56:36

人工智能AI指數

2017-08-01 14:51:45

人工智能大數據深度學習

2021-04-07 10:48:45

人工智能深度學習

2022-03-15 16:06:39

人工智能AI

2020-03-11 16:07:12

人工智能AI技術

2020-12-24 13:52:36

人工智能自然語言處理NLP

2015-10-10 09:32:24

機器學習人工智能

2024-02-25 22:23:46

人工智能

2023-12-05 14:46:58

人工智能

2017-05-04 20:45:07

人工智能數據科學機器學習

2023-10-17 10:20:23

2021-04-07 10:52:35

人工智能深度學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩一区二区三区在线观看 | 成人精品一区亚洲午夜久久久 | 日韩国产中文字幕 | 国产午夜精品一区二区三区在线观看 | 精品国产免费人成在线观看 | 欧美日韩国产高清视频 | 免费av在线网站 | 艹逼网| 全免费a级毛片免费看视频免费下 | a黄毛片 | 91新视频| 中文字幕的av | 日韩美女在线看免费观看 | 精品久久影院 | 国产高清一区二区 | 天天操精品视频 | 欧美日韩成人 | 日韩av在线免费 | 人人干人人看 | 九九九久久国产免费 | 在线观看视频福利 | 亚洲精品久久久久久久久久久久久 | 综合久久99 | 亚洲午夜精品一区二区三区 | 日韩精品在线网站 | 成人性视频免费网站 | 天天玩天天操天天干 | 成人精品免费视频 | 国产美女一区二区 | 欧美日韩国产一区二区三区不卡 | 黑人巨大精品欧美一区二区一视频 | 美女视频久久 | 亚洲欧美激情精品一区二区 | 亚洲系列第一页 | 精品亚洲二区 | 久久精品高清视频 | 日韩av免费在线电影 | 免费国产黄 | 亚洲在线视频 | 婷婷色成人 | 欧美中文字幕 |