婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識(shí)庫 > python讀取mnist數(shù)據(jù)集方法案例詳解

python讀取mnist數(shù)據(jù)集方法案例詳解

熱門標(biāo)簽:怎么辦理400客服電話 地圖標(biāo)注多個(gè) 高德地圖標(biāo)注收入咋樣 企業(yè)微信地圖標(biāo)注 鶴壁手機(jī)自動(dòng)外呼系統(tǒng)違法嗎 銀川電話機(jī)器人電話 萊蕪電信外呼系統(tǒng) B52系統(tǒng)電梯外呼顯示E7 沈陽防封電銷電話卡

mnist手寫數(shù)字?jǐn)?shù)據(jù)集在機(jī)器學(xué)習(xí)中非常常見,這里記錄一下用python從本地讀取mnist數(shù)據(jù)集的方法。

數(shù)據(jù)集格式介紹

這部分內(nèi)容網(wǎng)絡(luò)上很常見,這里還是簡明介紹一下。網(wǎng)絡(luò)上下載的mnist數(shù)據(jù)集包含4個(gè)文件:

前兩個(gè)分別是測試集的image和label,包含10000個(gè)樣本。后兩個(gè)是訓(xùn)練集的,包含60000個(gè)樣本。.gz表示這個(gè)一個(gè)壓縮包,如果進(jìn)行解壓的話,會(huì)得到.ubyte格式的二進(jìn)制文件。

上圖是訓(xùn)練集的label和image數(shù)據(jù)的存儲(chǔ)格式。兩個(gè)文件最開始都有magic number和number of images/items兩個(gè)數(shù)據(jù),有用的是第二個(gè),表示文件中存儲(chǔ)的樣本個(gè)數(shù)。另外要注意的是數(shù)據(jù)的位數(shù),有32位整型和8位整型兩種。

讀取方法

.gz格式的文件讀取

需要import gzip
讀取訓(xùn)練集的代碼如下:

def load_mnist_train(path, kind='train'): 
'‘'
path:數(shù)據(jù)集的路徑
kind:值為train,代表讀取訓(xùn)練集
‘'‘   
    labels_path = os.path.join(path,'%s-labels-idx1-ubyte.gz'% kind)
    images_path = os.path.join(path,'%s-images-idx3-ubyte.gz'% kind)
    #使用gzip打開文件
    with gzip.open(labels_path, 'rb') as lbpath:
	    #使用struct.unpack方法讀取前兩個(gè)數(shù)據(jù),>代表高位在前,I代表32位整型。lbpath.read(8)表示一次從文件中讀取8個(gè)字節(jié)
	    #這樣讀到的前兩個(gè)數(shù)據(jù)分別是magic number和樣本個(gè)數(shù)
        magic, n = struct.unpack('>II',lbpath.read(8))
        #使用np.fromstring讀取剩下的數(shù)據(jù),lbpath.read()表示讀取所有的數(shù)據(jù)
        labels = np.fromstring(lbpath.read(),dtype=np.uint8)
    with gzip.open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
        images = np.fromstring(imgpath.read(),dtype=np.uint8).reshape(len(labels), 784)
    return images, labels

讀取測試集的代碼類似。

非壓縮文件的讀取

如果在本地對四個(gè)文件解壓縮之后,得到的就是.ubyte格式的文件,這時(shí)讀取的代碼有所變化。

def load_mnist_train(path, kind='train'): 
'‘'
path:數(shù)據(jù)集的路徑
kind:值為train,代表讀取訓(xùn)練集
‘'‘   
    labels_path = os.path.join(path,'%s-labels-idx1-ubyte'% kind)
    images_path = os.path.join(path,'%s-images-idx3-ubyte'% kind)
    #不再用gzip打開文件
    with open(labels_path, 'rb') as lbpath:
	    #使用struct.unpack方法讀取前兩個(gè)數(shù)據(jù),>代表高位在前,I代表32位整型。lbpath.read(8)表示一次從文件中讀取8個(gè)字節(jié)
	    #這樣讀到的前兩個(gè)數(shù)據(jù)分別是magic number和樣本個(gè)數(shù)
        magic, n = struct.unpack('>II',lbpath.read(8))
        #使用np.fromfile讀取剩下的數(shù)據(jù)
        labels = np.fromfile(lbpath,dtype=np.uint8)
    with gzip.open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
        images = np.fromfile(imgpath,dtype=np.uint8).reshape(len(labels), 784)
    return images, labels

讀取之后可以查看images和labels的長度,確認(rèn)讀取是否正確。

到此這篇關(guān)于python讀取mnist數(shù)據(jù)集方法案例詳解的文章就介紹到這了,更多相關(guān)python讀取mnist數(shù)據(jù)集方法內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python rindex()方法案例詳解
  • Python 實(shí)現(xiàn)靜態(tài)鏈表案例詳解
  • Python 概率生成問題案例詳解
  • Python 二叉樹的概念案例詳解
  • Python實(shí)現(xiàn)堆排序案例詳解
  • 超實(shí)用的 10 段 Python 案例

標(biāo)簽:湘西 呼倫貝爾 呼倫貝爾 銀川 三亞 葫蘆島 安慶 烏魯木齊

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《python讀取mnist數(shù)據(jù)集方法案例詳解》,本文關(guān)鍵詞  python,讀取,mnist,數(shù)據(jù),集,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《python讀取mnist數(shù)據(jù)集方法案例詳解》相關(guān)的同類信息!
  • 本頁收集關(guān)于python讀取mnist數(shù)據(jù)集方法案例詳解的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    主站蜘蛛池模板: 措美县| 沅江市| 视频| 新兴县| 卫辉市| 河曲县| 灵台县| 麟游县| 高陵县| 盐亭县| 丰县| 樟树市| 沛县| 合肥市| 商洛市| 青岛市| 高青县| 田林县| 盐山县| 新民市| 永丰县| 沈丘县| 唐海县| 得荣县| 武穴市| 庐江县| 阜宁县| 酉阳| 怀柔区| 昌邑市| 洛扎县| 漳平市| 台南市| 南岸区| 始兴县| 衢州市| 许昌市| 五峰| 安吉县| 保亭| 泗水县|