• Theano mnist数据集格式


    首先链接一篇大牛的Theano文档翻译:http://www.cnblogs.com/xueliangliu/archive/2013/04/03/2997437.html

    里面有mnist.pkl.gz 手动下载地址(因为代码里也有自动下载方法)

    那么我不是做图像处理的,所以对图像的存储格式没有什么概念,我要以其他方式输入进theano程序中怎么办呢?

    于是就得分析它的存储格式。代码(logistic_sgd.py,line 195)注释中说的已经很清楚了:

    #train_set, valid_set, test_set format: tuple(input, target)
    #input is an numpy.ndarray of 2 dimensions (a matrix)
    #witch row's correspond to an example. target is a
    #numpy.ndarray of 1 dimensions (vector)) that have the same length as
    #the number of rows in the input. It should give the target
    #target to the example with the same index in the input.

    那么就是说train_X是一个rows行2列的矩阵,train_Y是一个rows维的向量,而train_set是train_X和train_Y的一个组合

    那么我们只需要读文件构建矩阵和向量,然后share成theano程序里的类型就ok啦

    ===================割=========================

    想不到后来又重拾DL,如今已经是今非昔比了啊

    再次补充一下Mnist数据集的格式

    import cPickle, gzip, numpy
    
    # Load the dataset
    f = gzip.open('mnist.pkl.gz', 'rb')
    train_set, valid_set, test_set = cPickle.load(f)
    f.close()

    事实证明它会返回一个tuple,分别是train vali test集。

    每个集有两维,以train set为例,分别是(50000, 784) (50000,1)代表着5W个样本和5W个label,

    每个样本有784个维度 = 28*28

  • 相关阅读:
    Codeforces 758D:Ability To Convert(思维+模拟)
    Codeforces 758B:Blown Garland(模拟)
    BZOJ-1053 反素数
    BZOJ-1024 生日快乐
    BZOJ-1036 树的统计
    BZOJ-1029 建筑抢修
    BZOJ-1059 矩阵游戏
    BZOJ-1026 windy数
    BZOJ-1019 汉诺塔
    BZOJ-1031 字符加密
  • 原文地址:https://www.cnblogs.com/zklidd/p/3886597.html
Copyright © 2020-2023  润新知