先把问题贴出来:
问题主要来自神经网络各层对输入数据维度理解的问题,还是在理论上欠缺很多。
这是修改后的code:
1 # Author: Lee 2 import tensorflow as tf 3 import numpy as np 4 5 # 下载并载入mnist手写数据库 6 from tensorflow.examples.tutorials.mnist import input_data 7 8 mnist = input_data.read_data_sets('mnist', one_hot=True) 9 10 #None表示张量Tensor的第一个维度可以是任何维度, /255.是对灰色图像做归一化>>>input_x输入的数据经过神经网络得到预测的output_y 11 input_x = tf.placeholder(tf.float32, [None, 28 * 28]) / 255. 12 output_y = tf.placeholder(tf.int32, [None, 1 * 10]) 13 #对输入数据进行改变形状28 * 28 * 1, -1是维度设置为auto 14 input_x_images = tf.reshape(input_x, [-1, 28, 28, 1]) 15 16 #从测试Test数据集中选取3000个手写数字的图片和对应的标签 17 test_x = mnist.test.images[:3000] # 图片 18 test_y = mnist.test.labels[:3000] # 标签 19 20 #构建神经网络 21 #第一层卷积 filters,kernals size,strides 22 conv1 = tf.layers.conv2d( 23 inputs = input_x_images, # shape = [28, 28, 1] 24 filters = 32, # 32个过滤器(输出深度为32),相当于扫32遍 25 kernel_size = [5, 5], # 过滤器在二维的大小为5 * 5(2D卷积窗口的高度和宽度) 26 strides = 1, # 步长为1 27 padding = 'SAME', # padding补零方案,same表示输出大小不变(same和valid的算法需要参考官方文档),需要在外围补零两圈 28 activation = tf.nn.relu 29 ) 30 #经过第一层卷积之后的输出数据shape为28 * 28 * 32 31 32 #第一层池化(亚采样)pooling 33 pool1 = tf.layers.max_pooling2d( 34 inputs = conv1, 35 pool_size = [2, 2], # 过滤器在二维的大小,类比kernel_size 36 strides = 2, # 步长2 37 ) 38 #经过第一层池化之后的输出数据shape为14 * 14 * 32 39 40 #第二层卷积 filters,kernals size,strides 41 conv2 = tf.layers.conv2d( 42 inputs = pool1, # shape = [14, 14, 32] 43 filters = 64, # 64个过滤器,输出深度为64 44 kernel_size = [5, 5], # 过滤器在二维的大小为5 * 5,相当于过滤器大小 45 strides = 1, # 步长为1 46 padding = 'SAME', # padding补零方案,same表示输出大小不变,需要在外围补零两圈 47 activation = tf.nn.relu 48 ) 49 #经过第二层卷积之后的输出数据shape为14 * 14 * 64 50 51 #第二层池化(亚采样)pooling 52 pool2 = tf.layers.max_pooling2d( 53 inputs = conv2, 54 pool_size = [2, 2], # 过滤器在二维的大小,类比kernel_size 55 strides = 2, # 步长2 56 ) 57 #经过第一层池化之后的输出数据shape为7 * 7 * 64 58 59 #平坦化(flat),进行扁平化[7 * 7 * 64,] 60 flat = tf.reshape(pool2, [-1, 7 * 7 * 64]) 61 62 #1024个神经元的全连接层 63 dense = tf.layers.dense( 64 inputs = flat, 65 units = 1024, 66 activation = tf.nn.relu 67 ) 68 69 # Dropout 丢弃率为50%, Dropout的rate在[0,1] 70 dropout = tf.layers.dropout( 71 inputs = dense, 72 rate = 0.5 73 ) 74 75 # 10个神经元的全连接层, 这里不用激活函数做非线性化 76 logits = tf.layers.dense(inputs = dropout, units = 10) 77 #输出形状1 * 1 * 10 78 79 #计算误差<计算Cross_entropy(交叉熵),再用Softmax进行计算百分比> 80 loss = tf.losses.softmax_cross_entropy(onehot_labels = output_y, logits = logits) 81 82 #使用Adam优化器,Adam为默认优化器,learning_rate = 0.001 83 train_op = tf.train.AdamOptimizer(learning_rate = 0.001).minimize(loss) 84 85 #预测值和实际标签的匹配度 86 #返回(accuracy, update_op),能够创建两个局部变量 87 accuracy = tf.metrics.accuracy( 88 labels = tf.argmax(output_y, axis = 1), 89 predictions = tf.argmax(logits, axis = 1))[1] 90 91 92 #创建会话Session 93 sess = tf.Session() 94 95 #初始化变量:全局变量和局部变量 96 init = tf.group(tf.global_variables_initializer(), tf.local_variables_initializer()) 97 sess.run(init) 98 99 for i in range(30000): 100 batch = mnist.train.next_batch(50) 101 train_loss, train_op_ = sess.run([loss, train_op], {input_x: batch[0], output_y: batch[1]}) 102 if i % 100 == 0: 103 test_accuracy = sess.run(accuracy, {input_x: test_x, output_y: test_y}) 104 print("step:", i, "accuracy:", test_accuracy,'loss:', train_loss) 105 106 107 #测试, 预测值与真实值对比 108 test_output = sess.run(logits, {input_x: test_x[:20]}) 109 inferenced_y = np.argmax(test_output, 1) 110 #推测的数字 111 print('inferenced_data:',inferenced_y) 112 #实际数字 113 print('test_output_data:', np.argmax(test_y[:20],1))
由于自己的台式机太水,在训练的时候太耗费时间了!
我是按照这张图搭建的神经网络,在第二次池化到扁平化处理的时候,我一直没有理解好为什么维度不兼容,后来查阅了一些别人写的MNIST代码,虽然没看到别人用tensorflow的layer写,大部分人还是用的tf.nn写的,感觉差不多,我主要还是对神经网络的理解出现了偏差,导致在第二次池化到扁平化的处理的数据出现问题。因为在开始的output_y是[None,10],当时在扁平化的时候使用的是[-1, 1, 1, 1024],其中-1是自动根据上下数据进行调整维度,根据上图来看为1 * 1 * 1024,所以就理解成需要扁平化成[1, 1 , 1024],所以还是需要多看看别人写的代码,从中吸取一点经验!!!