keras学习（三）调用RNN层处理mnist

这次是使用RNN来处理mnist，正常应该会自己搭建RNN模型，然后训练，最后对模型进行评估，但是keras对RNN封装的很好了，直接调用就行了。
SimpleRNN层：keras.layers.recurrent.SimpleRNN(output_dim, init='glorot_uniform', inner_init='orthogonal', activation='tanh', W_regularizer=None, U_regularizer=None, b_regularizer=None, dropout_W=0.0, dropout_U=0.0)
这是全连接RNN层，output_dim为输出层维度，现在已经改成units了；input_shape输入尺寸，不过上面没写；activation为激活函数；其他的很多属性一般情况下都不用设置，keras官方中文文档也有，所以就不写了（懒！@..@）。还有LSTM层，这次我也没用到。所以没研究。唉，没有学术精神！
第一步，惯例，导入包和设置随机种子，随机种子使得每次运行程序生成随机数那个操作结果是一样的。utils是工具包；datasets是数据包，models是模型包，还是只用到Sequential；layers是层包，SimpleRNN是层，并不是一个模型；optimizers是优化器。

import keras
import numpy as np
np.random.seed(1337)
from keras.utils import np_utils
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import SimpleRNN, Activation, Dense
from keras.optimizers import Adam

第二步，设置一些数据，其实不设置也没事，用到哪些数据，直接用数字代替也行，设置了的话修改和查看比较方便。

TIME_STEPS = 28  #等于图片高度(矩阵的行数)，每次读取一行，图片大小是28*28，因此需要读取28次
INPUT_SIZE = 28  #等于图片宽度（矩阵的高数），每次读取一行中的多少个像素，一行有28个
BATCH_SIZE = 50  #每次训练50张图片
BATCH_INDEX = 0  #生成数据
OUTPUT_SIZE = 10  #输出的尺寸，每次输出是0-9的数据，所以为10个[0,1,0 0 0 0 0 0 0 0]这个形式
CELL_SIZE = 50  #RNN里面的隐藏层个数
LR = 0.001  #学习率

第三步，导入数据以及对数据进行预处理。

#数据
(x_train, y_train), (x_test, y_test) = mnist.load_data() #从库中导入数据

x_train = x_train.reshape(-1, 28, 28) / 255  #x数据需要归一化，不然数据太乱
x_test = x_test.reshape(-1, 28, 28) / 255
y_train = np_utils.to_categorical(y_train, 10) #y设成one hot数据标签
y_test = np_utils.to_categorical(y_test, 10)

第四步，建立模型

#建立模型
model = Sequential()
model.add(SimpleRNN(  #直接调用封装的RNN层就可以了，就相当于已经完成了RNN模型的搭建
    units=CELL_SIZE,     #输出就是隐藏层个数
    input_shape=(TIME_STEPS, INPUT_SIZE), #输入尺寸就是28*28

))
model.add(Dense(OUTPUT_SIZE)) #最后接一个全连接层，就OK了，最后输出尺寸为10
model.add(Activation('softmax'))
#编译
adam = Adam(LR) #设置优化器参数
model.compile(optimizer=adam, loss='categorical_crossentropy', metrics=['accuracy'])

最后进行训练和测试，这次的训练过程我是明白了，但是为什么这么训练，为什么不是直接全部训练，而是一步一步的来，我并不是很懂！

#训练
for step in range(4001): #循环4001次
    #取x_train和y_train中的一部分数据
    x_batch = x_train[BATCH_INDEX:BATCH_SIZE+BATCH_INDEX, :, :]  #取出的尺寸为(50,28,28)
    y_batch = y_train[BATCH_INDEX:BATCH_SIZE+BATCH_INDEX, :]  #取出的尺寸为(50,10)

    cost = model.train_on_batch(x_batch, y_batch) #一次循环拿50个数据进行训练

    BATCH_INDEX += BATCH_SIZE #第一次去前50个数据，下一次就取50-100这50个数据，以此类推
    BATCH_INDEX = 0 if BATCH_INDEX >= x_train.shape[0] else BATCH_INDEX #如果数据取完了，就从头开始，没有就继续接着之前的取

#测试
    if step % 500 == 0:
        cost, accuracy = model.evaluate(x_test, y_test, batch_size=y_test.shape[0]) #一次性拿50个测试数据进行测试
        print(cost, accuracy)

最后的训练过程如下：

相关阅读:
企业身份识别系统 corporate Identity System
初试C#中的应用程序+SQLServer编写
 组策略对软件使用的限制
 Ajax初试
 Web技术应用率报告
 领导者必须抵御的诱惑
 asp与网站安全的初步构想（1）——操作系统安全
 XP 的Bug？
C#的多线程（2）——机制探索
 网站设计
原文地址：https://www.cnblogs.com/hecong/p/13451899.html