• tensorflow中的卷积和池化层(一)


    在官方tutorial的帮助下,我们已经使用了最简单的CNN用于Mnist的问题,而其实在这个过程中,主要的问题在于如何设置CNN网络,这和Caffe等框架的原理是一样的,但是tf的设置似乎更加简洁、方便,这其实完全类似于Caffe的python接口,但是由于框架底层的实现不一样,tf无论是在单机还是分布式设备上的实现效率都受到一致认可。

    CNN网络中的卷积和池化层应该怎么设置呢?tf相应的函数是什么?具体的tutorial地址参见Tensorflow中文社区

    • 卷积(Convolution)
    1. conv2d: 一般卷积。函数原型:

      tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None)

    2. depthwise_conv2d:深度卷积。

      tf.nn.depthwise_conv2d(input, filter, strides, padding, name=None)

    3. separable_conv2d: 深度可分离卷积。

      tf.nn.separable_conv2d(input, depthwise_filter, pointwise_filter, strides, padding, name=None)

    上篇关于Mnist,我们使用的是conv2d,下面介绍一下这个函数。

    第一个参数input:指需要做卷积的输入图像,它要求是一个Tensor,具有[batch, in_height, in_width, in_channels]这样的shape,具体含义是[训练时一个batch的图片数量, 图片高度, 图片宽度, 图像通道数],注意这是一个4维的Tensor,要求类型为float32和float64其中之一。

    第二个参数filter:相当于CNN中的卷积核,它要求是一个Tensor,具有[filter_height, filter_width, in_channels, out_channels]这样的shape,具体含义是[卷积核的高度,卷积核的宽度,图像通道数,卷积核个数],要求类型与参数input相同,有一个地方需要注意,第三维in_channels,就是参数input的第四维。

    第三个参数strides:卷积时在图像每一维的步长,这是一个一维的向量,长度为4,通常为[1,×,×,1],表示只在输入图中做卷积,而跟channel和batch无关,通常×是相同的。

    第四个参数padding:string类型的量,只能是”SAME”,”VALID”其中之一,这个值决定了不同的卷积方式,“SAME”表示有padding的卷积,尤其在stride=[1,1,1,1]的情况下,输入和输出的tensor维度一样,这也正是在Mnist中采用的,这种也称为HALF padding,因为p=[k/2],向下取整。而“VALID”表示无padding,不在原始输入上加任何padding,直接卷积。

    第五个参数use_cudnn_on_gpu:bool类型,是否使用cudnn加速,默认为true。

    卷积的结果就是返回一个Tensor,这个输出,就是我们常说的feature map,feature map的维度取决于卷积和池化层,这和Caffe是类似的,那就是[batch,高度,宽度,通道数=卷积核个数]。

    • 池化Pooling
    1. avg_pool:平均池化。函数原型:

      tf.nn.avg_pool(value, ksize, strides, padding, name=None)

    2. max_pool:最大池化。函数原型: 

      tf.nn.max_pool(value, ksize, strides, padding, name=None)

    3. max_pool_with_argmax:计算池化区域中元素的最大值和该最大值所在的位置。函数原型:

      tf.nn.max_pool_with_argmax(input, ksize, strides, padding, Targmax=None, name=None)

    Mnist中使用的是max_pool方式,其和卷积类似。

    第一个参数value:池化的输入,池化层通常接在卷积层后面,所以输入通常是feature map,依然是[batch, height, width, channels]这样的shape。

    第二个参数ksize:池化窗口的大小,取一个四维向量,一般是[1, height, width, 1],同理不在batch和channels上做池化,所以这两个维度设为了1,通常height=width。

    第三个参数strides:和卷积类似,窗口在每一个维度上滑动的步长,一般也是[1, stride,stride, 1],步长为2,即为减半。

    第四个参数padding:和卷积类似,可以取’VALID’ 或者’SAME’。

    返回一个Tensor,类型不变,仍是feature map。其shape也是[batch, height, width, channels]这种形式。

  • 相关阅读:
    由于空间,注定的结果——第五届山东省ACM编程比赛总结
    GPS 偏移校正(WGS-84) 至(GCJ-02) java版本号以实现
    IM设计与实现的系统模块的聊天记录
    Android数据存储——SQLite数据库(模板)
    JAVA多线程和并发基础面试问答
    好博客
    浅谈Java中的equals和==
    JVM的内存区域划分
    try,catch,finally
    Java 如何有效地避免OOM:善于利用软引用和弱引用
  • 原文地址:https://www.cnblogs.com/cvtoEyes/p/8847488.html
Copyright © 2020-2023  润新知