implementation:
最近实践心得: COCOB这个优化器,发现在某些网络的训练上面非常的不稳定,还是设置Adam比较靠谱。。。。
lr cosine 的学习率的设计方式一般和momentum optimizer搭配~~~~~
记录一下自己给跪的理解力:
tf.nn.seperable_conv2d(inputs, depthwise_filter, pointwise_filter)
depthwise_filter: [filter_height, filter_width, in_channels, channel_multiplier]
pointwise_filter: [1, 1, channel_multiplier * in_channels, out_channels]
output[b, i, j, k] = sum_{di, dj, q, r}
input[b, strides[1] * i + di, strides[2] * j + dj, q] *
depthwise_filter[di, dj, q, r] *
pointwise_filter[0, 0, q * channel_multiplier + r, k]
所以其实这边对应的操作就是depthwise_filter的第i层只对input的第i层操作。