前面的5组pooling层:
feature map 的** width 和 height** 随着每个pool操作缩小50%,5个pool 操作使得 width 和 height 逐渐变化:224->112->56->28->14->7,
但是深度depth(或说是channel数),随着5组卷积在每次增大一倍:3->64->128->256->512->512。
特征信息从一开始输入的224x224x3被变换到7x7x512(大概25000),从原本较为local的信息逐渐分摊到不同channel上,随着每次的conv和pool操作打散到channel层级上。
三组全连接层:
结构:前两组fc的形式是:fc4096-relu-dropout0.5,最后一个fc的形式就是:fc1000。
①可以发现feature map的维度在最后一个卷积后达到7x7x512(大概25000),紧接着压缩到4096维,
②过渡:可能是作者认为这个过程太急,又接一个fc4096作为缓冲,
同时两个fc4096后的relu又接dropout0.5 去过渡这个过程,
③因为最后即将给1k-way softmax,所以又接了一个fc1000去降低softmax的学习压力。