batch_size就是为了让模型根据每个batch,去计算梯度,太大太小都不行,这个对模型的拟合是非常非常重要的
training sample=2918时,batch_size = 256无论怎么训练,都无法拟合(或者应该shuffle?)
而设置成64的时候,虽然训练比较慢,但是最终的拟合结果很好
batch_size就是为了让模型根据每个batch,去计算梯度,太大太小都不行,这个对模型的拟合是非常非常重要的
training sample=2918时,batch_size = 256无论怎么训练,都无法拟合(或者应该shuffle?)
而设置成64的时候,虽然训练比较慢,但是最终的拟合结果很好