具有单隐层的前馈神经网络可以表示任何函数,但是网络参数可能大的不能实现,并且可能无法正确学习和泛化,很多情况下,使用更深的而模型能够减少表示期望函数所需的单元函数,增加拥有激活函数的神经元数目,增加激活函数嵌套的层数并且可以减少泛化误差。