softmax是logisitic regression在多酚类问题上的推广,(W=[w_1,w_2,...,w_c])为各个类的权重因子,(b)为各类的门槛值。不要想象成超平面,否则很难理解,如果理解成每个类的打分函数,则会直观许多。预测时我们把样本分配到得分最高的类。
Notations:
- (x):输入向量,(d imes 1)列向量,(d)是feature数
- (W):权重矩阵,(c imes d)矩阵,(c)是label数
- (b):每个类对应超平面的偏置组成的向量, (c imes 1)列向量
- (z=Wx+b):线性分类器输出, (c imes 1)列向量
- (hat{y}):softmax函数输出, (c imes 1)列向量
- 记(vec{e}_j=[0,...,1,...,0]^Tinmathbb{R}^{c imes 1}),其中(1)出现在第(j)个位置
- (1_c)表示一个全(1)的(c)维列向量
- (y):我们要拟合的目标变量,是一个one-hot vector(只有一个1,其余均为0),也是 (c imes 1)列向量 。 我们将其转置,表示为一个列向量:
[y=[0,...,1,...,0]^T
]
他们之间的关系:
[left{egin{aligned}&z=Wx+b\& hat{y}=mathrm{softmax}(z)=frac{exp(z)}{1_c^Texp(z)} end{aligned}
ight.
]
cross-entropy error定义为:
[CE(z) = -y^Tlog(hat{y})
]
因为(y)是一个one-hot vector(即只有一个位置为1),假设(y_k=1),那么上式等于(-log(hat{y}_k)=-log(frac{exp(z_k)}{sumlimits_i exp(z_i)})=-z_k+log(sumlimits_i exp(z_i)))
依据chain rule有:
[ egin{aligned}frac{partial CE(z)}{partial W_{ij}}
&=trigg(ig(frac{partial CE(z)}{partial z}ig)^Tfrac {partial z}{partial W_{ij}}igg)\
&=trigg( ig(frac{partial hat{y}}{partial z}cdotfrac{partial CE(z)}{partial hat{y}}ig)^Tfrac {partial z}{partial W_{ij}} igg)end{aligned}]
注:这里我用了Denominator layout
,因此链式法则是从右往左的。
我们一个一个来求。
[egin{equation}egin{aligned}frac{partial hat{y}}{partial z}&=frac{partial ( frac{exp(z)}{1_c^Texp(z)})}{partial z}\&= frac{1}{1_c^Texp(z)}frac{partial exp(z)}{partial z}+ frac{partial (frac{1}{1_c^Texp(z)})}{partial z}( exp(z) )^T\&= frac{1}{1_c^Texp(z)}diag(exp(z))-frac{1}{(1_c^Texp(z))^2}exp(z)exp(z)^T\&=diag(frac{exp(z)}{1_c^Texp(z)})-frac{exp(z)}{1_c^Texp(z)}cdot (frac{exp(z)}{1_c^Texp(z)})^T\&=diag(mathrm{ softmax}(z))- mathrm{ softmax}(z) mathrm{ softmax}(z)^T\&=diag(hat{y})-hat{y}hat{y}^T end{aligned}label{eq1}end{equation}
]
注:上述求导过程使用了Denominator layout
。
设$a=a( oldsymbol{ x}),oldsymbol{u}= oldsymbol{u}( oldsymbol{x}) (,这里) oldsymbol{ x}(特意加粗表示是列向量,)a(没加粗表示是一个标量函数,) oldsymbol{u}(加粗表示是一个向量函数。在`Numerator layout`下,)frac{partial a oldsymbol{u}}{ oldsymbol{x}}=afrac{partial oldsymbol{u}}{partial oldsymbol{x}}+ oldsymbol{u}frac{partial a}{partial oldsymbol{x}} (,而在`Denominator layout`下,则为)frac{partial a oldsymbol{u}}{partial oldsymbol{x}}=afrac{partial oldsymbol{u}}{partial oldsymbol{x}}+frac{partial a}{partial oldsymbol{x}} oldsymbol{u}^T$,对比可知上述推导用的实际是Denominator layout
。
以下推导均采用 Denominator layout,这样的好处是我们用梯度更新权重时不需要对梯度再转置。
[egin{equation}frac{partial CE(z)}{partial hat{y}}=frac{partial log(hat{y})}{partial hat{y}}cdot frac{partial (-y^Tlog(hat{y}))}{partial log(hat{y})}=ig(diag(hat{y})ig)^{-1}cdot(-y)label{eq2}end{equation}
]
(z)的第(k)个分量可以表示为:(z_k=sumlimits_j W_{kj}x_j+b_k),因此
[egin{equation}frac{partial z}{partial W_{ij}} =egin{bmatrix}frac{partial z_1}{partial W_{ij}}\vdots\frac{partial z_c}{partial W_{ij}}end{bmatrix}=[0,cdots, x_j,cdots, 0]^T=x_j vec{e}_ilabel{eq3}end{equation}
]
其中(x_j)是向量(x)的第(j)个元素,为标量,它出现在第(i)行。
综合(eqref{eq1},eqref{eq2},eqref{eq3}),我们有
[egin{aligned}frac{partial CE(z)}{partial W_{ij}}&=trigg(ig( (diag(hat{y})-hat{y}hat{y}^T)cdot (diag(hat{y}))^{-1} cdot (-y) ig)^Tcdot x_j vec{e}_i igg)\&=trigg(ig( hat{y}cdot (1_c^Ty)-yig)^Tcdot x_j vec{e}_i igg)\&=(hat{y}-y)^Tcdot x_j vec{e}_i={err}_ix_jend{aligned}
]
其中({err}_i=(hat{y}-y)_i)表示残差向量的第(i)项
我们可以把上式改写为
[frac{partial CE(z)}{partial W}=(hat{y}-y)cdot x^T
]
同理可得
[frac{partial CE(z)}{partial b}=(hat{y}-y)
]
那么在进行随机梯度下降的时候,更新式就是:
[egin{aligned}&W leftarrow W - lambda (hat{y}-y)cdot x^T \&b leftarrow b - lambda (hat{y}-y)end{aligned}
]
其中(lambda)是学习率