http://freemind.pluskid.org/machine-learning/softmax-vs-softmax-loss-numerical-stability/
softmax 在 Logistic Regression 里起到的作用是将线性预测值转化为类别概率
1.最大似然估计通常使用log-likelihood,并且是negative log-likelihood,将最大化转换为最小化
2.softmax loss是将softmax和最大似然估计结合起来
softmax-loss原本公式如下:
j表示的是第几个类别,由于gt只有一个类别,所以公式简化为: