找到两篇比较好,能跟着推导下来的文章:
SoftMax函数,交叉熵损失函数与熵,对数似然函数
https://blog.csdn.net/qq_38469553/article/details/83860335
损失函数 - 交叉熵损失函数
https://zhuanlan.zhihu.com/p/35709485