softmax 分类器

softmax 分类器
softmax 分类器
两种常用的分类器之一。

1.从两个角度理解

（1）信息论中交叉熵

$H (p, q) = - \sum_{x} p (x) l o g (q (x)) = H (p) + D_{K L} (p | | q)$

p是指真实的分布，q是估计的分布。
式中H(p)是真实分布的熵，当给定分布，熵就确定；
是相对熵。
softmax分类器就是要最小化估计分类概率和真实分布之间的交叉熵。
交叉熵用于评估两个分布的相似度。

（2）概率的角度

softmax函数
$P (y_{i} | x_{i}, w) = \frac{e^{f_{y_{i}}}}{\sum_{j} e^{f_{j}}}$

给定输入和参数w，分配给正确分类标签的归一化概率。

2. softmax在实际应用中的问题

softmax函数
$P (y_{i} | x_{i}, w) = \frac{e^{f_{y_{i}}}}{\sum_{j} e^{f_{j}}}$

分子和分母都做指数运算，当数值很大的时候，会出现指数爆炸等问题。
常用的处理方法是分子分母同时乘以一个常数C，

$\frac{e^{f_{y_{i}}}}{\sum_{j} e^{f_{j}}} = \frac{C e^{f_{y_{i}}}}{C \sum_{j} e^{f_{j}}} = \frac{e^{f_{y_{i}} + l o g C}}{\sum_{j} e^{f_{j} + l o g C}}$

C通常取值为,使最大的值为0.
```
# python实现
 f -= np.max(f)
 p = np.exp(f)/np.sum(np.exp(f))
```
3. 一个简单的示例

这里需要强调的是：最后的输出直接由权重上一层的输出+偏置*求得，并没有经过sigmoid函数。
这里的输出结果是 $[- 2.85, 0.86, 0.28]$ 。

1) 先求 $e^{f_{j}}$ ,

$[e^{- 0.285}, e^{0.86}, e^{0.28}] = [0.058, 2.36, 1.32]$

2) 求

$e^{- 0.285} + e^{0.86} + e^{0.28} = 0.058 + 2.36 + 1.32 = 3.738$

3) 求输出概率

$P (y_{1} | x_{1}, w) = \frac{e^{f_{y_{1}}}}{\sum_{j} e^{f_{j}}} = \frac{0.058}{3.738} = 0.016$

$P (y_{2} | x_{1}, w) = \frac{e^{f_{y_{2}}}}{\sum_{j} e^{f_{j}}} = \frac{2.36}{3.738} = 0.631$

$P (y_{3} | x_{1}, w) = \frac{e^{f_{y_{3}}}}{\sum_{j} e^{f_{j}}} = \frac{1.32}{3.738} = 0.0353$

softmax估算出每个类别的可能性。
给一个类别的打分为 $[1, - 2, 0]$ ,softmax通过上述的计算，得到概率输出 $[0.7, 0.04, 0.26]$ 。
进一步考虑正则项的影响，假设惩罚使得得分的输出变为原来的 $\frac{1}{2}$ ，即 $[1, - 2, 0]$ => $[0.5, - 1, 0]$ 时，最终得到的输出为 $[0.55, 0.12, 0.33]$ .
softmax分类器会使正确的分类获得更大的概率，使错误的分类得到更小的概率。

（1）CS231n课程笔记翻译：线性分类笔记（下）
https://zhuanlan.zhihu.com/p/21102293?refer=intelligentunit
（2）cs231n-assignment1-SVM/Softmax/two-layer-nets梯度求解
https://blog.csdn.net/pjia_1008/article/details/66972060
（3）CS231n课程学习笔记（三）——Softmax分类器的实现
https://blog.csdn.net/stalbo/article/details/79379078
（4）斯坦福大学深度学习公开课cs231n学习笔记（9）softmax分类和神经网络分类代码实现
https://blog.csdn.net/piaoxuezhong/article/details/78818572
相关阅读:
【SQL】SQL Server登录常见问题
 【毒思】纪念我死去的爱情
 【毒思】化蝶双飞
 VS2013常用快捷键你敢不会？
SSIS 更新变量
 一次SSIS Package的调试经历
 binary 和 varbinary 用法全解
 Execute SQL Task 第二篇：返回结果集
 OLEDB 命令转换组件的用法
 脚本组件的用法
原文地址：https://www.cnblogs.com/siucaan/p/9623144.html

1.从两个角度理解

（1）信息论中交叉熵

（2）概率的角度

2. softmax在实际应用中的问题

3. 一个简单的示例