多类 SVM 的损失函数及其梯度计算

多类 SVM 的损失函数及其梯度计算
CS231n Convolutional Neural Networks for Visual Recognition —— optimization

1. 多类 SVM 的损失函数（Multiclass SVM loss）

在给出类别预测前的输出结果是实数值，也即根据 score function 得到的 score（s=f(xi,W)），

Li=∑j≠yimax(0,sj−syi+Δ),Δ=1（一般情况下）
- yi 表示真实的类别，syi 在真实类别上的得分；
- sj,j≠yi 在其他非真实类别上的得分，也即预测错误时的得分；
则在全体训练样本上的平均损失为：

L=1N∑i=1NLi
```
delta = 1
scores = np.dot(W, X)
correct_scores = scores[y, np.arange(num_samples)]

diff = score - correct_scores + delta
diff[y, np.arange(num_samples)] = 0

thresh = np.maximum(0, diff)
loss = np.sum(thresh)
loss /= num_samples
```
2. 优化（optimization）：梯度计算

首先来看损失函数的定义，如下为第 i 个样本的损失值（Wc×d⋅Xd×N，d 特征向量的维度，c：输出类别的个数）：

Li==∑j≠yimax(0,sj−syi+1)∑j≠yi[max(0,wTjxi−wTyixi+1)]
- 遍历 j，就是遍历 W 每一列的每一个元素， wTjxi⇒j=1,…,c;i=1,…,N
- wTj 表示 W 的每一行，共 c 行；
下面的额关键是如何求得损失函数关于参数 wj,wyi 的梯度：

∇wyiLi=−⎛⎝∑j≠yi1(wTjxi−wTyixi+Δ>0)⎞⎠xi∇wjLi=1(wTjxi−wTyixi+Δ>0)xij≠yi
```
binary = thresh 
binary[thresh > 0] = 1          # 实现 indicator 函数

col_sum = np.sum(binary, axis=0)
binary[y, np.arange(num_samples)] = -col_sum

dW = np.dot(binary, X.T)        # binary 维度信息：c*N, X 维度信息：d*N
dW /= N

dW += reg * W
```
相关阅读:
标识符
 Bootstrap笔记——Checkbox选项组
 servlet实现简单验证码
 javascript笔记——登录表单验证
 JSP的隐式对象（page,config,pageContext,exception）
创建Servlet文件不自动生成web.xml原因
 JSP的隐式对象（application）
前端开发工具——brackets的使用
 《Shell脚本学习 —— Shell变量、字符串、数组、注释》
《开发板 — 3399pro备份整个文件系统》
原文地址：https://www.cnblogs.com/mtcnn/p/9421594.html

热门文章
好热
 无论如何
 类的编写
 方法
 switch case
字符串比较
 运算符
 变量的内存分析（图）
基本数据类型
 字符编码

多类 SVM 的损失函数及其梯度计算

1. 多类 SVM 的损失函数（Multiclass SVM loss）

2. 优化（optimization）：梯度计算