一、基础概念
线性分类模型:决策面(decision boundary)是输入向量的线性函数
目标类别的表示"1 of K" :$ t = (0,1,0,0,0)^T$
二、分类问题的三种方式
1. 判别函数(discriminant function): 找到函数$f(x)$将输入$x$映射为类别标签
2. 生成式模型(generative model): 对条件概率$p(x|C_k)$和先验概率$p(C_k)$ 建模 然后通过贝叶斯定理计算. #求解模型复杂,但是可以求出边缘概率密度$p(x)$
3. 判别式模型(discriminative model): 直接对后验概率密度$p(C_k|x)$建模
判别函数:推广的线性模型(generalized linear model)
引入激活函数(activation function)$f(cdot),使得y(x) = f(W^t x + W_0)$
三、判别函数
线性判别函数参数学习方法:最小平方法,Fisher线性判别函数,感知器
最小平方法:对应于高斯分布条件假设下的极大似然法,而二值目标向量的概率分布不是高斯分布。此外最小平方法对异常点及其敏感。
Fihser 线性判别函数:最大化一个函数,这个函数能够让类均值的投影分开最大,同时让类内部的方差较小。
感知器算法:对应一个二分类模型,输入向量首先使用一个固定的非线性函数变换得到特征向量$phi(x)$然后使用这个特征向量构造一个二分
造一个一般的线性模型形式:$y(x) = f(w^Tphi(x))$
$$误差函数:E_P(w) = - sum_{nepsilon M} W^Tphi_n t_n$$
$$权向量迭代公式:w^{( au+1)} = w^{( au)} - eta Delta E_p(w) = w^{( au)}+etaphi_n t_n $$
四、概率生成模型
对条件分布概率和先验分布建模,然后使用贝叶斯定理计算后验分布概率。
对应于二分类模型:类别C_1后验概率可以写成:$p(C_1|x) =frac{p(x|C_1)P(C_1)}{p(x|C_1)P(C_1)+p(x|C_2)p(C_2)} = sigma(a)$
其中:$a = lnfrac{p(x|C_1)p(C_1)}{p(x|C_2)p(C_2)}$
对应于K>2个类别模型:$p(C_k|x) = frac{p(x|C_k)p(C_k)}{sum_j p(x|C_j)p(C_j)} = frac{a_k}{sum_jexp(a_j)}$
其中:$a_k = lnp((x|C_k)p(C_k))$
对于连续输入:假设条件类概率密度是高斯分布,且所有类比饿的协方差矩阵相同, $C_k$的类条件概率密度为:
$$p(x|C_k) = frac{1}{(2pi)^{D/2}} frac{1}{|sum|^{1/2}} expleft{-frac{1}{2}(x-mu_k)^Tsum^{-1}(x-mu_k) ight} $$