机器学习（一）：生成学习算法Generative Learning algorithms

机器学习（一）：生成学习算法Generative Learning algorithms

前段时间开始研究图像检索，进展困难，于是回归基础，捧起PRML一书，无奈看起来极其晕乎，参考AN的的讲义才有点初步的认识。

1、概述：什么是生成学习算法

两类学习算法：判别学习算法（discriminative learning algorithm）和生成学习算法（generative learning algorithm）。DLA通过建立输入空间X与输出标注{1, 0}间的映射关系学习得到p(y|x)。而GLA首先确定p(x|y)和p(y)，由贝叶斯准则得到后验分布。通过最大后验准则进行预测，也即。

2、GDA（Gaussian Discriminant Analysis model）高斯判决模型

模型：二类问题

=============>

其中，输入特征x是连续随机变量。

训练：

对四个参数分别求极值（闭式解）：

GDA的优势：由于有高斯分布的先验信息，如果确实符合实际数据，则只需要少量的样本就可以得到较好的模型。对比之下，logistic回归模型有更好的鲁棒性。

3、Naive Bayes

输入特征X离散特征，并且有Naïve Bayes assumption，即xi在y的条件下独立：

，n为词表的维数。

训练模型（联合概率分布）：给定训练样本

，

其中，，

闭式解：

预测：输入一个n维特征值（如词表），由贝叶斯准则得到后验概率

由最大后验准则得到分类结果。

4、Laplace平滑

解决问题："新词"问题。（0/0）本质是输入样本特征空间维数的提升，旧的模型无法提供有效分类信息。

方法：拉普拉斯平滑，约束条件

5、文本分类的事件模型
相关阅读:
HttpCookie类
 WebClient类
 最大流算法 ISAP 模板和 Dinic模板
 拓扑序+dp Codeforces Round #374 (Div. 2) C
二分 Intel Code Challenge Elimination Round (Div.1 + Div.2, combined) D
线段树或者并查集 Intel Code Challenge Elimination Round (Div.1 + Div.2, combined) C
无源无汇有上下界的最大流
 并查集+bfs+暴力滑窗 Codeforces Round #356 (Div. 2) E
dfs Codeforces Round #356 (Div. 2) D
cookie+session
原文地址：https://www.cnblogs.com/zjgtan/p/3127490.html