1.学习的两种主流方式
专家系统与基于概率的系统最根本的区别就是:数据量的不同
数据量大则优先使用基于概率的系统;若数据量小或没有数据,则推荐使用专家系统。
2.专家系统介绍
专家系统的特点:能够处理不确定性、知识的表示、可解释性、可以做知识推理
3.机器学习入门介绍
(1)定义
(2)机器学习的分类
两大流派:<1>有监督的(Supervised Learning,即我们有一些训练数据,通过训练数据去构建一个模型)、无监督的(unsupervised Learning) <2>生成模型(generative model)、判别模型(discriminative)
<1>有监督学习
以情感分析为例,下图解释的有监督训练的模型
首先,给定一个语料库(即训练数据),该语料库包含文本(x)及其情感倾向判断结果(y),通过训练语料库,得到函数f,用来进行判别用户新的输入的情感倾向
下面是经典的有监督的算法:
<2>无监督学习
所给的训练数据只包含x,不含有y
常用的无监督学习的算法
<3>生成模型(generative model)和判别模型(discriminative model)
生成模型通过已经训练好的模型,可以用来生成图片、音乐、文本等,例如生成模型会学习猫、狗的特征,再利用学到的特征去判断用户输入的是猫或狗的概率P。
(3)模型的构建
<1>一般流程
特征工程耗时非常大,也是模型最重要的部分。
<2>端到端的模型(end to end learning)
<3>模型构建时的数据划分
为了更好的构建模型,一般将数据分为训练数据和测试数据。
4.朴素贝叶斯(Naive Bayes)
(1)问题引出
具体案例1如下:
下图计算了购买在垃圾邮件和正常邮件里出现的概率。
判断新邮件是否是垃圾邮件:
下图中,利用贝叶斯定理对第一个不等式进行转化
P(正常)为先验概率(可以根据样本直接获得)
上图中,P(正常)=24/(24+12)=2/3
具体案例2:
下图是朴素贝叶斯的具体应用案例。
在计算P(点击/垃圾)时,应用了平滑add-one smoothing
5.评估的方法
应用案例:
accuracy=3/6=0.5
precision=3/5=0.6
recall=3/4=0.75