分类与监督学习，朴素贝叶斯分类算法

1.理解分类与监督学习、聚类与无监督学习。

简述分类与聚类的联系与区别。

联系：按照某种标准给对象贴标签，再根据标签来区分归类。

分类：相当于给数据贴标签，根据标签可以提高对数据认知的效率，降低认知成本。

聚类：是指事先没有“标签”而通过某种成因分析找出事物之间存在聚集性原因的过程。

区别：类别成因不同。

分类：是事先定义好类别，类别数不变，属于有指导学习范畴。

聚类：没有事先预定的类别，类别数不确定，类别在聚类过程中自动生成。

简述什么是监督学习与无监督学习。

监督学习：每个实列都是由一组特征和一个类别结果，组成；用有标注的数据训练模型，并产生一个推断的功能；对于新的实例，可以用于映射该实例的类别。

无监督学习：我们只知道一些特征，并不知道答案，但不同的实例具有一定的相似性，把那些相似的聚集在一起为无监督学习。

2.朴素贝叶斯分类算法实例

利用关于心脏情患者的临床数据集，建立朴素贝叶斯分类模型。

有六个分类变量(分类因子)：性别，年龄、KILLP评分、饮酒、吸烟、住院天数

目标分类变量疾病：–心梗–不稳定性心绞痛

新的实例：–(性别=‘男’，年龄<70, KILLP=‘I'，饮酒=‘是’，吸烟≈‘是”，住院天数<7)

最可能是哪个疾病？

上传演算过程。

3.编程实现朴素贝叶斯分类算法

利用训练数据集，建立分类模型。

输入待分类项，输出分类结果。

可以心脏情患者的临床数据为例，但要对数据预处理。

from sklearn.datasets import load_iris
iris = load_iris()
iris.data[55]

array([5.7, 2.8, 4.5, 1.3])

iris.target[55]

from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()  #模型
gnb.fit(iris.data,iris.target)  #训练
gnb.predict([[5.5, 2.0, 4.5, 1.3]])  #分类

array([1])

相关阅读:
176. Second Highest Salary
175. Combine Two Tables
172. Factorial Trailing Zeroes
171. Excel Sheet Column Number
169. Majority Element
168. Excel Sheet Column Title
167. Two Sum II
160. Intersection of Two Linked Lists
个人博客记录
<meta>标签

原文地址：https://www.cnblogs.com/SJMHJ/p/9962569.html