未完成:1.公式推导 https://datawhalechina.github.io/pumpkin-book/#/chapter1/chapter1
2.BP算法
1.1引言
经验以数据的形式存在,数据产生模型,模型提供判断
计算机科学是研究“算法”的学问,机器学习是研究关于“学习算法”的学问
模型泛指从数据中中学得的结果,有文献用“模型”指全局性结果(如一颗决策树),而用“模式”指局部性结果(如一条规则)
1.2 基本术语(例子举得不太好,下面编不下去了,可以继续使用西瓜)
记录的集合称为数据集(例:数据库中 一张表表示一个数据集,一个班级所有的学生)
一条记录关于一个时间或者对象成为一个示例或一个样本(每个学生)
学号,姓名,性别 称为属性或特征
男,女称为属性值
属性张成的空间称为“属性空间”或“样本空间”或“输入空间”
学号,姓名,性别 作为3个坐标轴,则它们张成一个3维空间。
每个学生都可以在这个空间中找到自己的坐标位置,因此将一个示例称为一个特征向量
学得模型叫假设,潜在规律自身称之为真相或真实,学习过程就是为了找出或逼近真相
y是所有标记的集合(好学生,坏学生)称为“标记空间”或“输出空间”
预测的结果分为离散值(二分类【正类,反(负)类】和多分类)和连续值(回归)
根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:监督学习 和无监督学习,分类和回归是前者的代表,聚类是后者的代表
学得模型适用于新样本的能力,称为泛化能力。通常假设样本空间中全体样本服从一个未知分布,我们获得的每个样本都是独立的从这个分布上采样获得的,即“独立同分布”,一般而言,训练样本越多,我们得到关于D的信息就越多。
1.3 假设空间
指的是所有可能取值所形成的假设组成。
在学习过程中,可能有多个假设与训练集一致即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间”。这个版本空间可以包含正值所有的判定。
1.4归纳偏好
归纳偏好就是有好几个模型适合我,但是我的偏好只有一个,里面用了一个“没有免费午餐”的证明,(反正我是看不懂,有南瓜书的推导公式,在文章的一开始)
就是说这几个模型对的概率一样,但是这个证明没用,面对实际问题,我有我的偏好,所以不用管他,他就是站着说话不腰疼。
1.5 发展历程
符号主义
连接主义
统计学习
不无关联就是有关系
1.6应用现状
数据挖掘是从海量数据中发掘知识。数据库领域的研究为数据挖掘提供数据管理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术。奥巴马选举成功得益于机器学习。
1.7阅读材料
介绍了一些材料和顶会,等学完了回过头来看可能会更懂一些吧。