• 机器学习第1章 绪论


    未完成:1.公式推导 https://datawhalechina.github.io/pumpkin-book/#/chapter1/chapter1

        2.BP算法

    1.1引言

    经验以数据的形式存在,数据产生模型,模型提供判断

    计算机科学是研究“算法”的学问,机器学习是研究关于“学习算法”的学问

    模型泛指从数据中中学得的结果,有文献用“模型”指全局性结果(如一颗决策树),而用“模式”指局部性结果(如一条规则)

    1.2 基本术语(例子举得不太好,下面编不下去了,可以继续使用西瓜)

    记录的集合称为数据集(例:数据库中 一张表表示一个数据集,一个班级所有的学生)

    一条记录关于一个时间或者对象成为一个示例或一个样本(每个学生)

    学号,姓名,性别 称为属性或特征

    男,女称为属性值

    属性张成的空间称为“属性空间”或“样本空间”或“输入空间”

    学号,姓名,性别 作为3个坐标轴,则它们张成一个3维空间。

    每个学生都可以在这个空间中找到自己的坐标位置,因此将一个示例称为一个特征向量

    学得模型叫假设,潜在规律自身称之为真相或真实,学习过程就是为了找出或逼近真相

    y是所有标记的集合(好学生,坏学生)称为“标记空间”或“输出空间”

    预测的结果分为离散值(二分类【正类,反(负)类】和多分类)和连续值(回归)

    根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:监督学习 和无监督学习,分类和回归是前者的代表,聚类是后者的代表

    学得模型适用于新样本的能力,称为泛化能力。通常假设样本空间中全体样本服从一个未知分布,我们获得的每个样本都是独立的从这个分布上采样获得的,即“独立同分布”,一般而言,训练样本越多,我们得到关于D的信息就越多。

    1.3 假设空间

    指的是所有可能取值所形成的假设组成。

    在学习过程中,可能有多个假设与训练集一致即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间”。这个版本空间可以包含正值所有的判定。

    1.4归纳偏好

    归纳偏好就是有好几个模型适合我,但是我的偏好只有一个,里面用了一个“没有免费午餐”的证明,(反正我是看不懂,有南瓜书的推导公式,在文章的一开始)

    就是说这几个模型对的概率一样,但是这个证明没用,面对实际问题,我有我的偏好,所以不用管他,他就是站着说话不腰疼。

    1.5 发展历程

    符号主义

    连接主义

    统计学习

    不无关联就是有关系

    1.6应用现状

    数据挖掘是从海量数据中发掘知识。数据库领域的研究为数据挖掘提供数据管理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术。奥巴马选举成功得益于机器学习。

    1.7阅读材料

    介绍了一些材料和顶会,等学完了回过头来看可能会更懂一些吧。

  • 相关阅读:
    两路归并算法
    个性化搜索引擎调研(三)
    编程珠玑开篇磁盘文件排序问题
    Lucene里经常被聊到的几个话题
    成就霸业的座右铭(绝对经典)
    别人对你的态度,决定了你的命运
    iBATIS缓存实现分析[转]
    Taste/Thoth:Taste Architecture 概览【转Beyond Search】
    中文分词算法笔记
    ConcurrentModificationException主要原因及处理方法
  • 原文地址:https://www.cnblogs.com/cheshui/p/14295585.html
Copyright © 2020-2023  润新知