• 机器学习(二)概念学习


    一.概念

    概念学习:是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。

    二.概念学习任务

    任何概念学习任务能被描述为:实例的集合、实例集合上的目标函数、候选假设的集合以及训练样例的集合。

                  EnjoySport概念学习任务

    已知:

      实例集X:可能的日子,每个日子由下面的属性描述:

        sky:(可取值 sunny,Cloudy和Rainy)

        AirTemp:(可取值为Warm和Cold)

        Humidity:(可取值为Normal和High)

        Wind:(可取值为:Strong和Weak)

        Water:(可取值为Warm和Cold)

        Forecast:(可取值为Same和Change)

      假设集H:每个假设描述为6个属性:Sky,AirTemp,Humidity,Wind,Water和Forecast的值约束的合取。约束可以为“?”(表示接受任意值),“ø”(表示拒绝所有值),或一特定值

      目标概念C:EnjoySport: X->{0,1}

      训练样例集D:目标函数的正例和反例

    求解:

      H中的一假设h,使对于X中任意x,h(x)=c(x)

     1.术语定义

    实例集(X):概念定义的实例集合

    目标概念(c):待学习概念或函数

    训练样例(D):每个样例为X中的一个实例x以及它的目标概念值c(x)。c(x)=1的实例被称为正例(positive example),c(x)=0的实例为反例(negative example),经常用序偶<x,c(x)>来描述训练样例。

    H表示所有可能假设的集合。H中每个假设H表示X上定义的布尔函数,即h:X->{0,1}。机器学习的目标就是寻找一个假设h,使对于X中的所有x,h(x)=c(x)。

    归纳学习假设:任一假设如果在足够大的训练样例集中很好地逼近目标函数,它也能在未见实例中很好地逼近目标函数。

     三.作为搜索的概念学习

    定义:令hj和hk为在X上定义的布尔函数。称hj more_general_than_or_equal_to hk(记做hjg hk当且仅当(∨x∈X)[(hk(x)=1)->(hj(x)=1)]

    hj more_specific_than hk ,当hk more_general_than hj

    四.FIND-S:寻找极大特殊假设

    从H中最特殊假设开始,然后在该假设覆盖正例失败时将其一般化(当一假设能正确地划分一个正例时,称该假设“覆盖”该正例)。

                                FIND-S算法

       1. 将h初始化为H中最特殊假设

       2.对每个正例x

        对h的每个属性约束ai

        如果x满足ai

        那么不做任何处理

        否则将h中ai替换为x满足的下一个更一般的约束

         3. 输出假设h

    五.变换空间和候选消除算法(CANDIDATE-ELIMINATION)

    FIND-S输出的假设只是H中能够拟合训练样例的多个假设中的一个。而在候选消除算法中,输出的是与训练样例一致的所有假设的集合。

    1.表示

    定义:一个假设h与训练样例集合D一致,当且仅当对D中每一个样例<x,c(x)>都有h(x)=c(x)。

           Consistent(h,D)≡(∨<x,c(x)>∈D) h(x)=c(x)

    定义:关于假设空间H和训练样例集D的变型空间,标记为VSH,D,是H中与训练样例D一致的所有假设构成的子集。

                         VSH,D≡{h∈H|Consistent(h,D)}

    2.列表后消除算法(LIST-THEN-ELIMINATE)

                         列表后消除算法

          1.变型空间VersionSpace<-包含H中所有假设的列表

      2.对每个训练样例<x,c(x)>

        从变型空间中移除所有h(x)≠c(x)的假设h

          3. 输出VersionSpace中个假设列表

    3.变型空间的更简洁表示

    定义:关于假设空间H和训练数据D的一般边界(general boundary)G,是在H中与D相一致的极大一般(maximally general)成员的集合。

                         

    定义:关于假设空间H和训练数据D的特殊边界(specific  boundaryS,是在H中与D相一致的极大特殊(maximally specific)成员的集合。

           

    变型空间的确切组成是:G中包含的假设,S中包含的假设已经G和S直接偏序结果所规定的假设。

    定理2.1:变型空间表示定理 令X为任意的实例集合,H为X上定义的布尔假设的集合。另c:X->{0,1}为X上定义的任一个目标概念,并令D为任一训练样例的集合{<x,c(x)>}。对所有的X,H,c,D以及良好定义的S和G:

           

    4.候选消除学习算法

        使用变型空间的候选消除算法

    将G集合初始化为H中极大一般假设

    将S集合初始化为H中极大特殊假设

    对每个训练例d,进行以下操作:

    • 如果d是一正例

          • 从G中移去所有与d不一致的假设

          • 对S中每个与d不一致的假设s

                 •从S中移去s

          • 把s的所有的极小一般化式h加入到S中,其中h满足

                 •h与d一致,而且G的某个成员比h更一般

          • 从S中移去所有这样的假设:它比S中另一假设更一般

    • 如果d是一个反例

          • 从S中移去所有d不一致的假设

          • 对G中每个与d不一致的假设g

                 •从G中移去g

                 •把g的所有的极小特殊化式h加入到G中,其中h满足

                       •h与d一致,而且S的某个成员比h更特殊

                 •从G中移去所有这样的假设:它比G中另一假设更特殊

    5.算法举例

    候选消除算法步骤(EnjoySport

     

    训练样例:

    1.<Sunny,Warm,Normal,Strong,Warm,Same>,EnjoySport=Yes

    2.<Sunny,Warm,High,Strong,Warm,Same>,EnjoySport=Yes

    S0和G0为最初的边界集合,分别对应最特殊和最一般假设。训练样例1和2使得S边界变得更一般,如FIND-S算法中一样,这些样例对G边界没有影响。

    训练样例:

    3.<Rainy,Cold,High,Strong,Warm,Change>,EnjoySport=No

    样例3是一个反例,他把G2边界特殊化为G3。注意在G3中有多个可选的极大一般假设。

     

    训练样例:

    4.<Sunny,Warm,High,Storage,Cool,Change>,EnjoySport=Yes

    正例是S边界更一般,从S3变为S4。G3的一个成员也必须被删除,因为它不再比S4更一般。

     

    EnjoySprot概念学习问题中的最终的变型空间

     

    六.归纳偏置

    1.无偏的学习器

    幂集(power set)把集合X的所有子集的集合称为幂集。

    新的假设空间H’,它能表示实例的每一个子集,也就是把H’对应到X的幂集。

    <Sunny,?,?,?,?,?>∨<Cloudy,?,?,?,?,?>

    2.无偏学习的无用性

    学习器如果不对目标概念的形式做预先的假定,它从根本上无法对未见实例进行分类。

    一般情况下任意的学习算法L以及为任意目标概念提供的任意训练数据Dc={<x,c(x)>}。训练过程结束后,L需要对新的实例xi进行分类。令L(xi,DC)表示在对训练数据Dc学习后L赋予xi的分类(正例或反例),我们可以如下描述L所进行的这一归纳推理过程:

    y表示z从y归纳推理得到。

    定义:考虑对于实例集合X的概念学习算法L。令c为X上定义的任一概念,并令Dc={<x,c(x)>}为c的任意训练样例集合。令L(xi,Dc)表示经过数据Dc的训练后L赋予实例xi的分类。L的归纳偏置是最小断言集合B,它使任意目标概念c和相应的训练样例Dc满足:

     

    候选消除算法的归纳偏置:目标概念c包含在给定的假设空间H中。

     

    使用假设空间H的候选消除算的输入输出行为,等价于利用了断言“H包含目标概念”的演绎定理证明器。该断言因此被称为候选消除算法的归纳偏置。用归纳偏置来刻画归纳系统,可以便于使用等价的演绎系统来模拟它们。这提供了一种对归纳系统进行比较的方法,即通过它们从训练数据中泛化的策略。

  • 相关阅读:
    POJ 1321 棋盘问题 (DFS)
    POJ 2676 Suduku
    Codeforce Segment Occurrences——string中substr的应用
    POJ 2492
    HDU 3088
    POJ 2992
    STL的sort排序
    mongoimport csv文件
    远程计算机或设备将不接受连接,IE无法上网
    注册MongoDB服务
  • 原文地址:https://www.cnblogs.com/lufangtao/p/3086935.html
Copyright © 2020-2023  润新知