机器学习（二）概念学习

机器学习（二）概念学习
一.概念

概念学习：是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。

二.概念学习任务

任何概念学习任务能被描述为：实例的集合、实例集合上的目标函数、候选假设的集合以及训练样例的集合。

　　　　　　　　　　　　　　EnjoySport概念学习任务

已知：

　　实例集X：可能的日子，每个日子由下面的属性描述：

　　　　sky:(可取值 sunny,Cloudy和Rainy)

　　　　AirTemp:(可取值为Warm和Cold)

　　　　Humidity:(可取值为Normal和High)

　　　　Wind:(可取值为：Strong和Weak)

　　　　Water：(可取值为Warm和Cold)

　　　　Forecast:(可取值为Same和Change)

　　假设集H：每个假设描述为6个属性：Sky,AirTemp,Humidity,Wind,Water和Forecast的值约束的合取。约束可以为“？”（表示接受任意值），“ø”（表示拒绝所有值），或一特定值

　　目标概念C:EnjoySport: X->{0,1}

　　训练样例集D：目标函数的正例和反例

求解：

　　H中的一假设h，使对于X中任意x，h(x)=c(x)

1.术语定义

实例集（X）:概念定义的实例集合

目标概念（c）：待学习概念或函数

训练样例（D）:每个样例为X中的一个实例x以及它的目标概念值c(x)。c(x)=1的实例被称为正例（positive example），c(x)=0的实例为反例（negative example），经常用序偶<x,c(x)>来描述训练样例。

H表示所有可能假设的集合。H中每个假设H表示X上定义的布尔函数，即h:X->{0,1}。机器学习的目标就是寻找一个假设h，使对于X中的所有x，h(x)=c(x)。

归纳学习假设：任一假设如果在足够大的训练样例集中很好地逼近目标函数，它也能在未见实例中很好地逼近目标函数。

三.作为搜索的概念学习

定义：令h_j和h_k为在X上定义的布尔函数。称h_jmore_general_than_or_equal_to h_k（记做h_j≥_g h_k）_，当且仅当(∨x∈X)[(h_k(x)=1)->(h_j(x)=1)]

h_j more_specific_than h_k ，当h_k more_general_than h_j

四.FIND-S：寻找极大特殊假设

从H中最特殊假设开始，然后在该假设覆盖正例失败时将其一般化（当一假设能正确地划分一个正例时，称该假设“覆盖”该正例）。

  FIND-S算法

　　　1. 将h初始化为H中最特殊假设

　　　2.对每个正例x

　　　　对h的每个属性约束a_i

　　　　如果x满足a_i

　　　　那么不做任何处理

　　　　否则将h中a_i替换为x满足的下一个更一般的约束

　　 3. 输出假设h

五.变换空间和候选消除算法（CANDIDATE-ELIMINATION）

FIND-S输出的假设只是H中能够拟合训练样例的多个假设中的一个。而在候选消除算法中，输出的是与训练样例一致的所有假设的集合。

1.表示

定义：一个假设h与训练样例集合D一致，当且仅当对D中每一个样例<x,c(x)>都有h(x)=c(x)。

　　　　　　　Consistent(h,D)≡(∨<x,c(x)>∈D) h(x)=c(x)

定义:关于假设空间H和训练样例集D的变型空间，标记为VS_H,D，是H中与训练样例D一致的所有假设构成的子集。

                     VS_H,D≡{h∈H|Consistent(h,D)}

2.列表后消除算法（LIST-THEN-ELIMINATE）

列表后消除算法

1.变型空间VersionSpace<-包含H中所有假设的列表

　　2.对每个训练样例<x,c(x)>

　　　　从变型空间中移除所有h(x)≠c(x)的假设h

  3. 输出VersionSpace中个假设列表

3.变型空间的更简洁表示

定义：关于假设空间H和训练数据D的一般边界（general boundary）G，是在H中与D相一致的极大一般（maximally general）成员的集合。

定义：关于假设空间H和训练数据D的特殊边界（specific boundary）S，是在H中与D相一致的极大特殊（maximally specific）成员的集合。

　　　　　　　

变型空间的确切组成是：G中包含的假设，S中包含的假设已经G和S直接偏序结果所规定的假设。

定理2.1：变型空间表示定理令X为任意的实例集合，H为X上定义的布尔假设的集合。另c:X->{0,1}为X上定义的任一个目标概念，并令D为任一训练样例的集合{<x,c(x)>}。对所有的X,H,c,D以及良好定义的S和G:

　　　　　　

4.候选消除学习算法

　　　　使用变型空间的候选消除算法

将G集合初始化为H中极大一般假设

将S集合初始化为H中极大特殊假设

对每个训练例d，进行以下操作：
- 如果d是一正例
　　　　• 从G中移去所有与d不一致的假设

　　　　 • 对S中每个与d不一致的假设s

　　　　 •从S中移去s

　　　　• 把s的所有的极小一般化式h加入到S中，其中h满足

　　　　 •h与d一致，而且G的某个成员比h更一般

　　　　 • 从S中移去所有这样的假设：它比S中另一假设更一般
- 如果d是一个反例
　　　　• 从S中移去所有d不一致的假设

　　　　 • 对G中每个与d不一致的假设g

     　　　　    •从G中移去g

   　　　　      •把g的所有的极小特殊化式h加入到G中，其中h满足

         　　　　　　    •h与d一致，而且S的某个成员比h更特殊

        　　　　 •从G中移去所有这样的假设：它比G中另一假设更特殊

5.算法举例

候选消除算法步骤（EnjoySport）

训练样例：

1.<Sunny,Warm,Normal,Strong,Warm,Same>,EnjoySport=Yes

2.<Sunny,Warm,High,Strong,Warm,Same>,EnjoySport=Yes

S0和G0为最初的边界集合，分别对应最特殊和最一般假设。训练样例1和2使得S边界变得更一般，如FIND-S算法中一样，这些样例对G边界没有影响。

训练样例:

3.<Rainy,Cold,High,Strong,Warm,Change>,EnjoySport=No

样例3是一个反例，他把G₂边界特殊化为G₃。注意在G₃中有多个可选的极大一般假设。

训练样例：

4.<Sunny,Warm,High,Storage,Cool,Change>,EnjoySport=Yes

正例是S边界更一般，从S₃变为S₄。G₃的一个成员也必须被删除，因为它不再比S₄更一般。

EnjoySprot概念学习问题中的最终的变型空间

六.归纳偏置

1.无偏的学习器

幂集（power set）把集合X的所有子集的集合称为幂集。

新的假设空间H’，它能表示实例的每一个子集，也就是把H’对应到X的幂集。

<Sunny,?,?,?,?,?>∨<Cloudy,?,?,?,?,?>

2.无偏学习的无用性

学习器如果不对目标概念的形式做预先的假定，它从根本上无法对未见实例进行分类。

一般情况下任意的学习算法L以及为任意目标概念提供的任意训练数据D_c={<x,c(x)>}。训练过程结束后，L需要对新的实例x_i进行分类。令L(x_i,D_C)表示在对训练数据D_c学习后L赋予x_i的分类（正例或反例），我们可以如下描述L所进行的这一归纳推理过程：

y表示z从y归纳推理得到。

定义：考虑对于实例集合X的概念学习算法L。令c为X上定义的任一概念，并令Dc={<x,c(x)>}为c的任意训练样例集合。令L(x_i,D_c)表示经过数据D_c的训练后L赋予实例x_i的分类。L的归纳偏置是最小断言集合B，它使任意目标概念c和相应的训练样例Dc满足：

候选消除算法的归纳偏置：目标概念c包含在给定的假设空间H中。

使用假设空间H的候选消除算的输入输出行为，等价于利用了断言“H包含目标概念”的演绎定理证明器。该断言因此被称为候选消除算法的归纳偏置。用归纳偏置来刻画归纳系统，可以便于使用等价的演绎系统来模拟它们。这提供了一种对归纳系统进行比较的方法，即通过它们从训练数据中泛化的策略。
相关阅读:
POJ 1321 棋盘问题（DFS）
POJ 2676 Suduku
Codeforce Segment Occurrences——string中substr的应用
 POJ 2492
HDU 3088
POJ 2992
STL的sort排序
 mongoimport csv文件
 远程计算机或设备将不接受连接，IE无法上网
 注册MongoDB服务
原文地址：https://www.cnblogs.com/lufangtao/p/3086935.html

机器学习（二）概念学习

六.归纳偏置

1.无偏的学习器

2.无偏学习的无用性