学习过程:
发现新模式 -> 应用、泛化 -> 约束、修正 -> 固定模式
人工智能大师H.A.Simon的观点:
“学习”就是系统在不断重复的工作中对本身能力的增强或改进,结果是系统在下一次执行同样任务或类似任务时,比现在做得更好或效率更高。简而言之,“学习”指系统改进其性能的任何过程。
机器学习系统:
给定某类任务T、与T相关的性能P和经验E,计算机程序从经验E中学习,用学习的结果改善性能P,从而实现自我完善,则称该程序具有学习能力。
影响学习系统设计的最重要因素是环境向系统提供的信息,即学习模型中的E
机器学习方法分类:
1.监督学习:利用有类别标识的训练样本集合和选定的模型来确定分类器的过程。
对训练样本集中的每个样本都能提供其真实输出,有时还提供预测错误的代价。可以利用真实输出来评价学习结果的优劣。
经典的学习算法有决策树、人工神经网络、贝叶斯网络、支持向量机等。
监督学习可以用于分类问题和回归问题。
监督学习系统通常涉及如下几个步骤:数据采集、属性选择和提取、模型选择、监督训练、分类器评价。
在属性选择和提取过程中,我们总是希望发现那些容易提取,对不相关变形保持不变,对噪声不敏感,以及对区分不同类别的样本很有效的属性集。
2.非监督学习:训练数据中没有样本的输出标识,是没有先验知识的学习,仅凭数据的自然聚类特性,进行“盲目”学习。
非监督学习可以作为后续学习的预处理过程,也可以用于机器预测或决策。最常用的非监督学习室聚类分析。
对于分类问题而言,监督法是先学习后分类;非监督法既可以先学习再分类,也可以边学习边分类。非监督学习与监督学习都是以样本的属性值作为学习的基础,学习算法也存在一些共性。
有监督学习具有分类精细、准确的优点,但学习过程慢。无监督学习具有算法简练、学习速度快的优点,但学习准确率低。
3.强化学习:以环境反馈为输入的、特殊的适应环境的机械式学习方法。又称再励学习或评价学习,它是从动物学习、自适应控制等理论发展而来的。
强化学习过程是不断尝试错误,从环境中得到相应的奖惩,通过自主学习获得不同状态下哪些动作具有最大的价值,从而发现或逼近能够得到最大奖励的动作策略。可以说,强化学习类似于传统经验中的“吃一堑,长一智”。
强化学习的目标就是寻找一个最优动作序列,使得运动中所获得的累积奖赏值最大。