一、机器学习(Machine Learning)
多领域交叉学科,涉及概率论,统计学,逼近论,凸分析算法复杂度理论等多门学科,专门研究机器怎么模拟或实现人类的学习行为,以获得新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
学习:针对经验E(Experience)和一系列的任务T(tasks)和一定表现的衡量P,随着经验E的积累,针对定义好的任务T,可以提高表现P,就说计算机具有学习能力。
二、深度学习(Deep Learning)
基于机器学习延伸出来的一个新的领域,由以人的大脑结构为启发的神经网络算法为起源,加之模型结构深度的增加发展,伴随大数据和计算能力的提高而产生的一系列新的算法。
训练集(training set):用来进行训练,产生模型或者算法的数据集。
测试集(testing set):用来专门测试已经学习好的模型或者算法的数据集。
特征向量(features):实例的属性(特征)的集合通常用一个向量表示,成为特征向量。
标记(label):实例类别的标记。
正例:positive example
反例:negative example
分类(classification):目标标记(label)为类别型数据。(离散)
1、决策树Decision Tree(ID3决策树归纳算法)
2、临近取样Nearest Neighbor(KNN)
3、支持向量机Support Vector Machine(SVM)
4、神经网络算法Neural Network
回归(regression):目标标记为连续型数值。(连续)
机器学习分类:
1、有监督学习(supervised learning):训练集有类别标记。(分类,回归)
2、无监督学习(unsupervised learning):训练集无类别标记。(聚类,关联规则)
3、半监督学习。
机器学习步骤:
1、把数据拆分成训练集和测试集。
2、用训练集和训练集的特征向量来训练算法。
3、用学习来的算法运用在测试集上来评估算法。