本节开始进入机器学习和深度学习的基础理论系统学习阶段,博客内容为在学习过程中整理的笔记。
1. 机器学习
概念:多领域交叉学科,涉及概率论,统计学、逼近论,凸分析,算法及复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
学科定位:人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,主要使用归纳、综合,而不是演绎。
定义:探究和开发一系列算法来如何是计算机不需要通过外部明显的指示,而可以自己通过数据来学习,建模,并利用建好的模型和新的输入来进行预测的学科。
学习:针对经验E(experience)和一系列的任务T(tasks)和一定表现的衡量P,如果随之经验E的积累,针对定义好的任务T可以提高表现P,就说计算机具有学习能力。例如:下棋、语音识别、自动驾驶汽车等。
应用:语音识别、自动驾驶、语言翻译、计算机视觉、推荐系统、无人机、识别垃圾邮件……
2. 深度学习
深度学习是基于机器学习延伸出来的一个新的领域,由以人大脑结构为启发的神经网络算法为起源,加之模型结构深度的增加发展,并伴随大数据和计算能力的提高而产生的一系列新的算法。
其概念由著名科学家Geoffrey Hinton等人2006和2007年在《Sciences》等上发表的文章被提出和兴起。
应用:深度学习,作为机器学习中延伸出来的一个领域,被应用在图像处理与计算机视觉、自然语言处理以及语音识别等领域,自2006年至今,学术界和工业界合作在深度学习方面的研究与应用在以上领域取得了突破性的进展。以ImageNet为数据库的经典图像中物体识别竞赛为例,击败了所有传统算法,取得了前所未有的精确度。
代表性的学术机构和公司,学校已多伦多大学、纽约大学、斯坦福大学为代表,工业界以Google、Facebook和百度为代表,走在深度学习研究与应用的前沿。
目前我们使用的Android手机中google的语音识别、百度视图、google的图片搜索,都已使用到了深度学习技术。大数据时代,结合深度学习的发展在未来对我们的生活影响无法估量,保守而言,很多目前人类从事的活动豆浆因为深度学习和相关技术的发展被机器取代,如自动驾驶,无人飞机,以及更加智能的机器人等。深度学习的发展让我们第一次看到并接近人工智能的终极目标。
3. 在机器学习和深度学习中的一些基本概念
(1)基本概念:训练集、测试集、特征值、监督学习、非监督学习、半监督学习、分类、回归
(2)概念学习:从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。
(3)例子
概念定义在实例(instance)集合之上,这个集合表示为X(X:所有可能的日子,每个日子的值由天气、温度、湿度、风力、水温、预报等6个属性表示)。
待学习的概念或目标函数成为目标概念,记做c。当享受运动是c(x)=1,当不享受运动是x(x)=0,c(x)也可以记做y。
x:每一个实例
X:样例,所有实例的集合。
学习目标:f: X->Y
(4)训练集(training set/data):用来进行训练,也就是产生模型或者算法的数据集。
测试集:用来专门进行测试已经学好的模型或者算法的数据集
特征向量:属性的集合,通常用用一个向量来标识,附属一个实例
标记:实例类别的标记
(5)分类问题:目标标记为类别型数据
回归问题:目标标记为连续性数值。
(6)有监督学习:训练集有类别标记,
无监督学习:训练数据无类别标记
半监督学习:训练数据包括有类别标记的训练集+无类别标记的训练集
(7)机器学习的步骤
① 把数据拆分为训练集和测试集
② 用训练集和训练集的特征向量来训练算法
③ 用学习来的算法运用在测试集上来评估算法,涉及到调整参数(用到验证集 )
以上为对机器学习和深度的概念性介绍,从下一篇开始进入到每个具体算法的学习,包括理论基础和实际应用两方面的学习。