深度学习的历史可谓是一波三折,而就在最近阿尔法狗战胜李世乭,让深度学习再次回到人们的视线。
我对深度学习的真正意义上的认识,还得从2016.05.26日的一节课上说起。
讲课老师是信科软工所的李戈老师,他是一位较年轻的副教授,讲课风趣幽默,看上去很健谈,喜欢笑。
这位老师在三个小时的课程中,带领我们从只是听说过深度学习到对深度学习有个大致了解。全程我都非常认真的听了,这种感受已经在大三之后都几乎没有过了,我认为一方面是老师讲课的方式非常吸引人,另一方面是兴趣使然,我对人工智能方面还是非常感兴趣的。
对老师的讲课内容做了一个粗略的梳理,内容如下:
1、神经网络:
神经元:存储状态,传递信号
神经元状态:非激活/激活
2、基础:线代、高数、概率论
3、线性性质:相对关系不会变化,不能进行分类,因此监督式学习不能采用线性变化
线性函数:一个向量 * 一个矩阵,结果是将向量进行基变换,但是向量中的数据的相对位置不会发生变化、
非线性函数:非常重要!!!!!!!!!
4、多个神经元组成神经网络
5、神经网络的能力:隐藏层的数量,隐藏层越多,神经网络的能力越强。
多层神经网络结构: 输入层 :隐藏层 :··· : 输出层
一个神经网络的层数:隐藏层层数+输出层(不含输入层)
6、Why deep?
1)仿生学角度:大脑皮层是有厚度的区分的
2)认知学角度:hubel wiesel试验 / 稀疏编码算法
输入 —> Low-Level Feature —>Mid-Level Feature —> High-Level Feature —> 输出
普遍特征—> 深度学习 —>抽象特征
抽象:不是直观可以获得的。
举例:通过考试分数来判断学生的学习能力,这是简单的特征抽取;但是通过考试分数来判断一个人的性格,则是抽象特征抽取。
前者对应简单神经网络,后者对应深度神经网络。
7、深度学习缺点:training过程复杂,计算量大
8、反向传播算法:back-propagation
梯度下降算法:局部最优特性
问题:梯度消失、梯度爆炸
9、深度神经网络的对头:SVM(核函数),SVM缺点:没有完全利用数据的维度;需要经过人工筛选特征,依赖于先验知识;can’t contain hierarchial structure
10、Hinton 2016
Basic papers on deep learning
Movies of the neutral network
ImageNet
11、深度学习在近年来又重新热门的原因:
1)计算能力增强
2) 数据集的增加
12、NLP:word2vec,依存树
记录的内容非常零散,根据老师所讲的内容。