作业part1
1、对课程的学习心得做一个小结,也可以是学习笔记。
不知不觉机器学习这门课已经过了一半了,而如今我却还待在家里。(用闽南语的话来说就是,我快要生菇了)
说实话虽然说现在第三章都学完了,但实际上我掌握的估计不到一半,感觉这门课可以说成是一门数学课,运用到了高数、线性代数、概率论等数学知识。如今学到的知识点主要是以距离为标准的分类器,其中比较典型的有MICD分类器
、MAP分类器
、MED分类器
、贝叶斯分类器
、KNN分类器
。
MED分类器是基于欧式距离的分类器
欧式距离 d(x1,x2)=(x2−x1)T∗(x2−x1)。
判别方法: (x−μ1)T(x−μ1)<(x−μ2)T(x−μ2)?C1类:C2类。
受特征的量纲、分布不同的影响,易导致分类错误,一般不直接用欧式距离进行分类
MICD分类器是基于马氏距离的分类器
马氏距离 d(x1,x2)=(x2−x1)TΣ−1x(x2−x1)
判别方法:(x−μ1)TΣ−1x(x−μ1)<(x−μ2)TΣ−1x(x−μ2)?C1类:C2类
针对欧式距离出现的问题,对特征进行解耦与白化,转化后的点间距离为马氏距离
消除了特征间的相关性并使特征具有相同方差,从而使其不受量纲和分布的影响,提高分类准确度
但在距离相等时,倾向于归于方差较大的类
MAP分类器是基于后验概率的分类器
后验概率 p(Ci|x)=p(x|Ci)p(Ci)p(x)
判别方法:p(x|C1)p(C1)>p(x|C2)p(C2)?C1类:C2类
选择后验概率最大的类作为判别结果,即最小化概率误差
贝叶斯分类器基于MAP分类器
判别方法:R(αi|x)<R(αj|x)?Ci类:Cj类
KNN分类器是基于MAP分类器,但假设观测似然概率基于KNN估计
由KNN估计,p(x|Ci)=kiNiV,p(x)=kNV
又p(Ci)=NiN。故p(Ci|x)=p(x|Ci)p(Ci)/p(x)=kik
对于测试样本x,我们找到与其距离最近的k个样本,其中哪个类别的样本最多,就将x归于那一类。即选择最大的ki,使得后验概率最大。
然而对于这么课存在太多公式,而对于这些公式的推导过程,我却是懵懵懂懂的,反正让我自己再来推一遍,我肯定是出来的。其中运用最多的就是关于矩阵的一些知识,虽然我寒假重新把线性代数学了一遍,但是对于这种推导,我依旧推不出来,而对于有的推导我则是连看都看不懂,不知道为啥可以这样推出来。
作业part2
2、检索一些文献或者网页资讯,记录机器学习等人工智能领域的前沿技术介绍、展望、应用,了解我们国家的先进或不足,存在的卡脖子技术等(选取一种技术方向即可)
生物特征识别技术
生物特征识别技术是指通过个体生理特征或行为特征对个体身份进行识别认证的技术。从应用流程看,生物特征识别通常分为注册和识别两个阶段。注册阶段通过传感器对人体的生物表征信息进行采集,如利用图像传感器对指纹和人脸等光学信息、麦克风对说话声等声学信息进行采集,利用数据预处理以及特征提取技术对采集的数据进行处理,得到相应的特征进行存储。
识别过程采用与注册过程一致的信息采集方式对待识别人进行信息采集、数据预处理和特征提取,然后将提取的特征与存储的特征进行比对分析,完成识别。从应用任务看,生物特征识别一般分为辨认与确认两种任务,辨认是指从存储库中确定待识别人身份的过程,是一对多的问题;确认是指将待识别人信息与存储库中特定单人信息进行比对,确定身份的过程,是一对一的问题。
生物特征识别技术涉及的内容十分广泛,包括指纹、掌纹、人脸、虹膜、指静脉、声纹、步态等多种生物特征,其识别过程涉及到图像处理、计算机视觉、语音识别、机器学习等多项技术。目前生物特征识别作为重要的智能化身份认证技术,在金融、公共安全、教育、交通等领域得到广泛的应用。
我国这个领域的不足之处
主要表现为中国人工智能产业的跨界互动能力不足,部分企业存在短期套利思维。中国企业之间的“门户之见”较深,产业链倾向于为了短期利益,维护已有的客户链条,而不会积极拥抱新产品,这使得一项技术需要投产时,找生产商就十分困难,更别提以后的推广、应用了。