• 机器学习面试问题2


    算法原理

    LR

    logistic(逻辑回归)是一种广义线性回归分析模型,是一种分类算法。 
    通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。L是logistic函数. 
    该模型是典型的数学模型,它服从逻辑斯蒂分布。 
    二项逻辑斯蒂回归模型是如下的条件概率分布: 
     

    在这里,x是输入,y是输出,w是权值向量参数,b是偏置参数。 
    对于给定的输入实例x,按照以上两个公式可以求得P(Y=1|x)和P(Y=0|x)。逻辑斯蒂回归比较两个条件概率值的大小,将实例x分到概率值较大的那一类。 
    将权值向量和输入向量加以扩充,仍记作w,x,即w=(x1,x2,…,wn,b),x=(x1,x2,…,xn,1)。这时,逻辑斯蒂回归模型如下: 
     
     
    线性函数的值越接近正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0.如下图: 


     


    逻辑斯蒂回归模型学习时,对于给定的训练数据集可以应用极大似然估计法估计模型参数,这样,问题就变成了以对数似然函数为目标函数的最优化问题,逻辑斯蒂回归模型学习中通常采用的方法是梯度下降法及拟牛顿法。得到w的极大似然估计值w’,就可以得到逻辑斯蒂回归模型。

    二项逻辑斯蒂回归模型可以推广到多项逻辑斯蒂回归模型: 
     
     
    二项逻辑斯蒂回归的参数估计法也可以推广到多维逻辑斯蒂回归。

    k-NN

    k-NN(k近邻法)是一种基本分类和回归方法。

    k近邻模型的三个基本要素:距离度量,k值的选择,分类决策规则。常用的距离度量是欧式距离及更一般的Lp距离。k值小时,k近邻模型更复杂;k值大时,k近邻模型更简单。k值的选择反映了对近似误差与估计误差之间的权衡,通常由交叉验证选择最优的k。常用的分类决策规则是多数表决,对应于经验风险最小化。

    k近邻模型对应于训练数据集对特征空间的一个划分。k近邻法中,当三个基本要素确定后,其结果唯一确定。

    k近邻法的基本做法: 
    对给定的训练实例点和输入实例点,首先确定输入实例点的k个最近邻训练实例点,然后利用这k个训练实例点的类的多数来预测输入实例的类。

    k近邻法的实现需要考虑如何快速搜索k个最近邻点。kd树是一种便于对k维空间中的数据进行快速检索的数据结构。kd树是二叉树,表示对k维空间的一个划分,其每个节点对应于k维空间划分中的一个超矩形区域。利用kd树可以省去对大部分数据点的搜索,从而减少搜索的计算量。

    K-Means

    K-Means算法是一种聚类算法。 
    以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

    基本思想:从n个对象中任意选择k个对象为中心进行聚类,而对于剩下的其他对象,则根据它们与这些聚类中心(距离均值所对应的对象)的相似度(距离),按照最小距离分别将它们分配给与其最相似的(距离聚类中心所代表的聚类是最小的)聚类,然后再计算每个所获新聚类的聚类中心(该聚类中的中心对象)结果将n个对象划分为k个聚类,且这些聚类满足:同一聚类中的对象相似度较高,不同聚类中的对象相似度较小。

    算法流程: 
    首先从n个数据对象中任意选择k个对象作为初始聚类中心,将剩下的其他对象分别计算它们到这k个聚类中心的距离,归到距离最小的聚类中,每聚一次类,都要重新计算一次聚类中心,规则是将所有对象的距离均值所对应的对象作为聚类中心。 



  • 相关阅读:
    CF710F String Set Queries AC自动机 二进制分组
    类欧几里得学习笔记
    P2053 [SCOI2007]修车 网络流
    螺旋方阵
    灯的排列问题
    编码问题
    论文阅读博客模板
    论文阅读框架模板
    动作识别论文20191104_Probabilistic selection of frames for early action recognition in videos
    剑指offer 57. 数字序列中某一位的数字
  • 原文地址:https://www.cnblogs.com/hellochennan/p/6654126.html
Copyright © 2020-2023  润新知