• 机器学习常用模型



    线性回归(Linear Regression)

    连续变量

    损失函数(似然函数)

    预测函数和实际值误差的平方尽可能小

    [J( heta)=frac{1}{m}sum_{i=1}^mfrac{1}{2}(h(x_i)-y_i)^2 ]

    批梯度下降(batch Gradient descent,遍历所有数据集求误差和)

    梯度方向是损失函数下降最快的方向(函数的偏导数),找到局部最优解,直到函数收敛
    局部最小值的梯度是0,所以接近局部最小值时梯度会变小

    随机梯度下降(Gradient descent)

    对大数据集会快很多

    局部加权线性回归

    对曲线上的每一点进行拟合估计,追踪非线性的曲线

    逻辑回归(Logistic Regression, LR)

    Sigmoid函数,取值在01之间

    [g(z)=frac{1}{1+e^{-z}},g^prime=g(1-g) ]

    支持向量机(Support Vector Machine,SVM)

    [w^Tx+b=0 ]

    找到超平面将数据分开,并使得正负样本到该超平面的距离最大化。对于距离超平面很近,容易被误分类的点,尽可能让这些点远离超平面。

    主成分分析(Principal Component Analysis,PCA)

    减少分析特征的同时,尽量减少原指标包含信息的缺失,以达到降维的目的。最大方差理论


    决策树分类(Iterative Dichotomiser 3,迭代二叉树3代,ID3)

    ID3算法基于信息熵来选择最佳测试属性,在决策树的各级节点上都用信息增益作为判断标准进行属性的选择。

    信息熵,信息增益

    信息熵就是信息的期望值,分类后的信息熵越小,则信息增益越大,信息的纯度越高,包含的类别越少

    [信息 I=-log_2 p(x_i) ]

    [信息熵, H=-sum_{i=1}^np(x_i)log_2 p(x_i) ]

    [信息增益是分类前的信息熵减去分类后的信息熵 ]


    人工神经网络(Artificial Neural Networks,ANN)

    模拟生物神经网络对信息进行处理的数学模型

    BP神经网络(Back Propagation,BP)

    BP的学习过程由信号的正向传播和误差的逆向传播2部分组成,若输出的节点未能得到期望的输出,则将误差传回输入层,作为修改各单元权值的依据。用误差函数E判断误差是否小于上限,不小于则更新权值,更新算法为学习规则

    反向传播

    反向传播的而远离就是利用梯度下降法,找到代价函数的最小值


    聚类分析,K-Means聚类

    非监督学习,对样本分成n个簇群,簇内足够相似,不同簇之间差异足够大

    距离度量

    度量样本之间的相似性用欧几里得距离

    [欧几里得距离,d(i,j)=sqrt[]{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2+...+(x_{ip}-x_{jp})^2} ]

    [曼哈顿距离,d(i,j)=|x_{i1}-x_{j1}|+|x_{i2}-x_{j2}|+...+|x_{ip}-x_{jp}| ]

    [闵可夫斯基距离,d(i,j)=sqrt[q]{(|x_{i1}-x_{j1}|)^q+(|x_{i2}-x_{j2}|)^q+...+(|x_{ip}-x_{jp}|)^q} ]

    对于闵可夫斯基距离,q=1是欧几里得距离,q=2是曼哈顿距离


    关联规则

    购物篮分析,在一个数据集中找出各项之间的关联关系

    Apriori算法

    在大数据集上进行关联规则的提取,通过连接产生候选项和其支持度,然后通过剪枝生成频繁项集

    支持度和置信度

    项集A和B同时发生的概率称为关联规则的支持度

    [Suppont(A=>B)=P(A cup B) ]

    项集A发生,则项集B发生的概率称为关联规则的置信度

    [Confidence(A=>B)=P(frac{B}{A}) ]

    最小支持度和最小置信度

    分别表示项目集在统计意义上的最低重要性,最低可靠性。同时满足最小支持度和最小置信度的规则称为强规则

    算法的复杂度

    对于有N件物品的数据集,共有(2^N-1)种项集组合

    频繁项集

    如果项集I的相对支持度满足预定义的最小支持阀度,则I是频繁项集

    剪枝原理

    如果某个项集是频繁项集,那么它的所有子集也是频繁的

    算法实现过程

    连接步:循环找到K项集和最大频繁项集
    剪枝步: 根据Apirori的性质,频繁项集的所有非空子集也是频繁项集,剪枝

  • 相关阅读:
    编程思想
    为什么静态成员、静态方法中不能用this和super关键字
    C#中静态与非静态方法比较
    数组,集合,列表的使用与区别
    2017-3-23 网络IP
    [精彩] 关于DB2的内存分配
    DB2 常用命令
    SQL0973N在 "<堆名>" 堆中没有足够的存储器可用来处理语句
    DB2通用数据库性能调整的常用方法
    创建DB2数据库联合对象
  • 原文地址:https://www.cnblogs.com/wanli002/p/10853333.html
Copyright © 2020-2023  润新知