1、非监督学习主要包括两大类学习方法:数据聚类和特征变量关联。聚类是通过多次迭代来找到数据的最优的分割,特征变量关联则是利用各种相关性分析方法来找到变量之间的关系。
分类:类别已知 聚类:是在不知道不知道类别标签的情况下,通过数据之间的内在关系,把样本分为若干类别,使得同类别样本之间的相似度高,不同类别的的样本相似度低。
K均值聚类,是最基础的和最常用的聚类方法,通过迭代方式找到K个簇的一种划分方案,使得聚类结果对应的代价函数最小,代价函数可以定义为各个样本距离所属簇中心点的误差平方和
K均值算法的步骤-1、数据预处理,如归一化,离散化处理 2、随机取K个簇中心,记为u1,u2,....uk 3、定义代价函数 4、令t=0,1,2...为迭代步数,直到J收敛
2、K均值算法的优缺点:
优点:对于大数据集,K均值聚类算法相对是可伸缩和高效的。
缺点:易受初始值和离散点的影响,导致每次结果不稳定,不是全局而是局部最优解。无法解决数据簇分布差别比较大的情况。不太适用于离散分类。
K均值算法的调优的角度:
1、数据归一化和离散化处理(方法是基于欧式距离的,均值和方差对聚类结果产生影响)
2、合理选择K值(K值的选择是K均值聚类最大的问题之一)
3、采用核函数(核聚类方法的主要思想是通过一个非线性映射,将输入空间的数据点映射到高位的特征空间中,并在新的特征空间中进行聚类)
高斯混合模型:
高斯混合模型也是一种常见的聚类方法,与K均值方法类似,采用EM算法进行迭代计算,高斯混合模型假设每个簇都符合高斯帆布,当前数据呈现的分布是各个簇叠加的效果。
高斯混合分布可以拟合出任意类型的分布。
高斯混合模型和K均值算法的相同点是,他们都可以用于聚类算法,都需要指定K值,都是使用EM算法来求解,但往往智能收敛于局部最优,相比K均值,可以给出一个样本属于某类的概率是多少,还可用于概率估计,并且可用于生成新的样本点。
自组织映射神经网络:
是无监督学习的方法的一种,可以用作聚类,高维可视化,数据压缩,特征提取。
学习过程可分为以下几个过程1、初始化 2、竞争 3、合作4、适应5、迭代
自组织映射神经网络与K均值算法的区别如下:
1、K均值受K值的影响大一些,自组织映射神经网络小一些
2、K均值准确性相对高,但是易受noise data影响
3、自组织映射神经网络可视化比较好
设计过程:1、设定输出层神经元的个数2、设计输出层的节点的排列3、初始化权值4、设计拓补领域5、设计学习率
聚类算法的评估:
(1)、估计聚类趋势
(2)、判定数据簇数
(3)、测定聚类质量