• FCM算法


    1.模糊理论概述:

    在我们的日常生活中有许多的事物,或多或少都具有模糊性和混淆不清的特性。“模模糊糊”的概念,是最微妙且难以捉摸,但却又是常見最重要的,但在近代数学中却有了很清晰的定义。 模糊理论的观念在强调以模糊逻辑来描述现实生活中事物的等級,以弥补古典逻辑(二值逻辑)无法对不明确定义边界事物描述的缺点。人类的自然語言在表达上具有很重的模糊性,难以“对或不对”、“好或不好”的二分法来完全描述真实的世界问题。故模糊理论将模糊概念,以模糊集合的定义,将事件(event)属于这集合程度的归属函数(Membership grade),加以模糊定量化得到一归属度(Membership grade), 来处理各种问题。随着科学的发展,研究对象越加复杂,而复杂的东西难以精确化,这是一一个突出的矛盾,也就是说复杂性越高,有意义的精确化能力越低,有意义性和精确性就变成两个互相排斥的特性。而复杂性却意味着因素众多,以致使我们无法全部认真地去进行考察,而只抓住其中重要的部分,略去次要部分,但这有时会使本身明确的概念也会变得模糊起来,从而不得不采用“模糊的描述”

    2模糊聚类:

    事物间的界线,有些是明确的,有些则是模糊的。当聚类涉及到事物之间的模糊界线时,需要运用模糊聚类分析方法。
    如何理解模糊聚类的“模糊”呢:假设有两个集合分别是A、B,有一成员a,传统的分类概念a要么属于A要么属于B,在模糊聚类的概念中a可以0.3属于A,0.7属于B,这就是其中的“模糊”概念。

    模糊聚类分析有两种基本方法:系统聚类法和逐步聚类法。

    系统聚类法个人理解类似于密度聚类算法,逐步聚类法类是中心点聚类法。 

    逐步聚类法是一种基于模糊划分的模糊聚类分析法。它是预先确定好待分类的样本应分成几类,然后按照最优原则进行在分类,经多次迭代直到分类比较合理为止。在分类过程中可认为某个样本以某一隶属度隶属某一类,又以某一隶属度隶属于另一类。这样,样本就不是明确的属于或不属于某一类。若样本集有n个样本要分成c类,则他的模糊划分矩阵为c×n。
    该矩阵有如下特性:
    ①. 每一样本属于各类的隶属度之和为1。
    ②. 每一类模糊子集都不是空集。

    3.FCM算法

    3.1原理:

    假定我们有数据集X,我们要对X中的数据进行分类,如果把这些数据划分成c个类的话,那么对应的就有c个类中心为Ci,每个样本Xj属于某一类Ci的隶属度定为Uij,那么定义一个FCM目标函数及其约束条件如下:

    目标函数(式1)由相应样本的隶属度与该样本到各类中心的距离相乘组成的,式2为约束条件,也就是一个样本属于所有类的隶属度之和要为 1 。
    式1中的m是一个隶属度的因子,一般为2 ,||Xj - Ci|| 表示Xj到中心点Ci的欧式距离。

    我们发现Uij和Ci是相互关联的,彼此包含对方 ,程序一开始 会随机生成一个Uij,只要数值满足条件即可,然后开始迭代,通过Uij计算出Ci,有了Ci又可以计算出Uij,反反复复,这个过程中目标函数J一直在变化,逐渐绉向稳定。那么当J不在变化时就认为算法收敛到一个较好的结果了。

    3.2步骤:

    (1)确定分类数,指数m的值,确定迭代次数 
    (2)初始化一个隶属度U(注意条件和为1);
    (3)根据U计算聚类中心C;
    (4)这个时候可以计算目标函数J了
    (5)根据C返回去计算U,回到步骤3,一直循环直到结束。

    举栗子:

    https://blog.csdn.net/in_nocence/article/details/78647305

    大家可以参考一下

    4.K-means算法和FCM均值的区别:

    K-means算法:一种硬聚类算法,隶属度只有两个取值0或1,提出的基本根据是“类内误差平方和最小化”准则;
    FCM算法:一种模糊聚类算法,是k均值聚类算法的推广形式,隶属度取值为[0 1]区间内的任何一个数,提出的基本根据是“类内加权误差平方和最小化”准则;
    这两个方法都是迭代求取最终的聚类划分,即聚类中心与隶属度值。两者都不能保证找到问题的最优解,都有可能收敛到局部极值,模糊c均值甚至可能是鞍点。
    K均值和C均值,其实有种C是包含在K中的感觉,C只是特定的实现方式,K均值是广义的概念。

    5.实际应用:

    煤炭为工业时代注入力量,即使到了发达的21世纪,我们的生活还是离不开煤炭,煤炭的种类也有很多,那如何将其分类呢?

    通过查询资料可知煤炭可以分为三类:无烟煤A1,烟煤A2,褐煤A3。设论域U为所有煤种的集合,则无烟煤A1,烟煤A2,和褐煤A3;是U上的模糊子集,  对于某一种给定的具体煤种u,试判断u的归属问题。

    (1)煤的特性指标

    根据煤的化学成分和煤炭变量分析,我们选择下列10个特性指标:炭(u),氢(u2), 全硫(u3), 氧(u4),镜质分析(u5),丝质分析(u6), 块状微粒体(u7),粒状微粒(u8),壳质体与树脂体(u9),由镜质组分测得的平均最大反射率(u10 ).因而每种煤的特性指标向量为u=(u1, u2,...... ,u10)

    (2) 构造无烟煤A1,烟煤A 2和褐煤A 3的隶属函数。

       1)在无烟煤A1中抽选6个煤样: 
           ai=(ai1, ai2,..... ai10) (i=1,2...,6),
    其中aij表示A1中第i个煤样的第j个特性指标的实际测试数据

          在无烟煤A2中抽选12个煤样: 
           bi=(bi1, bi2,..... bi10) (i=1,2...,12),
    其中bij表示A2中第i个煤样的第j个特性指标的实际测试数据

           在无烟煤A3中抽选6个煤样: 
           ci=(ci1, ci2,..... ci10) (i=1,2...,6),
    其中cij表示A3中第i个煤样的第j个特性指标的实际测试数据

       2)计算所抽选的煤样ai,bi,ci的平均值

           

       3)分别计算待识别煤样u= {u1, u2,.... ,u10}与a,b,c之间的欧拉距离得:

         

       令D=d1(u, a)+d2(u, b)+d3(u,c),则可得无烟煤A1,烟煤A2和褐煤A3的隶属函数是:

            A1(u)=1-d1(u, a)/D,   A2(u)=1-d2(u, b)/D,     A3(u)=1-d3(u, c)/D,

         把煤样数据代入.上述式子得出个煤样对无烟煤A1,烟煤A2和褐煤A3的隶属度.

    (3)按照最大隶属原则判断具体煤样所应归属的煤炭类别.

    数据部分样本:

    (4)matlab实现:

    源代码:

    myfcm.m

    function [U, V,objFcn] = myfcm(data, c, T, m, epsm)
    % fuzzy c-means algorithm
    % 输入: data: 待聚类数据,n行s列,n为数据个数,s为每个数据的特征数
    %        c  :  聚类中心个数
    %        m  :   模糊系数
    % 输出: U  :   隶属度矩阵,c行n列,元素uij表示第j个数据隶属于第i类的程度
    %        V  :  聚类中心向量,c行s列,有c个中心,每个中心有s维特征
    % written by Zhang Jin
    % see also  :  mydist.m  myplot.m

    if nargin < 3
        T = 100;   %默认迭代次数为100
    end
    if nargin < 5
        epsm = 1.0e-6;  %默认收敛精度
    end
    if nargin < 4
        m = 2;   %默认模糊系数值为2
    end

    [n, s] = size(data);
    % 初始化隶属度矩阵U(0),并归一化
    U0 = rand(c, n);
    temp = sum(U0,1);
    for i=1:n
        U0(:,i) = U0(:,i)./temp(i);
    end
    iter = 0;
    V(c,s) = 0; U(c,n) = 0; distance(c,n) = 0;

    while( iter<T  )
        iter = iter + 1;
    %    U =  U0;
        % 更新V(t)
        Um = U0.^m;
        V = Um*data./(sum(Um,2)*ones(1,s));   % 矩阵相乘  
        % 更新U(t)
        for i = 1:c
            for j = 1:n
                distance(i,j) = mydist(data(j,:),V(i,:));
            end
        end
        U=1./(distance.^m.*(ones(c,1)*sum(distance.^(-m))));
        objFcn(iter) = sum(sum(Um.*distance.^2));
        % FCM算法停止条件
        if norm(U-U0,Inf)<epsm  
            break
        end  
        U0=U;
    end
    myplot(U,objFcn);

    距离函数:

    function  d = mydist(X,Y)  

     d = sqrt(sum((X-Y).^2));

    end

    myplot.m

    function myplot(U,objFcn)
    % 将隶属度U矩阵可视化

    figure(1)
    subplot(3,1,1);
    plot(U(1,:),'-b');
    title('隶属度矩阵值')
    ylabel('A1')
    subplot(3,1,2);
    plot(U(2,:),'-r');
    ylabel('A2')
    subplot(3,1,3);
    plot(U(3,:),'-g');
    xlabel('样本数')
    ylabel('A3')
    figure(2)
    grid on
    plot(objFcn);
    title('目标函数变化值');
    xlabel('迭代次数')
    ylabel('目标函数值')

    结果:

    由于数据收集样本容量过小,且电脑安装的matlab版本有些问题尝试多次无法运行,之后会重新更新软件用更多数据测试

    但可推测迭代多次之后,目标函数开始收敛,从隶属度矩阵上分析 ,三类煤有明显的区分 。猜测不断迭代后区分度会有所降低。

    6.结论:

    FCM算法的优缺点:

     优点:FCM方法会计算每个样本对所有类的隶属度,这给了我们一个参考该样本分类结果可靠性的计算方法, 若某样本对某类的隶属度在所有类的隶属度中具有绝对优势,则该样本分到这个类是一个十分保险的做法,反之若该样本在所有类的隶属度相对平均,则我们需要其他辅助手段来进行分类。

      缺点:算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。 该算法只计算“最近的”邻居样本,某一类的样本数量很大,那么或者这类样本并不接近目标样本,或者这类样本很靠近目标样本。无论怎样,数量并不能影响运行结果。

    参考文献:

    https://blog.csdn.net/HUXINY/article/details/90607216

       

     

            


               

  • 相关阅读:
    static的全部用法收集整理
    文思创新复试及一些自己的思考
    “一碗牛肉面”引发的管理难题
    信必优面试实录
    我做PM(项目经理)这段时间...
    什么是面向对象?
    沟通
    体会Bind和Eval的不同用法
    北京艾德思奇科技有限公司面试实录
    今天去sony公司面试实录
  • 原文地址:https://www.cnblogs.com/lhx0814/p/11749111.html
Copyright © 2020-2023  润新知