• JGibbLDA:java版本的LDA(Latent Dirichlet Allocation)实现、修改及使用


    转载自:http://blog.csdn.net/memray/article/details/16810763

     

    一、概述

    JGibbLDA是一个java版本的LDA(Latent Dirichlet Allocation)实现,它使用Gibbs采样来进行快速参数估计和推断。

    LDA是一种由基于概率模型的聚类算法。该算法能够对训练数据(训练数据是这样一种记录的集合,它的每一条记录都是一组离散的项的集合)中的关键项集之于类簇的概率参数拟合模型,进而利用该参数模型实施聚类或分类等操作。

    如果你的数据记录是离散的项,想用概率模型进行拟合或“一对多聚类”,不妨尝试一下LDA。

    LDA最早是在文本挖掘主题发现(topic discovery)中作为一种图模型而使用。由 David BleiAndrew Ng, and Michael Jordan 在2002所提出。

    [Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (January2003). Lafferty, John. ed. "Latent Dirichlet allocation". Journal ofMachine Learning Research 3 (4–5): pp. 993–1022.doi:10.1162/jmlr.2003.3.4-5.993.]

    本文假设你是一个了解LDA,并且打算把它用起来,并且像我一样暂时不打算用Mahout那个以MapReduce进行分布式实现的LDA算法(其实处理大数据量,还是试试Mahout的LDA吧),只是做原型实现的人。本文只说怎么把JGibbLDA在程序里跑起来,以及性能调优,不深入LDA原理。原理将在后续介绍。

    二、Code

    Code和更多信息请参考JGibbLDA的主页:http://jgibblda.sourceforge.net/#Griffiths04

    我对JGibbLDA做了些许修改,包括:1,取消包依赖(原来是一个解析命令行的一个包),取消命令行执行。因为更多情况下不是执行完这一个程序就没事了。2,源代码对概率算到了小数点后N位然后保存,考虑文件规模(30万实验记录),概率保留小数点后3位,大大减小文件体积。3,数据结构上以及其他一些小的改进。4,我相信你一定会针对你的应用场景做修改的。

    我的JGibbLDA修改版本可以点击这里进入网盘下载。【链接2013年04月28日已更新,百度网盘】

     

    三、意义

    JGibbLDA对于下列研究和应用领域都是比较有用的工具:

    1,文本数据的潜语义分析、情感分析、主题聚类

    2,文档聚类,文本摘要

    3,协同过滤(用户聚类)

    4,Content-basedImage Clustering, Object Recognition, and other applications of Computer Visionin general.

    四、JGibbLDA的参数说明和设置

      

     1   //Specify whether we want to estimate modelfrom scratch
     2 
     3     boolean est= false;  /////是否开始训练模型
     4 
     5     //Specify whether we want to continue thelast estimation
     6 
     7 决定是否是基于先前已有的模型基础上继续用新数据训练模型
     8 
     9     boolean estc= false;
    10 
    11     //Specify whether we want to do inference
    12 
    13     boolean inf= true;    /////是否使用先前已经训练好的模型进行推断
    14 
    15     String dir= "";  //Specify directory  ////数据结果(模型数据)保存位置
    16 
    17     String dfile= "";  //Specify resource data filename    /////训练数据或原始数据文件名
    18 
    19     //Specify the model level to which you wantto applied. ///
    20 
    21     String modelName= "";  ////选择使用哪一个迭代的模型结果来进行推断
    22 
    23     int K= 100;  //Specify the number of topics  /////类簇数目,谨慎设置
    24 
    25     double alpha= 0.2;  //Specify alpha //////平滑系数
    26 
    27     double beta= 0.1;  //Specify beta
    28 
    29     int niters= 1000;  //Specify the number of iterations  /////迭代数目,谨慎设置
    30 
    31     //Specify the number of steps to save themodel since the last save.
    32 
    33     //The step (counted by the number ofGibbssampling iterations) 
    34 
    35     //at which the LDA model is saved to harddisk.
    36 
    37 //指定把迭代结果模型保存到硬盘上的迭代跨度,即每迭代10次保存一次。
    38 
    39     int savestep= 100;
    40 
    41     //Specify the number of most likely wordsto be printed for each topic
    42 
    43     int twords= 100;   /////对每一个类别(话题)选前多少个最大概率词项
    44 
    45     //Specify whether we include raw data in theinput
    46 
    47     public boolean withrawdata= false; 
    48 
    49     //Specify thewordmapfile
    50 
    51     publicString wordMapFileName= "wordmap.txt";  /////生成的副产品的文件名

    五、输入数据格式

    数据输入格式统一如下所述:

    [M]
    [document1]
    [document2]
    ...
    [documentM]

    其中:

    第一行为该数据文件有多少条记录数。然后每一行记录按行排列。

    这里的“记录”的格式又规定为:

    [documenti]= [wordi1] [wordi2] ... [wordiNi]

    其中:[wordiNi]为[documenti]的各个词项,以空格分隔。

    众所周知,对词项集合进行预处理,如去除停用词、主干提取等,对结果精度的提升有较大帮助。在基于所属宝贝属性序列的用户聚类中,预处理这一步可以省略。因为提取属性序列的主干是一件较为困难的事。

    六、输出数据

    建立模型阶段,会输出5类以如下规则命名的文件类型:

    model-XXXXX.others: 

    model-XXXXX.phi

    model-XXXXX.theta

    model-XXXXX.tassign

    model-XXXXX.twords

    XXXXX都以数字组成。最后一次迭代所保存的这些数字将会换成“final”。

    其中:

    •      .others为“信息文件”。文件保存的是跟该LDA模型有关的参数,比如alpha,beta,ntopiccs,ndocs,nwords,liter(the Gibbssampling iteration at which the model was saved)
    •      .phi文件为“词项-主题概率分布文件”。表现上是一个大矩阵M。其中,假设设类簇的数目topict为1000个,每一个主题需要列出top 100个词项wordw,则M以100为行,1000为列。即M每一行是词项,每一列是主题。M元素值则为条件概率p(wordw|topict),即每个词属于每个主题的概率。
    •     .theta文件为“文档-主题概率分布文件”。表现上也是一个大矩阵M。每行i代表训练数据的一个文档,每一列代表一个主题,元素值则为条件概率 p(topict|documentm),即该文档属于不同主题的概率。
    •     .tassign文件为“文档-词项-主题分布文件”。该文件与输入文件的格式一致,一行一个文档,只不过原来的输入文件中的词项换成了一个一个“词项ID:类别”。文件每一行代表训练数据的一条文档,原文档由一组词项组成,现每一行为原来的记录词项指派了其最大可能的所属主题。注意,该文档所属主题分布是在theta文件中,并未在tassign文件中指明。
    •   .twords文件为“词项-主题推断文件”。这个文件作为模型参数结果推断出了每一个主题下最优的topN个词项及其概率。请注意这里的主题数和N都是事先指定的。

    这5个文件包括副产品wordmap.txt在有些应用场景下有时并不是完全需要的,是否生成可视情况而定。如果利用主题下topN词项来做基于距离的聚类,可能只需.twords即可。

    七、推断新数据和关键代码

    将产生如下文件,其组织和意义如前所述一致:

    newdocs.dat.others
    newdocs.dat.phi
    newdocs.dat.tassign
    newdocs.dat.theta
    newdocs.dat.twords

    关键代码:初始化一个模型:

    LDACmdOptionldaOption = new LDACmdOption(); 
    ldaOption.inf =true; 
    ldaOption.dir ="C:\LDAModelDir"; 
    ldaOption.modelName= "newdocs"; 
    ldaOption.niters =100;

    推断新数据:

    Inferencerinferencer = new Inferencer(); 
    inferencer.init(option);

    ldaOption.dfile= "input-lda-data.txt"; 
    Model newModel =inferencer.inference();

    数据也可以是词项的一组数组:

    String[] test = {"politics bill clinton", "lawcourt", "football match"};
    Model newModel =inferencer.inference(test);

    =============================================================

    关于代码的一点补充[2012年05月01日]:

    去掉LDACmdOption,是因为嵌入自己的代码不需要命令行的。参数设置全在Option里。其中,

    设置:

    option.dir = "D:\.......\model";

    option.dfile = "doc.dat";

    把数据文件doc.dat放在dir里。结果也写在里边。

    [document] :每一行就是一个文档,不需要文档名。结果跟训练数据集顺序一致。一旦模型生成,可以来一个文档做一个lda分类:

    Option option = new Option();
       option.dir = "D:\.......\model";  
        option.est = false;
      option.estc = false;  
    option.inf = true;  
    option.modelName = "model-final";
      Inferencer inferencer = new Inferencer();  
    inferencer.init(option);
      while(line){        
    String [] newData = new String[1];        
    newData[0] = line;        
    Model newModel = inferencer.inference(newData);
            for (int j = 0; j < newModel.theta[0].length; j++) {
                            sysout(newModel.theta[0][j]);
        }
     }


    这里,看的是θ(theta),doc-topic关系。同样也可以看φ(phi),word-topic关系。都用文件保存,具体怎么用就看你用什么数据结构(比如HashMap)来存了。

  • 相关阅读:
    jsp学习笔记(一)
    20170215学习计划
    腾讯云CVM使用记录--使用root权限
    转:ASP.NET MVC3 Model验证总结
    ASP.NET MVC3更新出错:ObjectStateManager中已存在具有同一键的对象
    c#中如何将一个string数组转换为int数组
    转:自定义ASP.NET MVC Html辅助方法
    转:ASP.NET MVC扩展之HtmlHelper辅助方法
    自己用的一个ASP.Net MVC分页拿出来分享下(转)
    MVC分页控件之二,为IQueryable定义一个扩展方法,直接反回PagedList<T>结果集(转)
  • 原文地址:https://www.cnblogs.com/wq920/p/4778587.html
Copyright © 2020-2023  润新知