• 云计算项目实战 之分词管理


    第一部分 需求分析

    什么是中文分词

      中文分词  (  Chinese Word Segmentation)  指的是将一个汉字序列切分成一个一个单独的词
      中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果
    什么是庖丁词汇
      Paoding  (庖丁解牛分词)基于  Java  的开源中文分词组件,提供  lucene    solr  接口,具有极   高效率  和   高扩展性
      采用基于   不限制个数  的词典文件对文章进行有效切分,使能够将对词汇分类定义
      庖丁系统是个完全基于  lucene  的中文分词系统,它就是新建了一个  analyzer,  叫做  PaodingAnalyzer    这个  analyer 的核心任务就是生成一个可以切词  TokenStream 
      仅支持  Java  语言。
    功能需求
      庖丁词汇初始化
      分词表的基本维护与查询
    第二部分: 技术点
    安装与配置庖丁分词
      下载庖丁最新的  Jar
      https  ://code.google.com/p/paoding
      将字典文件装载到本地的某个文件夹
      例如  /home/test/  dic
        paoding-analysis.properties  放在  resources  文件下或者修改  jar  包内该配置文件,指定
      paoding.dic.home  =/home/test/  dic
    基本使用演示

    Analyzer a = new PaodingAnalyzer();

    String doctext = test  test;

     

    TokenStream token = a.tokenStream(doctext ,new StringReader(doctext));

     

    Token k = null;

     while((k = token.next != null){

        System.out.println(k);

      }

     

     

    关键词

    作用:生成用画像时候的一个元素

     

    Keyword_keywordId

    rowkey:

    keyword!`!keywordid

    C_FAMILY

    data


     

    Keywordid_keyword

    rowkey:

    keywordid!`!keyword

    C_FAMILY

    data

    部分 代码实现

    请参考视频和源码

     


    私塾在线原创独家云计算课程
  • 相关阅读:
    精品网站集合
    javascript中关于数组的一些鄙视题
    如何使用github搭建个人博客
    JS复杂数据拆分重组
    如何上传图片到七牛云
    React全家桶+Material-ui构建的后台管理系统
    Javascript继承6:终极继承者----寄生组合式继承
    Javascript继承5:如虎添翼----寄生式继承
    Javascript继承4:洁净的继承者----原型式继承
    Javascript继承3:将优点为我所有----组合式继承
  • 原文地址:https://www.cnblogs.com/riasky/p/3478942.html
Copyright © 2020-2023  润新知