• 云计算项目实战 之分词管理


    第一部分 需求分析

    什么是中文分词

      中文分词  (  Chinese Word Segmentation)  指的是将一个汉字序列切分成一个一个单独的词
      中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果
    什么是庖丁词汇
      Paoding  (庖丁解牛分词)基于  Java  的开源中文分词组件,提供  lucene    solr  接口,具有极   高效率  和   高扩展性
      采用基于   不限制个数  的词典文件对文章进行有效切分,使能够将对词汇分类定义
      庖丁系统是个完全基于  lucene  的中文分词系统,它就是新建了一个  analyzer,  叫做  PaodingAnalyzer    这个  analyer 的核心任务就是生成一个可以切词  TokenStream 
      仅支持  Java  语言。
    功能需求
      庖丁词汇初始化
      分词表的基本维护与查询
    第二部分: 技术点
    安装与配置庖丁分词
      下载庖丁最新的  Jar
      https  ://code.google.com/p/paoding
      将字典文件装载到本地的某个文件夹
      例如  /home/test/  dic
        paoding-analysis.properties  放在  resources  文件下或者修改  jar  包内该配置文件,指定
      paoding.dic.home  =/home/test/  dic
    基本使用演示

    Analyzer a = new PaodingAnalyzer();

    String doctext = test  test;

     

    TokenStream token = a.tokenStream(doctext ,new StringReader(doctext));

     

    Token k = null;

     while((k = token.next != null){

        System.out.println(k);

      }

     

     

    关键词

    作用:生成用画像时候的一个元素

     

    Keyword_keywordId

    rowkey:

    keyword!`!keywordid

    C_FAMILY

    data


     

    Keywordid_keyword

    rowkey:

    keywordid!`!keyword

    C_FAMILY

    data

    部分 代码实现

    请参考视频和源码

     


    私塾在线原创独家云计算课程
  • 相关阅读:
    【java基础 11】java集合框架学习
    【java基础 10】hash算法冲突解决方法
    【java 基础 9】原来我从没有了解过String类
    阳光总在风雨后——研究生考后总结
    【java基础 8】垃圾收集算法及内存分配策略
    【java基础 7】java内存区域分析及常见异常
    【java基础 6】java的发展史简介
    springboot的使用体验和思考
    大道至简——你比你想象中更早接触微服务
    【Ts 3】Nginx的Http(图片)服务器配置+ftp上传使用说明
  • 原文地址:https://www.cnblogs.com/riasky/p/3478942.html
Copyright © 2020-2023  润新知