云计算项目实战之分词管理

云计算项目实战之分词管理

第一部分：需求分析

什么是中文分词

• 中文分词 ( Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词

• 中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果

什么是庖丁词汇

• Paoding （庖丁解牛分词）基于 Java 的开源中文分词组件，提供 lucene 和 solr 接口，具有极   高效率和   高扩展性

•

• 采用基于   不限制个数的词典文件对文章进行有效切分，使能够将对词汇分类定义

•

• 庖丁系统是个完全基于 lucene 的中文分词系统，它就是新建了一个 analyzer，叫做 PaodingAnalyzer ，这个 analyer 的核心任务就是生成一个可以切词 TokenStream 。

•

• 仅支持 Java 语言。

功能需求

• 庖丁词汇初始化

• 分词表的基本维护与查询

第二部分：技术点

安装与配置庖丁分词

• 下载庖丁最新的 Jar

• https ://code.google.com/p/paoding

•

• 将字典文件装载到本地的某个文件夹

• 例如 /home/test/ dic

•

• 将 paoding-analysis.properties 放在 resources 文件下或者修改 jar 包内该配置文件，指定

• paoding.dic.home =/home/test/ dic

基本使用演示

Analyzer a = new PaodingAnalyzer();

String doctext = “test  test”;

TokenStream token = a.tokenStream(doctext ,new StringReader(doctext));

Token k = null;

while((k = token.next)  != null){

    System.out.println(k);

}

关键词

作用：生成用画像时候的一个元素

Keyword_keywordId

rowkey:

keyword!`!keywordid

C_FAMILY

data

Keywordid_keyword

rowkey:

keywordid!`!keyword

C_FAMILY

data

第三部分：代码实现

请参考视频和源码

私塾在线原创独家云计算课程
相关阅读:
【java基础 11】java集合框架学习
 【java基础 10】hash算法冲突解决方法
 【java 基础 9】原来我从没有了解过String类
 阳光总在风雨后——研究生考后总结
 【java基础 8】垃圾收集算法及内存分配策略
 【java基础 7】java内存区域分析及常见异常
 【java基础 6】java的发展史简介
 springboot的使用体验和思考
 大道至简——你比你想象中更早接触微服务
 【Ts 3】Nginx的Http（图片）服务器配置+ftp上传使用说明
原文地址：https://www.cnblogs.com/riasky/p/3478942.html

rowkey:	keyword!`!keywordid
C_FAMILY	data

rowkey:	keywordid!`!keyword
C_FAMILY	data

云计算项目实战 之分词管理

云计算项目实战之分词管理