第一部分: 需求分析
什么是中文分词
• 中文分词 ( Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词
• 中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果
什么是庖丁词汇
• Paoding (庖丁解牛分词)基于 Java 的开源中文分词组件,提供 lucene 和 solr 接口,具有极 高效率 和 高扩展性
•
• 采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义
•
• 庖丁系统是个完全基于 lucene 的中文分词系统,它就是新建了一个 analyzer, 叫做 PaodingAnalyzer , 这个 analyer 的核心任务就是生成一个可以切词 TokenStream 。
•
• 仅支持 Java 语言。
功能需求
• 庖丁词汇初始化
• 分词表的基本维护与查询
第二部分: 技术点
安装与配置庖丁分词
• 下载庖丁最新的 Jar
• https ://code.google.com/p/paoding
•
• 将字典文件装载到本地的某个文件夹
• 例如 /home/test/ dic
•
• 将 paoding-analysis.properties 放在 resources 文件下或者修改 jar 包内该配置文件,指定
• paoding.dic.home =/home/test/ dic
基本使用演示
Analyzer a = new PaodingAnalyzer();
String doctext = “test test”;
TokenStream token = a.tokenStream(doctext ,new StringReader(doctext));
Token k = null;
while((k = token.next) != null){
System.out.println(k);
}
关键词
作用:生成用画像时候的一个元素
Keyword_keywordId
rowkey: |
keyword!`!keywordid |
C_FAMILY |
data |
Keywordid_keyword
rowkey: |
keywordid!`!keyword |
C_FAMILY |
data |
第三部分: 代码实现
请参考视频和源码
私塾在线原创独家云计算课程