• 查看分析器(Analyzer)的分词效果


    1 测试代码

    package com.test.lucene.helloworld;
    
    import org.apache.lucene.analysis.Analyzer;
    import org.apache.lucene.analysis.TokenStream;
    import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
    import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
    import org.junit.Test;
    import org.wltea.analyzer.lucene.IKAnalyzer;
    
    public class JudgeAnalyzer {
    
        @Test
        public void testTokenStream() throws Exception {// 创建一个分析器对象
            //Analyzer analyzer = new StandardAnalyzer();
            //Analyzer analyzer = new CJKAnalyzer();
            //Analyzer analyzer = new SmartChineseAnalyzer();
            Analyzer analyzer = new IKAnalyzer();
            // 获得tokenStream对象
            // 第一个参数:域名,可以随便给一个
            // 第二个参数:要分析的文本内容
            String content ="我是一个中国人,我学习了数据结构,它是一个高富帅,你是白富美";
            TokenStream tokenStream = analyzer.tokenStream("test",content);
            // 添加一个引用,可以获得每个关键词
            CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
            // 添加一个偏移量的引用,记录了关键词的开始位置以及结束位置
            OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class);
            // 将指针调整到列表的头部
            tokenStream.reset();
            // 遍历关键词列表,通过incrementToken方法判断列表是否结束
            while (tokenStream.incrementToken()) {
                // 关键词的起始位置
                System.out.println("start->" + offsetAttribute.startOffset());
                // 取关键词
                System.out.println(charTermAttribute);
                // 结束位置
                System.out.println("end->" + offsetAttribute.endOffset());
            }
            tokenStream.close();
        }
    }

    IKAnalyzer中文分析器使用方法

    第一步:将jar包导入项目中

    第二步:把配置文件和扩展词典和停用词词典添加到classpath

     

  • 相关阅读:
    Redis 之order set有序集合结构及命令详解
    Redis 之set集合结构及命令详解
    Redis 之list链表结构及命令详解
    Redis 之string结构及命令详解
    Redis 通用key操作命令
    Redis 在Linux下的安装
    Entity FrameWork 操作使用详情
    Linux 之常用操作指令详解
    Linux 之根目录介绍
    php 加密解密函数封装
  • 原文地址:https://www.cnblogs.com/jepson6669/p/9051833.html
Copyright © 2020-2023  润新知