• ik分词器


    ik分词器下载地址:https://code.google.com/archive/p/ik-analyzer/downloads

    需要翻墙

     配置文件:

     IKAnalyzer2012.jar(主 jar 包)
     IKAnalyzer.cfg.xml(分词器扩展配置文件)
     stopword.dic(停止词典)
     ext.dic (扩展词典)

     

    import java.io.StringReader;
    
    import org.apache.lucene.analysis.TokenStream;
    import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
    import org.wltea.analyzer.lucene.IKAnalyzer;
    
    /**
     * Ik分词器
     *
     * @author jiang
     *
     */
    public class Ik {
    
        public static void main(String[] args) {
    
            try {
    
            // 检索内容
                String text = "中国人";
                // 当为 true 时,分词器采用智能切分 ;当为 false时,分词器进行最细粒度切分。
                IKAnalyzer anal = new IKAnalyzer(false);
                StringReader reader = new StringReader(text);
                // 分词
                TokenStream ts = anal.tokenStream("s", reader);
                CharTermAttribute term = ts.getAttribute(CharTermAttribute.class);
                // 遍历分词数据
                while (ts.incrementToken()) {
                    System.out.print(term.toString() + "|");
                }
                reader.close();
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }

    控制台:

    加载扩展词典:ext.dic
    加载扩展停止词典:stopword.dic
    中国人|中国|国人|

    lucene4.0 与iku_1兼容,其它不兼容情况可以更换jar包

  • 相关阅读:
    数据库连接池-配置 wallfilter问题解决-UncategorizedSQLException
    maven统一配置
    maven依赖排除
    list排序
    spring boot日志配置
    HDU 5281 Senior's Gun (贪心)
    Saving HDU (贪心)
    切割木板 (贪心)
    查找最少标记点 (贪心)
    字典序最小问题 (贪心)
  • 原文地址:https://www.cnblogs.com/bchange/p/9447546.html
Copyright © 2020-2023  润新知