lucene中的Token, TokenStream, Tokenizer, Analyzer

lucene中的Token, TokenStream, Tokenizer, Analyzer
Token：如果一个字段被token化，这表示它经过了一个可将内容转化为tokens串的分析程序。 Token是建立索引的基本单位，表示每个被编入索引的字符。在token化的过程中，分析程序会在使用任何转换逻辑（例如去掉 "a” 或 "the" 这类停用词，执行词干搜寻，将无大小写区分的所有文字转换成小写等）的同时，抽取应被编入索引的文本内容。由于和字段相关的内容减少到只剩核心元素，因此，索引作为与某个字段相关的文字内容，它的规模也被缩小了。只有被token化的字段也将被编入索引的情况下才有意义。对Akamai.com来说，“标题”被token化，所以Lucene不用搜寻如 "a" 或 "the" 这类单词。
[java] view plain copy
1. public final class Token {
2. String termText; // the text of the term
3. int startOffset; // start in source text
4. int endOffset; // end in source text
5. String type = "word"; // lexical type
7. private int positionIncrement = 1;
9. public Token(String text, int start, int end)
11. public Token(String text, int start, int end, String typ)
13. public void setPositionIncrement(int positionIncrement)
15. public int getPositionIncrement() { return positionIncrement; }
17. public final String termText() { return termText; }
19. public final int startOffset() { return startOffset; }
21. public void setStartOffset(int givenStartOffset)
23. public final int endOffset() { return endOffset; }
25. public void setEndOffset(int givenEndOffset)
27. public final String type() { return type; }
29. public String toString()
31. }
TokenStream是用来走访Token的iterator(迭代器)
[java] view plain copy
1. public abstract class TokenStream {
2. public abstract Token next() throws IOException;
3. public void close() throws IOException {}
4. }
Tokenizer继承自TokenStream，其输入为Reader
[java] view plain copy
1. public abstract class Tokenizer extends TokenStream {
2. protected Reader input;
3. protected Tokenizer() {}
4. protected Tokenizer(Reader input) {
5. this.input = input;
6. }
8. public void close() throws IOException {
9. input.close();
10. }
11. }
TokenFilter继承自TokenStream,其作用是用来完成对TokenStream的过滤操作，譬如
去StopWords，将Token变为小写等
[java] view plain copy
1. public abstract class TokenFilter extends TokenStream {
2. protected TokenStream input;
3. protected TokenFilter() {}
4. protected TokenFilter(TokenStream input) {
5. this.input = input;
6. }
8. public void close() throws IOException {
9. input.close();
10. }
11. }
Analyzer就是一个TokenStream工厂
[java] view plain copy
1. public abstract class Analyzer {
2. public TokenStream tokenStream(String fieldName, Reader reader){
3. return tokenStream(reader);
4. }
6. public TokenStream tokenStream(Reader reader){
7. return tokenStream(null, reader);
8. }
9. }
Analyzer的作用就是把文本分解为便于Lucene处理的token,好比人体的肠道，负责把食物分解成易于吸收的小块。

Query query = new QueryParser(Version.LUCENE_36,"text",analyzer).parse(nameen.trim());

这个是lucene内部先对nameen进行分词，比如按空格之内的，然后分词之后的结果任意一个被包含于text字段里面的内容，那么该条记录就被选中

例如：
Hybrid safflower (Carthamus tinctorius) oil

分词为：

+(text:hybrid text:safflower text:carthamus text:tinctorius text:oil) -id:246281
相关阅读:
查看当前系统的shell
xargs命令，作用雷同|
shell 行末尾的&含义
 apt-get 安装及卸载，dpkg查询安装文件
 Linux: mv and cp 拷贝不包含目录
 windows下远程连接ubunut
Linux 清空屏幕
 PageHelper的一些属性设置
 HttpServletRequest
铁电RAM为何比串行SRAM更好
原文地址：https://www.cnblogs.com/zwb7926/p/3115615.html

lucene中的Token, TokenStream, Tokenizer, Analyzer

Hybrid safflower (Carthamus tinctorius) oil

+(text:hybrid text:safflower text:carthamus text:tinctorius text:oil) -id:246281