Lucene中的Analyzer

Lucene中的Analyzer

阅读下面文章之前，建议先阅读随风的DotLucene源码浅读笔记(1) : Lucene.Net.Analysis 了解Lucene的Analyzer

由于lucene中自带的几个Analyzer不能满足业务需求，要自定义Analyzer所以参考lucene中自带的几个Analyzer的实现。
在参考的过程中，发现KeywordAnalyzer可以简化。
1.修改keywordAnalyzer
Analysis\KeywordTokenizer.cs中分词实现

public override Token Next()
        {
            if (!done)
            {
                done = true;
                System.Text.StringBuilder buffer = new System.Text.StringBuilder();
                int length;
                while (true)
                {
                    length = input.Read((System.Char[]) this.buffer, 0, this.buffer.Length);
                    if (length <= 0)
                        break;

                    buffer.Append(this.buffer, 0, length);
                }
                System.String text = buffer.ToString();
                return new Token(text, 0, text.Length);
            }
            return null;
        }
private const int DEFAULT_BUFFER_SIZE = 256;

在分词的过程中，判断了词的大小，当要使用KeywordAnalyzer作为词的分析器时，只能含有256个字符。而一般的使用过程中很少会把大于256的词用KeywordAnalyzer去分词。因此可以把判断去掉（注意：要分的词不能大于256个字符）下面是简化后的代码：

/**//// <summary>
    ///  KeywordAnalyzer的简单实现(确定keywords在 255字符以内)
    ///  <remark>自定义KeywordAnalyzer</remark>
    /// </summary>
    public class SimpleKeywordAnalyzer : Analyzer
    {
        public override TokenStream TokenStream(String fieldName, System.IO.TextReader reader)
        {
            return new CustomCharTokenizer(reader);
        }

        public class CustomCharTokenizer : CharTokenizer // CharTokenizer系统自带用来对基于字符的进行简单分词（tokenizer）
        {
            public CustomCharTokenizer(System.IO.TextReader reader)
                : base(reader)
            {

            }

            protected internal override bool  IsTokenChar(char c)
            {
                return true;
            }
        }

    }

2.自定义Analyzer
在项目实践中，需要对IT商品名进行搜索。我们知道IT商品名比较复杂，商品中含很多型号。
如笔记本：BenQ Joybook R23E (103)，HP Pavilion dv1617
用户搜索时基本上不会把型号输完整，很有可能输入r23，dv等关键字进行搜索（限定搜索此必须1个字符以上，否则搜索关键字基本没含义）。Lucene自带的analyzer显然不能满足需求，必需自定义analyzer。
自定义analyzer一般都会
1.定义分（切）词规则（实现Tokenizer）
2.定义词的过滤规则（实现TokenFilter）

分词规则确定：
首先分析taobao等大型电子商务网站对商品搜索结果。taobao基本上无论输入什么词都能搜索出结果，其规则是只要商品名含有输入的字符就显示出来。比如输入“件硬”搜索出的商品只是含有此关键字。基本可以判断出是单字分词，没有进行语义分析。
对于商品名的复杂性和用户输入的不确定性，这样的规则是非常符合商品搜索的。
因此在实现商品搜索的过程中，我也采用了这样的规则。
规则：进行单字分词，字母和数字都作为单个字符处理，其它字符则被过滤。
如BenQ Joybook R23E (103)分词后效果：b e n q j o y b o o k r 2 3 e 1 0 3
实现代码：

/**//// <summary>
    /// Title: ProductAnalyzer
    /// Description:
    ///   Subclass of org.apache.lucene.analysis.Analyzer
    ///   build from a ProductTokenizer, filtered with ProductFilter.
    /// Copyright:   Copyright (c) 2006.07.19
    /// @author try
    /// </summary>
    public class ProductAnalyzer : Analyzer
    {
        public ProductAnalyzer()
        {
        }
        /**//// <summary>
        /// Creates a TokenStream which tokenizes all the text in the provided Reader.
        /// </summary>
        /// <returns>A TokenStream build from a ProductTokenizer filtered with ProductFilter.</returns>
        public override sealed TokenStream TokenStream(String fieldName, TextReader reader)
        {
            TokenStream result = null;
            result = new ProductTokenizer(reader);
            return  new ProductFilter(result);
        }
    }

public sealed class ProductTokenizer : Tokenizer
    {
        public ProductTokenizer(TextReader _in)
        {
            input = _in;
        }
        private int offset = 0, bufferIndex = 0, dataLen = 0;
        private static int MAX_WORD_LEN = 255;
        private static int IO_BUFFER_SIZE = 1024;
        private char[] buffer = new char[MAX_WORD_LEN];
        private char[] ioBuffer = new char[IO_BUFFER_SIZE];
        private int length;
        private int start;
        private void Push(char c)
        {
            if (length == 0) start = offset-1;   // start of token
            buffer[length++] = Char.ToLower(c);  // buffer it
        }
        private Token Flush()
        {
            if (length > 0)
            {
                return new Token(new String(buffer, 0, length), start, start+length);
            }
            else
                return null;
        }
        public override Token Next()
        {
            length = 0;
            start = offset;
            while (true)
            {
                char c;
                offset++;
                if (bufferIndex >= dataLen)
                {
                    dataLen = input.Read(ioBuffer, 0, ioBuffer.Length);
                    bufferIndex = 0;
                };
                if (dataLen == 0)
                    return Flush();
                else
                {
                    c = ioBuffer[bufferIndex++];
                }
                switch(Char.GetUnicodeCategory(c))
                {
                    case UnicodeCategory.DecimalDigitNumber:
                        Push(c);
                        return Flush();
                    case UnicodeCategory.LowercaseLetter:
                    case UnicodeCategory.UppercaseLetter:
                        Push(c);
                        return Flush();
                    case UnicodeCategory.OtherLetter:
                        if (length > 0)
                        {
                            bufferIndex--;
                            offset--;
                            return Flush();
                        }
                       Push(c);
                       return Flush();
                   default:
                       if (length > 0) return Flush();
                       break;
                }
            }
        }
    }

public sealed class ProductFilter : TokenFilter
    {
        // Only English now, Chinese to be added later.
        public static String[] STOP_WORDS =
                 {
                     "and", "are", "as", "at", "be", "but", "by",
                     "for", "if", "in", "into", "is", "it",
                     "no", "not", "of", "on", "or", "such",
                     "that", "the", "their", "then", "there", "these",
                     "they", "this", "to", "was", "will", "with"
                 };
        private Hashtable stopTable;
        public ProductFilter(TokenStream _in)
            : base(_in)
        {
            stopTable = new Hashtable(STOP_WORDS.Length);

            for (int i = 0; i < STOP_WORDS.Length; i++)
                stopTable[STOP_WORDS[i]] = STOP_WORDS[i];
        }
        public override Token Next()
        {
            for (Token token = input.Next(); token != null; token = input.Next())
            {
                String text = token.TermText();
                if (stopTable[text] == null)
                {
                    switch (Char.GetUnicodeCategory(text[0]))
                    {
                        case UnicodeCategory.LowercaseLetter:
                        case UnicodeCategory.UppercaseLetter:
                             return token;
                        case UnicodeCategory.OtherLetter:
                            return token;
                        case UnicodeCategory.DecimalDigitNumber:
                            return token;
                    }
                }
            }
            return null;
        }
    }

实际使用下来，搜索效果理想
相关阅读:
内存溢出OutOfMemory
系统问题定位
 final域的内存语义
 volatile内存语义
 锁的内存语义
 happens-before
python 安装brew（国内的自动安装）
【Mac】点击dmg文件后无反应，解决方案
 Mac----xmind 8 下载与破解方法
 面试中可向HR 提的问题总结？
原文地址：https://www.cnblogs.com/try/p/534950.html