• Solr的检索运算符、分析器(Analyzer)、TokenizerFactory(分词器)、TokenFilterFactory(分词过滤器)详解


    Solr有哪些检索运算符?

    1. “:” 指定字段查指定值,如返回所有值*:*
    2. “?” 表示单个任意字符的通配
    3. “*” 表示多个任意字符的通配(不能在检索的项开始使用*或者?符号)
    4. “~” 表示模糊检索,如检索拼写类似于”roam”的项这样写:roam~将找到形如foam和roams的单词;roam~0.8,检索返回相似度在0.8以上的记录。
    5. 邻近检索,如检索相隔10个单词的”apache”和”jakarta”,”jakarta apache”~10
    6. “^” 控制相关度检索,如检索jakarta apache,同时希望去让”jakarta”的相关度更加好,那么在其后加上”^”符号和增量值,即jakarta^4 apache
    7. 布尔操作符AND、||
    8. 布尔操作符OR、&&

    9. 布尔操作符NOT、!、- (排除操作符不能单独与项使用构成查询)
    10. “+” 存在操作符,要求符号”+”后的项必须在文档相应的域中存在
    11. ( ) 用于构成子查询
    12. [] 包含范围检索,如检索某时间段记录,包含头尾,date:[200707 TO 200710]
    13. {} 不包含范围检索,如检索某时间段记录,不包含头尾
    date:{200707 TO 200710},注意4.0以上版本可以设置半开闭区间
    14. / 转义操作符,特殊字符包括+ - && || ! ( ) { } [ ] ^ ” ~ * ? : /

      分析器(Analyzer)是包含两个部分:分词器和过滤器。分词器功能将句子分成单个的词元token,过滤器就是对词元进行过滤。(TokenizerFactory(分词器)、TokenFilterFactory(分词过滤器))

    Solr有哪些TokenizerFactory?

    1.  solr.LetterTokenizerFactory

       创建org.apache.lucene.analysis.LetterTokenizer.

       分词举例:

       "I can't" ==> "I", "can", "t"

    2.  solr.WhitespaceTokenizerFactory

       创建org.apache.lucene.analysis.WhitespaceTokenizer

    3.  solr.LowerCaseTokenizerFactory

       创建org.apache.lucene.analysis.LowerCaseTokenizer

       分词举例:

      "I can't" ==> "i", "can", "t"

    4.  solr.StandardTokenizerFactory

       创建org.apache.lucene.analysis.standard.StandardTokenizer

       分词举例:  "I.B.M. cat's can't" ==> 

    ACRONYM: "I.B.M.", APOSTROPHE:"cat's", APOSTROPHE:"can't"

       说明:该分词器,会自动地给每个分词添加type,以便接下来的对type敏感

    5.  solr.HTMLStripWhitespaceTokenizerFactory

    从结果中出去HTML标签,将结果交给WhitespaceTokenizer处理。

    例子:

    my <a href="www.foo.bar">link</a>

    my link

    <?xml?><br>hello<!--comment-->

    hello

    hello<script><-- f('<--internal--></script>'); --></script>

    hello

    if a<b then print a;

    if a<b then print a;

    hello <td height=22 nowrap align="left">

    hello

    a<b A Alpha&Omega Ω

    a<b A Alpha&Omega Ω

    6.  solr.HTMLStripStandardTokenizerFactory

    从结果中出去HTML标签,将结果交给StandardTokenizer处理。

    7.  solr.PatternTokenizerFactory

    说明:按照规则表达式样式对分本进行分词。

    例子:处理对象为,mice; kittens; dogs,他们由分号加上一个或多个的空格分隔。

    <fieldType name="semicolonDelimited" class="solr.TextField">

          <analyzer>

            <tokenizer class="solr.PatternTokenizerFactory" pattern="; *" />

          </analyzer>

       </fieldType>

     

    Solr有哪些TokenFilterFactory?

    1.  solr.StandardFilterFactory

    创建:org.apache.lucene.analysis.standard.StandardFilter.

    说明:移除首字母简写中的点和Token后面的’s。仅仅作用于有类的Token,他们是由StandardTokenizer产生的。

    例子:StandardTokenizer+ StandardFilter

    "I.B.M. cat's can't" ==> "IBM", "cat", "can't"

    2.  solr.LowerCaseFilterFactory

    创建:org.apache.lucene.analysis.LowerCaseFilter.

    3.       solr.TrimFilterFactory【solr1.2】

    创建:org.apache.solr.analysis.TrimFilter

    说明:去掉Token两端的空白符

    例子:

     " Kittens!   ", "Duck" ==> "Kittens!", "Duck".

    4.    solr.StopFilterFactory

    创建:org.apache.lucene.analysis.StopFilter

    说明:去掉如下的通用词,多为虚词。

       "a", "an", "and", "are", "as", "at", "be", "but", "by",

        "for", "if", "in", "into", "is", "it",

        "no", "not", "of", "on", "or", "s", "such",

        "t", "that", "the", "their", "then", "there", "these",

        "they", "this", "to", "was", "will", "with"

    自定义的通用词表的使用可以通过schema.xml文件中的"words"属性来指定,如下。

    <fieldtype name="teststop" class="solr.TextField">

       <analyzer>

         <tokenizer class="solr.LowerCaseTokenizerFactory"/>

         <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>

       </analyzer>

    </fieldtype>

    5.       solr.KeepWordFilterFactory【solr1.3】

    创建:org.apache.solr.analysis.KeepWordFilter

    说明:作用与solr.StopFilterFactory相反,保留词的列表也可以通过”word”属性进行指定。

    <fieldtype name="testkeep" class="solr.TextField">

       <analyzer>

         <filter class="solr.KeepWordFilterFactory" words="keepwords.txt" ignoreCase="true"/>

       </analyzer>

    </fieldtype>

    6.       solr.LengthFilterFactory

    创建:solr.LengthFilter

    说明:过滤掉长度在某个范围之外的词。范围设定方式见下面。

    <fieldtype name="lengthfilt" class="solr.TextField">

      <analyzer>

        <tokenizer class="solr.WhitespaceTokenizerFactory"/>

        <filter class="solr.LengthFilterFactory" min="2" max="5" />

      </analyzer>

    </fieldtype>

    7.  solr.PorterStemFilterFactory

    创建:org.apache.lucene.analysis.PorterStemFilter

    说明:采用Porter Stemming Algorithm算法去掉单词的后缀,例如将复数形式变成单数形式,第三人称动词变成第一人称,现在分词变成一般现在时的动词。

    8.  solr.EnglishPorterFilterFactory

    创建:solr.EnglishPorterFilter

    说明:关于句子主干的处理,其中的"protected"指定不允许修改的词的文件。

    9.  solr.SnowballPorterFilterFactory

    说明:关于不同语言的词干处理

    10.solr.WordDelimiterFilterFactory

    说明:关于分隔符的处理。

    11.solr.SynonymFilterFactory

    说明:关于同义词的处理。

    12.solr.RemoveDuplicatesTokenFilterFactory

    说明:避免重复处理。

    13. solr.EnglishMinimalStemFilterFactory

    说明:它是一个简单的词干器,只处理典型的复数形式。不同于多数的词干器,它词干化的词元是拼写合法的单词,它们是单数形式的。它的好处是使用这个词干器的域可以进行普通的搜索,还可以进行搜索提示。

    对一个document进行索引时,其中的每个field中的数据都会经历分析(分析就是组合分词和过滤),最终将一句话分成单个的单词,去掉句子当中的空白符号,大写转换小写,复数转单数,去掉多余的词,进行同义词代换等等。

            如:This is a blog! this,is,a会被去除,最后剩下blog。当然 ! 这个符号也会被去除的。

            这个过程是在索引和查询过程中都会进行的,而且通常两者进行的处理的都是一样的,这样做是为了保证建立的索引和查询的正确匹配。

           分析器(Analyzer)是包含两个部分:分词器和过滤器。分词器功能将句子分成单个的词元token,过滤器就是对词元进行过滤。

           solr自带了一些分词器,如果你需要使用自定义的分词器,那么就需要修改schema.xml文件。

           schema.xml文件允许两种方式修改文本被分析的方式,通常只有field类型为solr.TextField的field的内容允许定制分析器。

           方法一:使用任何org.apache.lucene.analysis.Analyzer的子类进行设定。

           <fieldType name = "text" class = "solr.TextField">

                 <analyzer class = "org.wltea.analyzer.lucene.IKAnalyzer" />

           </fieldType>

           方法二:指定一个TokenizerFactory,后面跟一系列的TokenFilterFactories(他们将按照所列的顺序发生作用),Factories被用来创建分词器和分词过滤器,他们用于对分词器和分词过滤器的准备配置,这样做的目的是为了避免通过反射创造的开销。

            <analyzer type = "index">

                   <tokenizer class= "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength = "false" />

                   ......

            </analyzer>

            <analyzer type = "query">

                   <tokenizer class = "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength = "true" />

                   .......

            </analyzer>

            需要说明的一点是,一些 Analyzer,TokenizerFactory 或者 TokenFilterFactory应该用带包名的全类名进行指定,请确保他们位于Solr的classpath路径下。对于org.apache.solr.analysis.*包下的类,仅仅通过solr.*就可以进行指定。

            如果你需要使用自己的分词器和过滤器,你就需要自己写一个factory,他必须是BaseTokenizerFactory(分词器)或BaseTokenFilterFactory(过滤器)的子类。就像下面一样。

    public class MyFilterFactory extends BaseTokenFilterFactory {

    public TokenStream create(TokenStream input) {

    return new MyFilter(input);

    }

    }

            对于IK3.1.5版本已经完全支持了solr的分词,这样就不用自己来编写了,而对于中文的切词的话,IK对solr的支持已经很完美了。

    Solr提供了哪些TokenizerFactories?

    • solr.LetterTokenizerFactory,创建org.apache.lucene.analysis.LetterTokenizer。分词举例:“I can't”→“I”,“can”,“t”,字母切词。
    • solr.WhitespaceTokenizerFactory,创建org.apache.lucene.analysis.WhitespaceTokenizer,主要是切除所有空白字符。
    • solr.LowerCaseTokenizerFactory,创建org.apache.lucene.analysis.LowerCaseTokenizer,分词举例:“I can't”→“i”,“can”,“t”,主要是大写转小写。
    • solr.StandardTokenizerFactory,创建org.apache.lucene.analysis.standard.StandardTokenizer,分词举例:"I.B.M cat's can't"→ACRONYM:“I.B.M”,APOSTROPHE:“cat's”,APOSTROPHE:“can't”,说明:该分词器会自动地给每个分词添加type,以便接下来的对type敏感的过滤器进行处理,目前仅仅只有StandardFilter对Token的类型是敏感的。
    • solr.HTMLStripWhitespaceTokenizerFactory,从结果中除去HTML标签,将结果交给WhitespaceTokenizer处理。例子:

    my<a href = "www.foo.bar">link</a>

    my link

    <?xml?><br>hello<!-- comment -->

    hello

    hello<script><-- f('<--internal--></script>'); --></script>

    hello

    if a<b then print a;

    if a<b then print a;

    hello <td height=22 newrapalign = "left">

    hello

    a&lt;b &#65 Alpha&Omega&Omega;

    a<b A Alpha&Omega Ω

    • solr.HTMLStripStandardTokenizerFactory,从结果中除去HTML标签,将结果交给StandardTokenizer处理。
    • solr.PatternTokenizerFactory,按照规则表达式样式对分本进行分词。例子:处理对象为mice;kittens;dogs,他们由分号加上一个或多个的空格分隔。

    <fieldType name = "semicolonDelimited" class = "solr.TextField">

    <analyzer>

    <tokenizer class = "solr.PatternTokenizerFactory" pattern = ";*" />

    </analyzer>

    </fieldType>

    Solr有哪些TokenFilterFactories?

    • solr.StandardFilterFactory,创建org.apache.lucene.analysis.standard.StandardFilter。移除首字母简写中的点和Token后面的's。仅仅作用于有类的Token,他们是由StandardToken产生的。例如:"I.B.M. cat's can't"→“IBM”,“cat”,“cat't”。
    • solr.LowerCaseFilterFactory,创建org.apache.lucene.analysis.LowerCaseFilter。
    • solr.TrimFilterFactory【solr1.2】,创建org.apache.solr.analysis.TrimFilter,去掉Token两端的空白符,例:"Kittens! ","Duck"→"Kittens!","Duck"。
    • solr.StopFilterFactory,创建org.apache.lucene.analysis.StopFilter,去掉如下的通用词,多为虚词。

    "a","an","and","are","as","at","be","but","by","for","if","in","into","is","it","no","not","of","on","or","s","such","t","that","the","their","then","there","these","they","this","to","was","will","with"。

    自定义的通用词表的使用可以通过schema.xml文件中的“words”属性来指定,如下。

    <fieldType name = "teststop" class = "solr.TextField">

    <analyzer>

    <tokenizer class = "solr.LowerCaseTokenizerFactory" />

    <filter class = "solr.StopFilterFactory" words = "stopwords.txt" ignoreCase = "true" />

    </analyzer>

    </fieldType>

    • solr.KeepWordFilterFactory【solr1.3】,创建org.apache.solr.analysis.KeepWordFilter,作用与solr.StopFilterFactory相反,保留词的列表也可以通过“word”属性进行指定。

    <fieldType name = "testkeep" class = "solr.TextField">

    <analyzer>

    <filter class = "solr.KeepWordFilterFactory" words = "keepwords.txt" ignoreCase = "true" />

    </analyzer>

    </fieldtype>

    • solr.LengthFilterFactory,创建solr.LengthFilter,过滤掉长度在某个范围之外的词,范围设定方式见下面。

    <fieldType name = "lengthfilt" class = "solr.TextField">

    <analyzer>

    <tokenizer class = "solr.WhitespaceTokenizerFactory" />

    <filter class = "solr.LengthFilterFactory" min = "2" max = "5" />

    </analyzer>

    </fieldType>

      • solr.PorterStemFilterFactory,创建org.apache.lucene.analysis.PorterStemFilter,采用Porter Stemming Algorithm
        算法去掉单词的后缀,例如将复数形式变成单数形式,第三人称动词变成第一人称,现在分词变成一般现在时的动词。
      • solr.EnglishPorterFilterFactory,创建solr.EnglishPorterFilter,关于句子主干的处理,其中的“protected”指定不允许修改的词的文件。
      • solr.SnowballPorterFilterFactory,关于不同语言的词干处理。
      • solr.WordDelimiterFilterFactory,关于分隔符的处理。
      • solr.SynonymFilterFactory,关于同义词的处理。
      • solr.RemoveDuplicatesTokenFilterFactory,避免重复处理。

    下面来记录并分享下solr的各个过滤器极其用法:

    1、solr.StandardFilterFactory
    创建:org.apache.lucene.analysis.standard.StandardFilter.
    作用:移除首字母简写中的“ . ”和“ 's ”。仅作用于有类的Token,它们是由StandardTokenizer产生的。
    2、solr.LowerCaseFilterFactory
    创建:org.apache.lucene.analysis.LowerCaseFilter.
    作用:大写转小写
    3、solr.TrimFilterFactory
    创建:org.apache.solr.analysis.TrimFilter
    作用:去掉两端的空白符
    4、solr.StopFilterFactory
    创建:org.apache.lucene.analysis.StopFilter
    作用:
    1)去掉如下的通用词,多为虚词
    “a”,“an”,“and”,“are”,“as”,“at”,“but”,“be”,“by”,“for”,“if”,“in”,“into”,“is”,“it”,“no”,“not”,“of”,“on”,“or”,“s”,“such”,“t”,“that”,“the”,“their”,“then”,“there”,
    “these”,“they”,“this”,“to”,“was”,“will”,“with”
    2)自定义的通用词表的使用可以通过schema.xml文件中的“word”属性来指定,如下:

    <filedType name="teststop" class="solr.TextField">
    	<analyzer>
    		<tokenizer class="solr.LowerCaseTokenizerFactory"/>
    		<filter class="solr.StopFilterFactory" words="stopwords.txt " ignoreCase="true"/>
    	</analyzer>
    </fieldType>
    

    5、solr.KeepWordFilterFactory
    创建:org.apache.solr.analysis.KeepWordFilter
    作用:与solr.StopFilterFactory相反,保留词的列表也可以通过“word”属性进行指定

    <fieldtype>
    	<analyzer>
    		<filter class="solr.KeepWordFilterFactory" words="keepwords.txt" ignoreCase="true"/>
    	</analyzer>
    </fieldtype>
    

    6、solr.LengthFilterFactory
    创建:solr.LengthFilter
    作用:过滤掉长度在某个范围之外的词,范围设定方式如下:

    <fieldtype name="lengthfilte" class="solr.TextField">
    	<analyzer>
    		<tokenizer class = "solr.WhitespaceTokenizerFactory"/>
    		<filter class="solr.LengthFilterFactory" min="2" max="5"/>
    	<analyzer>
    </fieldtype>
    

    7、solr.PorterStemFilterFactory
    创建:org.apache.lucene.analysis.PorterStemFilter
    作用:采用Porter Stemming Algorithm算法去掉单词的后缀,例如将复数形式变成单数形式,第三人称动词变成第一人称,现在分词变成一般现在时的动词。

    8、solr.EnglishPorterFilter
    创建:solr.EnglishPorterFilter
    作用:关于句子主干的处理,其中的“protected"指定不允许修改的词的文件

    9、solr.SnowballPorterFilterFactory
    关于不同语言的词干处理

    10、solr.WordDelimiterFilterFactory
    关于分隔符的处理

    11、solr.SynonymFilterFactory
    关于同义词的处理

    12、solr.RemoveDuplicatesTokenFilterFactory
    避免重复处理

  • 相关阅读:
    团队编程规范
    软工小组:我们都是水果
    Github与SmartGit使用说明与建议
    Github for Windows使用图文教程
    SQL语句实现mysql数据库快速插入1000w条数据
    dijkstra+relax修改
    Kuchiguse (20)简单字符串处理,输入坑
    1098. Insertion or Heap Sort (25)堆排序
    Consecutive Factors(求n的连续约数)
    Dijkstra(第二关键词最优),路径保存DFS
  • 原文地址:https://www.cnblogs.com/cuihongyu3503319/p/15725812.html
Copyright © 2020-2023  润新知