• lucene 类介绍


    lucene中重要的类:

        IndexWriter:lucene中最重要的类之一,主要用于索引的创建

        Analyzer(抽象类):分析器,主要用于分析文本,常用的有StandardAnalyzer分析器,StopAnalyzer分析器,WhitespaceAnalyzer分析器等

            标准分析器的功能如下:

                 1、对原有句子按照空格进行了分词 
            2、所有的大写字母都可以能转换为小写的字母 
            3、可以去掉一些没有用处的单词,例如"is","the","are"等单词,也删除了所有的标点。

            对于中文,lucene自带了三种中文分析器

                StandardAnalyzer :单字分词,就是按照中文一个字一个字地进行分词。如:“我爱中国”,效果:“我”、“爱”、“中”、“国”

                CJKAnalyzer :二分法分词,按两个字进行切分。如:“我是中国人”,效果:“我是”、“是中”、“中国”、“国人”。 

                SmartChineseAnalyzer :对中文支持较好,但扩展性差,扩展词库,禁用词库和同义词库等不好处理。

        Directory:索引存放的位置,lucene提供了两种索引存储的为止,一种是磁盘,一种是内存。相应的lucene提供了FSDirectory,RAMDirectory两个类。

        Document:Document 是用来描述文档的,这里的文档可以指一个 HTML 页面,一封电子邮件,或者是一个文本文件。一个 Document 对象由多个 Field 对象组成的。可以把一个 Document 对象想象成数据库中的一个记录,而每个 Field 对象就是记录的一个字段。

        Field:Field 对象是用来描述一个文档的某个属性的,比如一封电子邮件的标题和内容可以用两个 Field 对象分别描述。

        Query(抽象类):这个类的目的是把用户输入的查询字符串封装成 Lucene 能够识别的 Query。他有多个实现,比如模糊查询,语义查询,短语查询,组合查询等一些类 ,相应的有TermQuery, BooleanQuery, PrefixQuery等。

        Term:Term 是搜索的基本单位,一个 Term 对象有两个 String 类型的域组成。生成一个 Term 对象可以有如下一条语句来完成:Term term = new Term(“fieldName”,”queryWord”); 其中第一个参数代表了要在文档的哪一个 Field 上进行查找,第二个参数代表了要查询的关键词。

        TermQuery:TermQuery 是抽象类 Query 的一个子类,它同时也是 Lucene 支持的最为基本的一个查询类。生成一个 TermQuery 对象由如下语句完成: TermQuery termQuery = new TermQuery(new Term(“fieldName”,”queryWord”)); 它的构造函数只接受一个参数,那就是一个 Term 对象。

        IndexSearch:IndexSearcher 是用来在建立好的索引上进行搜索的。它只能以只读的方式打开一个索引,所以可以有多个 IndexSearcher 的实例在一个索引上进行操作。

        Hits:Hits 是用来保存搜索的结果的

  • 相关阅读:
    ArcGIS几种数据格式
    C#中的接口
    OpenFileDialog获取文件名和文件路径问题
    OO与设计模式的原则、目标
    设计模式-工厂模式三部曲
    .NET设计模式: 工厂模式
    最详细eclipse汉化插件安装教程
    Eclipse IDE for C/C++ Developers安装配置详解
    使用 Eclipse C/C++ Development Toolkit 开发应用程序
    VS开发好用的扩展
  • 原文地址:https://www.cnblogs.com/jnba/p/10522714.html
Copyright © 2020-2023  润新知