lucene是一个开源的全文检索引擎工具包,但它不是一个成型的搜索引擎,它的功能就是负责将文本数据按照某种分词算法进行分词,分词后的结果存储在索引库中,然后根据关键字从索引库检检索。
那么应该如何使用呢?
1. 从官网下载http://lucene.apache.org/并解压缩
2.我们可以从官网给的示例中学习如何使用,并且官网还提供了说明文档,可以随时查阅http://lucene.apache.org/core/4_10_2/core/index.html
下面简要展示如何运行示例:
示例的源码所在的目录是lucenedocsdemosrc-htmlorgapachelucenedemo,是两个html的文件。
编写两三行代码即可去掉前面的编号,得到java文件,读者自己完成吧。
新建一个java项目luceneDemo,将html中获取的IndexFiles.java和SearchFiles.java两个java文件添加进去。
此时还不能直接运行,所以java文件中给出了错误,因为我们的项目还没有导入lucene的jar包。
右键项目->Build Path->configure Build Path->add External JARs->添加以下三个jar包
lucenecorelucene-core-4.10.1.jar
luceneanalysiscommonlucene-analyzers-common-4.10.1.jar
lucenequeryparserlucene-queryparser-4.10.1.jar
如图所示
然后就可以运行了
在run configuration里选择IndexFiles,在arguments里面输入-docs “你要检索的文件或文件夹”
点run即开始检索了,默认将索引文件存放咋项目根目录的index文件夹里
最后选中SearchFiles.java点运行,出现
Enter query:
在控制台里输入要搜索的关键字即可开始搜索。
命令行选项具体看源码。
如果要在自己的项目中使用lucene做文本检索,步骤与上面类似,关键的一步就是添加必要的jar包。