Solr是什么
Solr是一个基于全文检索的企业级应用服务器。
全文检索:可以输入一段文字,通过分词检索数据!!
应用服务器:它是单独的服务。
Solr能做什么
它就是用于做全文搜索。
为什么需要Solr
问题:我们已经有Lucene,为什么还要学习solr?
答:Lucene是一个工具包,不能单独运行,需要导入到java代码中。
Solr可以独立运行在tomcat容器中,通过http协议,以接口的方式对外提供服务,java代码只需要专注于业务的处理就可以。
Solr下载路径
http://archive.apache.org/dist/lucene/solr/
solr是基于lucene实现的,和Lucene同步更新。
Solr目录结构说明
bin:solr的运行脚本
contrib:solr的一些扩展jar包,用于增强solr的功能。
dist:该目录包含build过程中产生的war和jar文件,以及相关的依赖文件。
docs:solr的API文档
example:solr工程的例子目录:
licenses:solr相关的一些许可信息
入门示例
需求
使用Solr实现电商网站的商品搜索功能。
配置步骤说明
(1)配置Solr服务器。
(2)配置SolrHome。(Solr服务的主目录,磁盘)
(3)在Solr服务器中加载SolrHome。
(4)java程序访问Solr服务器,实现全文搜索。
配置步骤
第一部分:配置Solr服务器
--说明:Solr可以独立运行,需要servlet容器加载它。本文使用tomcat。
第一步:解压一个Tomcat
解压一个新的Tomcat,专门用来加载Solr。
第二步:部署Solr服务到Tomcat中
--在Solr的下载包中,提供了Solr的war包程序。(空的war包程序)
第二步:创建索引
--步骤说明。(复习回顾)
(1)采集数据。
(2)将数据转换成Solr文档。
(3)连接solr服务器,将文档写入索引库。
Step1:采集数据
--需求采集的字段说明:
参与搜索的字段:名称、价格、商品类别、描述信息
参与结果展示的字段:商品id、图片、
(1)创建Product类
public class Product { private Integer pid; private String name; private String catalog_name; private double price; private String description; private String picture; // 补全get、set方法 }
(2)创建ProductDao类
/** * 采集数据 * @return */ public List<Product> gathData(){ List<Product> products = new ArrayList<>(); try { //1、加载驱动 Class.forName("com.mysql.jdbc.Driver"); //2、获取Connection连接 connection = DriverManager.getConnection("jdbc:mysql://localhost:3306/solr", "root", "gzsxt"); //3、获取PreparedStatement,执行预编译 pst = connection.prepareStatement("select pid,name, catalog_name,price,description,picture from products"); //4、执行sql搜索 rs = pst.executeQuery(); Product p = null; while(rs.next()){ p = new Product(); p.setPid(rs.getInt("pid")); p.setName(rs.getString("name")); p.setPrice(rs.getFloat("price")); p.setPicture(rs.getString("picture")); p.setDescription(rs.getString("description")); p.setCatalogName(rs.getString("catalog_name")); products.add(p); } } catch (Exception e) { e.printStackTrace(); }finally { if(null!=rs){ try { rs.close(); } catch (SQLException e) { // TODO Auto-generated catch block e.printStackTrace(); } } if(null!=pst){ try { pst.close(); } catch (SQLException e) { // TODO Auto-generated catch block e.printStackTrace(); } } if(null!=connection){ try { connection.close(); } catch (SQLException e) { // TODO Auto-generated catch block e.printStackTrace(); } } } return products; }
(3)创建一个测试类ProductDaoTest
public class ProductDaoTest { @Test public void getAllProducts(){ ProductDao dao = new ProductDao(); System.out.println(dao.getAllProducts()); } }
Step2:将数据转换成Solr文档SolrInputDocument
--说明:solr是通过SolrInputDocument来封装数据的。部分源码如下:
public SolrInputDocument(Map fields){ _documentBoost = 1.0F; _fields = fields; } public void addField(String name, Object value){ addField(name, value, 1.0F); } |
问题:我们在Lucene中知道,域有三大属性,在创建文档的时候指定。而Solr的源码中,只是用一个Map集合来封装域的信息。那域的三大属性怎么定义呢?
答:Solr是通过一个配置文件schema.xml,事先定义域的信息的。
Solr域的说明
--通过<field>标签定义域的名称等信息
Solr域的特点
(1)、Solr的域必须先定义,后使用。(否则报错:unknown fieldName)
(2)、定义solr域的时候,必须指定是否索引、是否存储这两个属性。<field>
(3)、定义solr域的时候,必须指定域的类型<fieldType>:
因为域的类型确定了这个域在索引、搜索两个阶段的分词属性。
<field>标签: 来指定索引、存储两个属性
<fieldType>标签:来指定分词属性
(4)、每一个文档中,必须包含id这个域,它的值标记文档的唯一性。
配置Solr业务域
--商品各字段属性说明
域 |
Tokened |
Indexed |
Stored |
商品的id |
N |
Y |
Y |
商品的名称 |
Y |
Y |
Y |
商品的类别 |
N |
Y |
Y |
商品的价格 |
Y |
Y |
Y |
商品的图片 |
N |
N |
Y |
商品描述信息 |
Y |
Y |
N |
--修改schema.xml,添加如下配置。(id域不用配置,直接使用solr的id域)
<!--product--> <field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" /> <field name="product_name" type="text_general" indexed="true" stored="true"/> <field name="product_catalog_name" type="string" indexed="true" stored="true" /> <field name="product_price" type="double" indexed="true" stored="true"/> <field name="product_description" type="text_general" indexed="true" stored="false" /> <field name="product_picture" type="string" indexed="false" stored="true" /> |
修改ProductDao,新增getDocuments方法
/** * 将采集的数据,转换成文档类型 * @param products * @return */ public List<SolrInputDocument> getDocuments(List<Product> products){ List<SolrInputDocument> si = new ArrayList<>(); SolrInputDocument doc = null; for (Product product : products){ //文档是由域组成的。域对应数据库表的字段 doc = new SolrInputDocument(); doc.addField("id", product.getPid()); doc.addField("product_name", product.getName()); doc.addField("product_catalog_name", product.getCatalogName()); doc.addField("product_price", product.getPrice()); doc.addField("product_description", product.getDescription()); doc.addField("product_picture", product.getPicture()); si.add(doc); } return si; }
Step3:连接Solr服务器,创建索引
--前提:已经启动了Tomcat,加载了Solr服务器。(前面给过schema.xml,需要重写启动Tomcat)
--修改ProductDaoTest类,新增createIndex方法
/** * 将采集的数据,转换成文档类型 * @param products * @return */ public List<SolrInputDocument> getDocuments(List<Product> products){ List<SolrInputDocument> si = new ArrayList<>(); SolrInputDocument doc = null; for (Product product : products){ //文档是由域组成的。域对应数据库表的字段 doc = new SolrInputDocument(); doc.addField("id", product.getPid()); doc.addField("product_name", product.getName()); doc.addField("product_catalog_name", product.getCatalogName()); doc.addField("product_price", product.getPrice()); doc.addField("product_description", product.getDescription()); doc.addField("product_picture", product.getPicture()); si.add(doc); } return si; }
第三步:搜索索引
--修改ProductDaoTest类型,新增一个查询方法
@Test public void queryIndex() throws Exception { // 创建HttpSolrServer对象,通过它和Solr服务器建立连接。 // 参数:solr服务器的访问地址 HttpSolrServer server = new HttpSolrServer("http://localhost:8080/solr/solrCore0719"); // 创建SolrQuery对象 SolrQuery query = new SolrQuery(); // 设置查询条件,参考主界面 query.set("q", "*:*"); // 调用server的查询方法,查询索引库 QueryResponse response = server.query(query); // 查询结果 SolrDocumentList results = response.getResults(); // 查询结果总数 long cnt = results.getNumFound(); System.out.println("查询结果总数:" + cnt); System.out.println("--------------------分隔符-------------------"); for (SolrDocument solrDocument : results) { System.out.println("商品id:"+solrDocument.get("id")); System.out.println("商品名称:"+solrDocument.get("product_name")); System.out.println("商品价格:"+solrDocument.get("product_price")); System.out.println("商品类别:"+solrDocument.get("product_catalog_name")); System.out.println("商品图片:"+solrDocument.get("product_picture")); System.out.println("----------------------------------------"); } }
solr管理控制台
查询界面说明
对照界面,实现复杂查询
--修改ProductDaoTest类型,新增动态查询方法
@Test public void queryDynamic(){ //1、连接solr服务器 HttpSolrServer server = new HttpSolrServer("http://localhost:8080/solr/solrCore0719"); //2、创建查询对象,封装查询条件 SolrQuery query = new SolrQuery(); //设置默认搜索的域 query.set("df", "product_name"); //参考管理界面中的 "q"标签,封装查询的关键词 query.set("q", "音乐盒"); //添加价格过滤 query.addFilterQuery(“fq”,"product_price:[10 TO 50]"); //添加类别过滤 query.addFilterQuery("product_catalog_name:幽默杂货"); //设置排序 价格升序 query.set("sort","product_price asc"); //设置分页信息 第二页 每页10条 start=(page-1)*pageSize query.set("start", 10); query.set("rows",10); //设置要查询字段 query.set("fl", "id,product_name,product_price"); //3、执行查询 try { QueryResponse response = server.query(query); //获取查询的响应码 int status = response.getStatus(); System.out.println("响应码:"+status); if(0==status){ SolrDocumentList solrDocumentList = response.getResults(); long numFound = solrDocumentList.getNumFound(); System.out.println("共查询到"+numFound+"条满足条件的数据!"); System.out.println("--------------"); for (SolrDocument s : solrDocumentList) { System.out.println("商品的id:"+s.get("id")); System.out.println("商品的名称:"+s.get("product_name")); System.out.println("商品的价格:"+s.get("product_price")); System.out.println("商品的图片:"+s.get("product_picture")); System.out.println("商品的类别名称:"+s.get("product_catalog_name")); System.out.println("商品的描述:"+s.get("product_decsription")); System.out.println("-----------分隔符---------------"); } } } catch (SolrServerException e) { e.printStackTrace(); } }
安装DataImport插件
Dataimport插件说明
--好处:可以在管理界面直接从数据库导入数据到索引库。(即:一个插件解决入门示例中,创建索引的全部操作)
(3)、在solrconfig.xml文件中,加载这两个jar依赖
<lib dir="F:/depJar/contrib/dataimporthandler/lib/" regex=".*.jar" /> <lib dir="F:/depJar/contrib/db/lib/" regex=".*.jar" /> |
第二步:配置数据库表和solr域的映射关系
--在solr实例的conf目录下,配置数据库映射文件data-config.xml
<?xml version="1.0" encoding="UTF-8" ?> <dataConfig> <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/solr" user="root" password="gzsxt"/> <document> <entity name="product" query="SELECT pid,name,catalog,catalog_name,price,description,picture FROM products "> <field column="pid" name="id"/> <field column="name" name="product_name"/> <field column="catalog_name" name="product_catalog_name"/> <field column="price" name="product_price"/> <field column="description" name="product_description"/> <field column="picture" name="product_picture"/> </entity> </document> </dataConfig> |
第三步:创建dataimport处理器
--说明:Solr是在solrconfig.xml文件中,通过<requestHandler>标签定义各类请求处理器
--修改solrconfig.xml,添加如下配置。(加载data-config.xml映射文件)
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler"> <lst name="defaults"> <str name="config">data-config.xml</str> </lst> </requestHandler> |
第四步:重启tomcat,在管理界面测试
--测试清空索引库,成功!!!
Analyzer分析器,配置中文分词器
Solr自带分词器的缺陷
--solr跟Lucene一样,提供了很多分析器。可以在Analyzer选型下测试分词效果。
lr配置中文分析器
中文分析器选择
选择IK中文分词器。
配置步骤
第一步:添加IkAnalyze的jar依赖
--把IKAnalyzer2012FF_u1.jar添加到solr/WEB-INF/lib目录下。
第二步:加载IkAnalyzer的核心配置文件
--拷贝IkAnalyzer的配置文件到solr/WEB-INF/classes目录
第三步:创建中文分词器
--在schema.xml中自定义一个FieldType,指定中文分词器IKAnalyzer。
<!-- IKAnalyzer--> <fieldType name="text_ik" class="solr.TextField"> <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/> </fieldType> |
测试中文分词器
第一步:重启tomcat
第二步:在analysis选项卡下,测试分词效果。成功!!!
改造业务域,使用IK做分词器
--修改schem.xml文件,修改需要分词的域的fieldType类型
我们只需要修改product_name、product_description两个业务域即可。
<field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" />
<field name="product_name" type="text_ik" indexed="true" stored="true"/> <field name="product_catalog_name" type="string" indexed="true" stored="true" /> <field name="product_price" type="double" indexed="true" stored="true"/> <field name="product_description" type="text_ik" indexed="true" stored="false" /> <field name="product_picture" type="string" indexed="false" stored="true" /> |
--重启tomcat即可。