solr7.5--win10--部署使用

solr7.5--win10--部署使用
2018年8月份学习使用solr，当时下载的版本是solr7.5，写这篇博文的时候是2019年3月份，solr此时已经出到了8.0版本。一个大版本的变迁肯定有很多的改动，暂时还未研究就不赘述了。

此篇博客只是记述一下当时对solr的使用方面研究。

solr下载地址：http://www.apache.org/dyn/closer.lua/lucene/solr/8.0.0

一、Lucene

在了解solr之前，先了解一下Lucene，Lucene是一个全文检索的工具包，本质上是一个jar包，它无法单独在web容器中运行，但是你可以把它导入到某个项目里进行开发使用。当然现在solr已经帮你整好了，不建议这么用。

Lucene进行全文检索的结构图如下

　　1）采集数据

　　　　从不同的源进行数据收集，例如数据库，web端等。

　　　　数据库：其他系统存储在数据库中的数据

　　　　web端：直接从web端录入的数据

　　2）创建索引

　　　　数据采集完成后，Lucene会将采集到的所有数据创建索引，并将索引存储在索引库中

　　3）用户查询

　　　　用户在web端，输入索引关键词，SearchIndex会根据关键词在索引库中进行索引查找

　　4）返回结果

　　　　SearchIndex查找到结果后返回给用户

二、solr

solr是建立在Lucene基础上的一个项目包，它可以在Tomcat等web容器中直接运行，同时提供全文检索服务。

但是，solr7.5是可以直接运行的，不需要再像某个版本(我也不知道哪个版本)之前需要将solr打包发布到Tomcat才能运行使用。

1.solr下载

　　solr下载地址：http://www.apache.org/dyn/closer.lua/lucene/solr/

2.solr包功能介绍

下载solr包后解压，包内目录以及各自功能如下：
- bin：包括一些使用Solr的重要脚本
　　　 solr和solr.cmd：分别用于Linux和Windows系统，根据所选参数不同而控制Solr的启动和停止
　　　　post：提供了一个用于发布内容的命令行接口工具。支持导入JSON，XML和CSV，也可以导入HTML，PDF，Microsoft Office格式（如MS Word），纯文本等等。
　　　　solr.in.sh和solr.in.cmd：分别用于Linux和Windows系统的属性文件
　　　　install_solr_services.sh：用于Linux系统将Solr作为服务安装
- contrib：包含一些solr的一些插件或扩展
　　　　analysis-extras：包含一些文本分析组件及其依赖
　　　　clustering：包含一个用于集群搜索结果的引擎
　　　　dataimporthandler：把数据从数据库或其它数据源导入到solr
　　　　extraction：整合了Apache Tika，Tika是用于解析一些富文本(诸如Word，PDF)的框架
  　　　 langid：检测将要索引的数据的语言
   　　　map-reduce：包含一些工具用于Solr和Hadoop Map Reduce协同工作
   　　　morphlines-core：包含Kite Morphlines，它用于构建、改变基于Hadoop进行ETL（extract、transfer、load）的流式处理程序
  　　　uima：包含用于整合Apache UIMA（文本元数据提取的框架）类库
　　　   velocity：包含基于Velocity模板的简单的搜索UI框架
- dist：包含主要的Solr的jar文件
- docs：文档
- example：包含一些展示solr功能的例子
    　　　exampledocs：这是一系列简单的CSV，XML和JSON文件，可以bin/post在首次使用Solr时使用
   　　　example-DIH：此目录包含一些DataImport Handler（DIH）示例，可帮助您开始在数据库，电子邮件服务器甚至Atom订阅源中导入结构化内容。每个示例将索引不同的数据集
   　　　files：该files目录为您可能在本地存储的文档（例如Word或PDF）提供基本的搜索UI
   　　　films：该films目录包含一组关于电影的强大数据，包括三种格式：CSV，XML和JSON
- licenses：包含所有的solr所用到的第三方库的许可证
- server：solr应用程序的核心，包含了运行Solr实例而安装好的Jetty servlet容器。
    　　　contexts：这个文件包含了solr Web应用程序的Jetty Web应用的部署的配置文件
    　　　etc：主要就是一些Jetty的配置文件和示例SSL密钥库
   　　　lib：Jetty和其他第三方的jar包
  　　　 logs：Solr的日志文件
  　　　resources：Jetty-logging和log4j的属性配置文件
  　　　solr：新建的core或Collection的默认保存目录，里面必须要包含solr.xml文件
   　　　 configsets：包含solr的配置文件
　　   　solr-webapp：包含solr服务器使用的文件；不要在此目录中编辑文件(solr不是JavaWeb应用程序)

3.solr启动

　　打开solr的bin目录，shift+鼠标右键，“在此处打开powershell窗口”

　　

　　输入.solr start

　　

　　成功启动后，在浏览器中访问如下地址：

　　http://localhost:8983

　　

4.solr具体参数配置

　　讲道理，有点多，参照下面这个博客即可。

　　https://blog.csdn.net/bskfnvjtlyzmv867/article/details/80940089
相关阅读:
[CSAPP笔记][第九章虚拟存储器][吐血1500行]
[CSAPP笔记][第六章存储器层次结构]
[CSAPP笔记][第八章异常控制流][呕心沥血千行笔记]
好吧，刚把CSDN搬家到博客园。。记录一发
 [CSAPP笔记][第二章信息的表示和处理]
综合练习：词频统计
 组合数据类型综合练习：英文词频统计
 熟悉常用的Linux操作
 1.大数据概述
 语义分析
原文地址：https://www.cnblogs.com/diaoye/p/10570790.html