lucene 大量数据搜索的处理方案

lucene 大量数据搜索的处理方案

1.在大规模的应用中，Lucene更适合用于狭义的“搜索”，而不应当负责数据的存储。我们看看Lucene的源代码也可以知道，Document和 Field的存储效率是不够好看的。手机之家的团队也发现了这一点，他们的办法是，用Lucene存放索引，用Memcache + Berkeley DB(Java Edition)负责存储。这样有两个好处，一是减小了Lucene的数据规模，提高了程序的效率；另一方面，这套系统也可以提供某些类似SQL的查询功能。实际上，Lucene Project自己似乎也注意到了这个问题，在Store中新增了一个db选项，其实也是利用的Berkeley DB。如果仅仅用Lucene存放索引，而不存放Document，并且合理配置，一台机器可以支持几十G甚至上百G的索引。

2.在大规模应用中，Cache是非常重要的。PPT中也提到，可以在程序提供服务之前，进行几次”预热“搜索，填充Searcher的Cache。据我们（银杏搜索）的经验，也可以在应用程序中，再提供针对Document的Cache，这样对性能有较大的改善（同一个JVM内部的Cache，速度更快一些）。Lucene自己似乎也注意到了这个问题，在2.4版本中提供了Cache，并提供了一个LRU Cache实现。不过据我们测试，在极端情况下，这个Cache可能会突破大小限制，一路膨胀最后吃光内存，甚至从网络上找的许多LRU Cache实现在极端条件下都有可能出现这样的问题（这也是我们百思不得其解的地方：反复检查程序的逻辑都没有问题），最终自己写了一个LRU Cache，并修改多次，目前来看是稳定的。
相关阅读:
查看用户密码
 OPM批次成本后台表
 查询物料事务处理历史记录脚本
 接收会计事件表和接收会计分录表
 为应付发票批添加ORG_ID
项目环境配置剩余部分
 配置IDEA的基本设置操作
 NB: JAVA_HOME should point to a JDK not a JRE
Windows10下的JAVA运行环境搭建 ——第一天
 python中的可变与不可变对象的区别
原文地址：https://www.cnblogs.com/l1pe1/p/2395391.html

热门文章
git
《高性能MySQL》笔记
 组织架构查询脚本
 API
查询并发请求
 查询物料PAC单位成本
 PAC后台表
 AR相关表
 创建用户并添加职责
 修改用户密码