在前面文章曾经提到,在MongoDB中一起使用$or和sort()时,查询性能会很差,详见:http://www.cnblogs.com/xinghebuluo/archive/2011/12/01/2270590.html
在mongodb的计划中,2.5.w版本中可能会修改这个bug。
我的项目中也遇到了这个问题,后来自己想了一个解决方案,暂时规避了这个问题,现在把这个方案分享出来,和大家讨论一下.
这个解决方案是受到了mongos的源代码的启示,众所周知mongodb是分布式架构,那么在我们使用mongos查询并使用排序的时候,mongos需要把查询请求发送给各个shard,并将每个shard的查询结果
存放在一个队列中(队列中已经排好序)。这里假定有2个shard(多个shard的原理是一样的),查询条件为{“age”:20},排序条件为:{"time":1},mongos实现示意图如下:
1. mongos首先向两个shard发送查询排序命令。
2.两个shard返回结果是排序后的两个队列,如图所示。
3.客户端在取记录时,mongos取出两个队列的第一个元素,判断time值小的记录返回给客户端。
4.客户端再取记录时,重复步骤3,从两个队列中取time值小的记录返回给客户端。
正是受到mongos的启发,在遇到or查询并sort的情况时,把or的查询条件分解为多次查询,然后实现了一个查询类,里面保存了list<DBObject q>,然后向mongos发起多次查询排序请求,
此时得到多个cursor,此时的cursor就类似于上面的队列,即此时得到了多个排序好的队列,然后经过简单比较后,依次把记录返回给客户端。
例如,此时查询{"$or":[{"age":20},{"name":"li"}]},排序条件为{"Time":1},可以分解为2次查询:{"age":20},{"name":"li"},执行查询后,得到两个cursor,即两个队列,如下:、
此时就可以重复mongos的步骤了,在客户端取记录时,对队列(cursor)中的第一个元素做比较,取出time值最小的记录返回给客户端。
该解决方案的优点如下:
1.可以使用索引,速度很快。
2.封装类后,可以供多个业务使用。
缺点如下:
1. 每个队列中会缓存一些记录,这无形中造成了一些流量浪费和内存浪费。
上面是我对这个方案的整体思路,欢迎大家讨论。