『count』
count是最简单的聚合工具,返回集合中的文档数量:
> db.foo.count()
0
> db.foo.insert({"x" : 1})
> db.foo.count()
1
也可以传递查询,Mongo则会计算查询结果的数量:
> db.foo.insert({"x" : 2})
> db.foo.count()
2
> db.foo.count({"x" : 1})
1
『distinct』
distinct用来找出给定键的所有不同的值。使用时必须制定集合和键。
> db.runCommand({"distinct" : "people", "key" : "age"})
例如,假设有如下文档:
{"name" : "Ada", "age" : 20}
{"name" : "Fred", "age" : 35}
{"name" : "Susan", "age" : 60}
{"name" : "Andy", "age" : 35}
如果对"age"使用distinct,会获得所有不同的年龄:
> db.runCommand({"distinct" : "people", "key" : "age"})
{"values" : [20, 35, 60], "ok" : 1}
『group』
group先选定分组所依据的键,而后MongoDB就会将集合依据选定键值的不同分成若干组。然后通过聚合每一组内的文档,产生一个结果文档。
(这个group和SQL中的GROUP BY差不多。)
假设现在有个站点要跟踪股票价格。从上午10点到下午4点每隔几分钟就更新一下某只股票的价格,并保存在MongoDB中。现在报表程序要获得近30天的收盘价。用group就可以很容易地办到。
股价的集合中包含数以千计的如下形式的文档:
{"day" : "2010/10/03", "time" : "10/3/2010 03:57:01 GMT-400", "price" : 4.23}
{"day" : "2010/10/04", "time" : "10/4/2010 11:28:39 GMT-400", "price" : 4.27}
{"day" : "2010/10/03", "time" : "10/3/2010 05:00:23 GMT-400", "price" : 4.10}
{"day" : "2010/10/06", "time" : "10/6/2010 05:27:58 GMT-400", "price" : 4.30}
{"day" : "2010/10/04", "time" : "10/4/2010 08:34:50 GMT-400", "price" : 4.01}
想获得的结果就是每天最后的价格列表,就像这样:
[
{"day" : "2010/10/03", "time" : "10/3/2010 05:00:23 GMT-400", "price" : 4.10}
{"day" : "2010/10/04", "time" : "10/4/2010 11:28:39 GMT-400", "price" : 4.27}
{"day" : "2010/10/06", "time" : "10/6/2010 05:27:58 GMT-400", "price" : 4.30}
]
先把集合按照天分组,然后在每一组里取包含最新时间戳的文档,将其放置到结果中就完成了。整个过程:
> db.runCommnad({"group" : { "ns" : "stocks", "key" : "day", "initial" : {"time" : 0}, "$reduce" : function(doc, prev) { if (doc.time > prev.time) { prev.price = doc.price; prev.time = doc.time; } }}})
分解步骤如下:
"ns" : "stocks"
指定要进行分组的集合。
"key" : "day"
指定文档分组依据的键。这里就是"day"键,所有"day"值相同的文档被划分到一组。
"initial" : {"time" : 0}
每一组reduce函数调用的初试时间,会作为初始文档传递给后续过程。每一组的所有成员都会使用这个累加器,所以改变会保留住。
"reduce" : function(doc, prev) { ... }
每个文档都对应一次这个调用。系统会传递两个参数:当前文档和累加器文档(本组当前的结果)。本例中,想让reduce函数比较当前文档的时间和累加器文档的时间。如果当前文档的时间更近,则将累加器的日期和价格替换成当前文档的值。每一组都有一个独立的累加器,所以不用担心不同的日期使用同一个累加器。
在问题一开始的描述中,就提到只要最近30天的股价。然而,这里迭代了整个集合,这就是为什么要添加"condition",因为这样就可以值处理满足条件的文档了。
> db.runCommnad({"group" : { "ns" : "stocks", "key" : "day", "initial" : {"time" : 0}, "$reduce" : function(doc, prev) { if (doc.time > prev.time) { prev.price = doc.price; prev.time = doc.time; }}, "condition" : {"day" : {"$gt" : "2010/09/30"}} }})
最后就会返回由30个文档组成的数组,每个组一个文档。魅族还有分组依据的键(这里就是"day" : string)以及这组最终的prev值。如果有的文档没有依据的键,就都会被分到一组,相应的部分就会使用"day : null"这样的形式。在"condition"中加入"day" : {"$exists" : true}就可以去掉这组。
使用完成器
完成器(finalizer)用以精简从数据库传到用户的数据。
例:博客,其中每篇文章都有多个标签(tag)。现在要找出每天最热点的标签。可以(再一次)按天分组,为每一个标签计数:
> db.posts.group({ "key" : {"tags" : true}, "initial" : {"tags" : {}}, "$reduce" : function(doc, prev) { for (i in doc.tags) { if (doc.tags[i] in prev.tags) { prev.tags[doc.tags[i]]++; } else { prev.tags[doc.tags[i]] = 1; } } }})
结果会是这样:
[
{"day" : "2010/01/12", "tags" : {"nosql" : 4, "winter" : 10, "sledding" : 2}}
{"day" : "2010/01/13", "tags" : {"soda" : 5, "php" : 2}}
{"day" : "2010/01/14", "tags" : {"python" : 6, "winter" : 4, "nosql" : 15}}
]
然后,使用finalizer过滤服务器传递给客户端过程中不需要的数据:
> db.posts.group({ "key" : {"tags" : true}, "initial" : {"tags" : {}}, "$reduce" : function(doc, prev) { for (i in doc.tags) { if (doc.tags[i] in prev.tags) { prev.tags[doc.tags[i]]++; } else { prev.tags[doc.tags[i]] = 1; } }, "finalize" : function(prev) { var mostPopular = 0; for(i in prev.tags) { if(prev.tags[i] > mostPopular) { prev.tag = i; mostPopular = prev.tags[i] } } delete prev.tags }}})
然后,服务器会返回希望的结果:
[
{"day" : "2010/01/12", "tag" : "winter"},
{"day" : "2010/01/13", "tag" : "soda"},
{"day" : "2010/01/14", "tag" : "nosql"}
]
finalize嫩刚修改传递的参数也能返回新值。
将函数作为键使用
定义分组函数要用到"$keyf"键。
例如,由于有很多作者,给文章分类时可能不规律的用了大小写,为了让"MongoDB"和"mongodb"分在同一个组,需要使用"$keyf"定义一个函数来确定文档分组所依据的键:
> db.posts.group({"ns" : "posts", "$keyf" : function(x) { return x.category.toLowerCase(); }, "initializer" : ... })
有了"$keyf"就能依据各种复杂的条件进行分组了。
『MapReduce』
MapReduce:
①映射(map):将操作映射到集合中的每个文档。
②洗牌(shuffle):按照键分组,并将产生的键值组成列表放到对应的键中。
③化简(reduce):把列表中的值简化成一个单值。这个值被返回,然后接着进行洗牌,直到每个键的列表只有一个值为止,这个值就是最后结果。
使用MapReduce的代价就是速度:group不是很快,MapReduce更慢,绝对不要用在“实时”环境中。
【MapReduce例1:找出集合中的所有键】
MongoDB没有模式,所以并不知晓每个文档有多少个键。通常找到集合的所有键的最好方式就是用MapReduce。在本例中,还会记录每个键出现了多少次。
在映射(map)环节,想得到文档中的每个键。map函数使用emit“返回”要处理的值。emit会给MapReduce一个键(类似于前面group多使用的键)和一个值。这里用emit将文档中某个键的计数(count)返回({count : 1})。我们想为每个键单独计数,所以为文档中的每一个键调用一次emit。this就是当前映射文档的引用:
> map = function() { for (var key in this) { emit(key, {count : 1}) }};
这样就有了许许多多{count : 1}文档,每一个都与集合中的一个键相关。这种由一个或多个{count : 1}文档组成的数组,会传递给reduce函数。reduce函数有两个参数,一个是key,也就是emit返回的第一个值,还有另外一个数组,由一个或者多个对应于键的{count : 1}文档组成。
> reduce = function(key, emit) { total = 0; for (var i in emits) { total += emits[i].count; } return {"count" : total}; }
reduce一定要能被反复调用,不论是映射(map)环节还是前一个简化(reduce)环节。所以reduce返回的文档必须能作为reduce的第二个参数的一个元素。
reduce能处理emit文档和其他reduce结果的各种组合。
MapReduce函数类似这样:
> mr = db.runCommand({"mapreduce" : "foo", "map" : map, "reduce" : reduce})
{ "result" : "tmp.mapreduce_1266787811_1", "timeMillis" : 12, "counts" : { "input" : 6, "emit" : 14, "output" : 5 }, "ok" : true }
MapReduce返回的文档包含很多与操作有关的元信息:
·"result" : "tmp.mapreduce_1266787811_1"
这是存放MapReduce结果的集合名。这是一个临时集合,MapReduce的连接关闭后自动就被删除了。
·"timeMillis" : 12
操作花费的时间,单位是毫秒。
·"count" : { ... }
这个内嵌文档包含3个键。
·"input" : 6
发送到map函数的文档个数。
·"emit" : 14
在map函数中emit被调用的次数。
·"output" : 5
结果集合中创建的文档数量。
"count"对调试非常有帮助。
对结果几核进行查询会发现原有集合的所有键及其计数:
> db[mr.result].find()
{ "_id" : "_id", "value" : {"count" : 6} }
{ "_id" : "a", "value" : { "count" : 4 } }
{ "_id" : "b", "value" : { "count" : 2 } }
{ "_id" : "x", "value" : { "count" : 1 } }
{ "_id" : "y", "value" : { "count" : 1 } }
每个键值变为一个"_id",最终花间步骤的结果变为"value"。
【MapReduce例2:网页分类】
假设有一个网站,人们可以提交其他网页的链接,比如rebbit.com,提交者可以给这个链接做标签,表明主题,比如"politics","geek"或者"icanhascheezburger",可以用MapReduce找出哪个主题最为热门,热门与否由最近的投票决定。
首先,建立一个map函数,发出(emit)标签和一个基于流行度和新近成都的值。
map = function() { for (var i in this.tags) { var recency = 1/(new Date() - this.Date); var score = recency * this.score; emit(this.tags[i], {"urls" : [this.url], "score" : score}); } };
现在就简化同一个标签的所有值,形成这个标签的分数:
reduce = function(key, emits) { vat total = {urls : [], score : 0} for (var i in emits) { emits[i].urls.forEach(function(url)) { total.urls.push(url); } total.score += emits[i].score; } return total; }
最终的集合包含每个标签的URL列表和表示该标签流行程度的分数。
-- MapReduce部分没有完全掌握! --
『MongoDB和MapReduce』
前面两个例子只用到了mapreduce、map和reduce键。这三个键是必须的,除此之外MapReduce命令还有很多可选的键。
·"finalize":函数
将reduce的结果发送给这个键,这是处理过程的最后一步。
·"keeptemp":布尔
连接关闭时临时结果集合是否保存。
·"output":字符串
集合结果的名字。设定该项则隐含着keeptemp : true。
·"query":文档
会在发往map函数前,先用指定条件过滤文档。
·"sort":文档
在发往map前先给文档排序(与limit一同使用非常有用)。
·"limit":整数
发往map函数的文档数量的上限。
·"scope":文档
JavaScript代码中要用到的变量。
·"verbose":布尔
是否产生更加详尽的服务器日志。
⒈finalize函数
finalize会在最后reduce得到输出后执行,然后将结果存到临时集合中。
⒉保留结果集合
设置keeptemp为true或者设置out选项给集合取个好点的名字。
⒊对文档子集执行MapReduce
有时候需要对集合的一部分执行MapReduce。只需要在传给map函数前添加一个查询来过滤一下文档就好了。
过滤主要就是用"query"、"limit"和"sort"键指定。
"query"键的值是一个查询文档。通常查询返回的结果就传递给了map函数。例如,有个应用程序做跟踪分析,需要上周的概要,只要使用如下命令对上周的文档执行MapReduce就好了:
> db.runCommand({"mapreduce" : "analytics", "map" : map, "reduce" : reduce, "query" : {"date" : {"$gt" : week_ago}}})
sort选项一般和limit一铜发挥重要作用。limit也可以单独使用,用来截取一部分文档发送给map函数。
如果在上个例子中想分析最近10000个页面视图(而不是最近一周的),则可以借助limit和sort:
> db.runCommand({"mapreduce" : "analytics", "map" : map, "reduce" : reduce, "limit" : 10000, "sort" : {"date" : -1}})
query、limit、sort可以随意组合,但要是没有limit,sort单独使用的用处不大。
⒋使用作用域
例:在之前的一个例子中,用1/(new Date() - this.date)计算了页面的新近程度。还可以将当前的日期作为作用域的一部分传递进去:
> db.runCommand({"mapreduce" : "webpages", "map" : map, "reduce" : reduce, "scope" : {now : new Date()}})
这样,在map函数中就能计算1/(now-this.date)了。
⒌获得更多的输出
如果想看看MapReduce的运行过程,可以用"verbose" : true。
也可以用print把map、reduce、finalize过程中的信息输出到服务器日志上。