MongoDB中強(qiáng)大的聚合工具
1.count
count返回集合中的文檔數(shù)量
- db.refactor.count()
不管集合有多大,都能很快的返回文檔數(shù)量.
可以傳遞查詢,MongoDB會(huì)計(jì)算查詢結(jié)果的數(shù)量
- db.refactor.count({"username":"refactor"})
但是增加查詢條件會(huì)使count變慢.
2.distinct
distinct用來(lái)找出給定鍵的所有不同值.使用時(shí)必須指定集合和鍵.
如:
- db.runCommand({"distinct":"refactor","key":"username"})
3.group
group先選定分組所依據(jù)的鍵,MongoDB將會(huì)將集合依據(jù)選定鍵值的不同分成若干組.然后可以通過(guò)聚合每一組內(nèi)的文檔,
產(chǎn)生一個(gè)結(jié)果文檔.
如:
- db.runCommand(
- {
- "group":
- {
- "ns":"refactor",
- "key":{"username":true},
- "initial":{"count":0},
- "$reduce":function(doc,prev)
- {
- prev.count++;
- },
- "condition":{"age":{"$gt":40}}
- }
- }
- )
"ns":"refactor",
指定要進(jìn)行分組的集合
"key":{"username":true},
指定文檔分組的依據(jù),這里是username鍵,所有username鍵的值相等的被劃分到一組,true為返回鍵username的值
"initial":{"count":0},
每一組reduce函數(shù)調(diào)用的初始個(gè)數(shù).每一組的所有成員都會(huì)使用這個(gè)累加器.
"$reduce":function(doc,prev){...}
每個(gè)文檔都對(duì)應(yīng)的調(diào)用一次.系統(tǒng)會(huì)傳遞兩個(gè)參數(shù):當(dāng)前文檔和累加器文檔.
- "condition":{"age":{"$gt":40}}
這個(gè)age的值大于40的條件
4.使用完成器
完成器用于精簡(jiǎn)從數(shù)據(jù)庫(kù)傳到用戶的數(shù)據(jù).group命令的輸出一定要能放在單個(gè)數(shù)據(jù)庫(kù)相應(yīng)中.
"finalize"附帶一個(gè)函數(shù),在數(shù)組結(jié)果傳遞到客戶端之前被調(diào)用一次.
- db.runCommand(
- {
- "group":
- {
- "ns":"refactor",
- "key":{"username":true},
- "initial":{"count":0},
- "$reduce":function(doc,prev)
- {
- prev.count++;
- },
- "finalize":function(doc)
- {
- doc.num=doc.count;
- delete doc.count;
- }
- }
- }
- )
finalize能修改傳遞的參數(shù)也能返回新值.
5.將數(shù)組作為鍵使用
有些時(shí)候分組所依據(jù)的條件很復(fù)雜,不僅是一個(gè)鍵.比如要使用group計(jì)算每個(gè)類(lèi)別有多篇博客文章.由于有很多作者,
給文章分類(lèi)時(shí)可能不規(guī)律的使用了大小寫(xiě).所以,如果要是按類(lèi)別名來(lái)分組,***"MongoDB"和"mongodb"就是不同的組.
為了消除這種大小寫(xiě)的影響,就要定義一個(gè)函數(shù)來(lái)確定文檔所依據(jù)的鍵.
定義分組要用到$keyf
- db.runCommand(
- {
- "group":
- {
- "ns":"refactor",
- "$keyf":function(doc){return {"username":doc.username.toLowerCase()}},
- "initial":{"count":0},
- "$reduce":function(doc,prev)
- {
- prev.count++;
- }
- }
- }
- )
6.MapReduce
count,distinct,group能做的事情MapReduce都能做.它是一個(gè)可以輕松并行化到多個(gè)服務(wù)器的聚合方法.它會(huì)
拆分問(wèn)題,再將各個(gè)部分發(fā)送到不同機(jī)器上,讓每臺(tái)機(jī)器完成一部分.當(dāng)所有機(jī)器都完成時(shí)候,再把結(jié)果匯集起來(lái)形成
最終完整的結(jié)果.
MapReduce需要幾個(gè)步驟:
1.映射,將操作映射到集合中的每個(gè)文檔.這個(gè)操作要么什么都不做,要么 產(chǎn)生一個(gè)鍵和n個(gè)值.
2.洗牌,按照鍵分組,并將產(chǎn)生的鍵值組成列表放到對(duì)應(yīng)鍵中.
3.化簡(jiǎn),把列表中的值 化簡(jiǎn) 成一個(gè)單值,這個(gè)值被返回.
4.重新洗牌,直到每個(gè)鍵的列表只有一個(gè)值為止,這個(gè)值就是最終結(jié)果.
MapReduce的速度比group慢,group也很慢.在應(yīng)用程序中,***不要用MapReduce,可以在后臺(tái)運(yùn)行MapReduce
創(chuàng)建一個(gè)保存結(jié)果的集合,可以對(duì)這個(gè)集合進(jìn)行實(shí)時(shí)查詢.
找出集合中的所有鍵
MongoDB沒(méi)有模式,所以并不知曉每個(gè)文檔有多少個(gè)鍵.通常找到集合的所有鍵的做好方式是用MapReduce.
在映射階段,想得到文檔中的每個(gè)鍵.map函數(shù)使用emit 返回要處理的值.emit會(huì)給MapReduce一個(gè)鍵和一個(gè)值.
這里用emit將文檔某個(gè)鍵的記數(shù)(count)返回({count:1}).我們?yōu)槊總€(gè)鍵單獨(dú)記數(shù),所以為文檔中的每一個(gè)鍵調(diào)用一次emit,
this是當(dāng)前文檔的引用:
- map=function(){
- for(var key in this)
- {
- emit(key,{count:1})
- }
- };
這樣返回了許許多多的{count:1}文檔,每一個(gè)都與集合中的一個(gè)鍵相關(guān).這種有一個(gè)或多個(gè){count:1}文檔組成的數(shù)組,
會(huì)傳遞給reduce函數(shù).reduce函數(shù)有兩個(gè)參數(shù),一個(gè)是key,也就是emit返回的***個(gè)值,另一個(gè)參數(shù)是數(shù)組,由一個(gè)或者多個(gè)
對(duì)應(yīng)鍵的{count:1}文檔組成.
- reduce=function(key,emits){
- total=0;
- for(var i in emits){
- total+=emits[i].count;
- }
- return {count:total};
- }
reduce要能被反復(fù)被調(diào)用,不論是映射環(huán)節(jié)還是前一個(gè)化簡(jiǎn)環(huán)節(jié).reduce返回的文檔必須能作為reduce的
第二個(gè)參數(shù)的一個(gè)元素.如x鍵映射到了3個(gè)文檔{"count":1,id:1},{"count":1,id:2},{"count":1,id:3}
其中id鍵用于區(qū)別.MongoDB可能這樣調(diào)用reduce:
- >r1=reduce("x",[{"count":1,id:1},{"count":1,id:2}])
- {count:2}
- >r2=reduce("x",[{"count":1,id:3}])
- {count:1}
- >reduce("x",[r1,r2])
- {count:3}
reduce應(yīng)該能處理emit文檔和其他reduce結(jié)果的各種集合.
如:
- mr=db.runCommand(
- {
- "mapreduce":"refactor",
- "map":map,
- "reduce":reduce,
- "out":{inline:1}
- }
- )
或:
db.refactor.mapReduce(map,reduce,{out:{inline:1}})
"timeMillis" : 5,//操作花費(fèi)的時(shí)間
"counts" : {
"input" : 10,//發(fā)往到map函數(shù)的文檔個(gè)數(shù)
"emit" : 40,//在map函數(shù)中emit被調(diào)用的次數(shù)
"reduce" : 4,//在map函數(shù)中reduce被調(diào)用的次數(shù)
"output" : 4//結(jié)果集合中創(chuàng)建的文檔數(shù)量.
},
1.mapreduce是根據(jù)map函數(shù)里調(diào)用的emit函數(shù)的***個(gè)參數(shù)來(lái)進(jìn)行分組的
2.僅當(dāng)根據(jù)分組鍵分組后一個(gè)鍵匹配多個(gè)文檔,才會(huì)將key和文檔集合交由reduce函數(shù)處理
注意MongoDB 1.8版本以上,必須指明 out 參數(shù)
否則會(huì)報(bào)如下錯(cuò)誤:
"assertion" : "'out' has to be a string or an object",
"assertionCode" : 13606,
MapReduce中的其他鍵
mapreduce,map,reduce這三個(gè)鍵是必須的,MapReduce命令還有其他的可選鍵
finalize:函數(shù)
將reduce的結(jié)果發(fā)送給這個(gè)鍵,這是處理過(guò)程的***一步
keeptemp:布爾值
連接關(guān)閉時(shí),臨時(shí)結(jié)果是否保存
output:字符串
結(jié)果集合的名字,設(shè)定該項(xiàng)則隱含著keeptemp:true
query:文檔
會(huì)在發(fā)往map函數(shù)前,先用指定條件過(guò)濾文檔
sort:文檔
會(huì)在發(fā)往map函數(shù)前先給文檔排序
limit:整數(shù)
發(fā)往map函數(shù)文檔的***數(shù)量
scope:文檔
javascript代碼中要用到的變量
verbose:布爾值
是否產(chǎn)生更加信息的服務(wù)器日志
原文鏈接:http://www.cnblogs.com/refactor/archive/2012/08/06/2592734.html
【編輯推薦】