今天分享一下mongodb中比較好玩的知識,主要包括:聚合,游標。
## 聚合
常見的聚合操作跟sql server一樣,有:`count,distinct,group,mapReduce`。
### count
count是最簡單,最容易,也是最常用的聚合工具,它的使用跟我們C#里面的count使用簡直一模一樣。
<!--more-->
```
> db.person.count();
4
> db.person.count({"name" : "yjc"});
1
```
count()里面是條件。
### distinct
這個操作相信大家也是非常熟悉的,指定了誰,誰就不能重復。
現在數據庫里有兩個name為yjc的用戶,我們distinct一下:
```
> db.person.distinct("name");
[ "yjc", "liyi", "lier", "yjc2" ]
```
distinct()里頭是要指定的字符串。
### group
在mongodb里面做group操作有點小復雜,不過大家對sql server里面的group比較熟悉的話還是一眼能看的明白的,其實group操作本質上形成了一種“k-v”模型,就像C#中的Dictionary,好,有了這種思維,我們來看看如何使用group。
下面舉的例子就是按照age進行group操作,value為對應age的姓名。下面對這些參數介紹一下:
`key`: 這個就是分組的key,我們這里是對年齡分組。
`initial`: 每組都分享一個”初始化函數“,特別注意:是每一組,比如這的age=20的value的list分享一個initial函數,age=22同樣也分享一個initial函數。
`$reduce`: 這個函數的第一個參數是當前的文檔對象,第二個參數是上一次function操作的累計對象,第一次為initial中的{”perosn“:[]}。有多少個文檔, $reduce就會調用多少次。
```
db.person.group({
"key" : { "age" : true},
"initial" : { "user" : [] },
"$reduce" : function(cur, prev){
prev.user.push(cur.name)
}
});
```
結果:
```
[
{
"age" : 5,
"user" : [
"yjc"
]
},
{
"age" : 20,
"user" : [
"liyi"
]
},
{
"age" : 10,
"user" : [
"lier"
]
},
{
"age" : 25,
"user" : [
"yjc2"
]
},
{
"age" : 22,
"user" : [
"yjc"
]
}
]
```
看到上面的結果,是不是有點感覺,我們通過age查看到了相應的name人員,不過有時我們可能有如下的要求:
1)想過濾掉age>20一些人員。
2)有時person數組里面的人員太多,我想加上一個count屬性標明一下。
針對上面的需求,在group里面還是很好辦到的,因為group有這么兩個可選參數: `condition` 和 `finalize`。
`condition`: 這個就是過濾條件。
`finalize`: 這是個函數,每一組文檔執行完后,多會觸發此方法,那么在每組集合里面加上count也就是它的活了。
```
db.person.group({
"key" : { "age" : true},
"initial" : { "user" : [] },
"reduce" : function(cur, prev){
prev.user.push(cur.name);
},
"finalize" : function(prev){
prev.count = prev.user.length;
},
"condition" : {"age" : {$gt : 20}}
});
```
結果:
```
[
{
"age" : 25,
"user" : [
"yjc2"
],
"count" : 1
},
{
"age" : 22,
"user" : [
"yjc"
],
"count" : 1
}
]
```
另外:由上面的例子,發現關鍵字reduce前面可以有`$`,也可以沒有,但是`$`具體干嘛用的呢?
### mapReduce
這玩意算是聚合函數中最復雜的了,不過復雜也好,越復雜就越靈活。
mapReduce其實是一種編程模型,用在分布式計算中,其中有一個“map”函數,一個”reduce“函數。
1)map:
這個稱為映射函數,里面會調用emit(key,value),集合會按照你指定的key進行映射分組。
2)reduce:
這個稱為簡化函數,會對map分組后的數據進行分組簡化,注意:在reduce(key,value)中的key就是
emit中的key,vlaue為emit分組后的emit(value)的集合,這里也就是很多{"count":1}的數組。
3)mapReduce:
這個就是最后執行的函數了,參數為map,reduce和一些可選參數。具體看程序可知:
```
function map(){
emit(this.name, {count:1});
}
function reduce(key, value){
var result = {count : 0};
for(var i=0; i< value.length; i++){
result.count += value[i].count;
}
return result;
}
db.person.mapReduce(map, reduce, {"out" : "collection"});
```
結果:
```
{
"result" : "collection",
"timeMillis" : 93,
"counts" : {
"input" : 5,
"emit" : 5,
"reduce" : 1,
"output" : 4
},
"ok" : 1
}
```
從運行結我們可以看到如下信息:
result: "存放的集合名“;
input:傳入文檔的個數。
emit:此函數被調用的次數。
reduce:此函數被調用的次數。
output:最后返回文檔的個數。
最后我們看一下“collecton”集合里面按姓名分組的情況。
```
db.collection.find();
```
結果:
```
{ "_id" : "lier", "value" : { "count" : 1 } }
{ "_id" : "liyi", "value" : { "count" : 1 } }
{ "_id" : "yjc", "value" : { "count" : 2 } }
{ "_id" : "yjc2", "value" : { "count" : 1 } }
```
## 游標
mongodb里面的游標有點類似我們說的C#里面延遲執行,比如:
```
var list=db.person.find();
```
針對這樣的操作,list其實并沒有獲取到person中的文檔,而是申明一個“查詢結構”,等我們需要的時候通過for或者next()一次性加載過來,然后讓游標逐行讀取,當我們枚舉完了之后,游標銷毀,之后我們在通過list獲取時,發現沒有數據返回了。
```
> var list=db.person.find();
> list
{ "_id" : ObjectId("558fd39d02d9b5bcf004aaf5"), "name" : "yjc", "age" : 5, "address" : { "city" : "beijing" } }
{ "_id" : ObjectId("5590ac85c8e4762462ebbab2"), "name" : "liyi", "age" : 20, "address" : { "province" : "hubei", "city" : "wuhan" }, "favourite" : [ "music", "movie" ] }
{ "_id" : ObjectId("5590adecc8e4762462ebbab3"), "name" : "lier", "age" : 10, "adress" : { "province" : "hubei", "city" : "yichang" } }
{ "_id" : ObjectId("5590b92aeb60c2633d9cfa24"), "name" : "yjc2", "age" : 25 }
{ "_id" : ObjectId("55926102f431047603d95187"), "name" : "yjc", "age" : 22 }
```
當然我們的“查詢構造”還可以搞的復雜點,比如分頁,排序都可以加進去。
```
var single=db.person.find().sort({"name":1}).skip(2).limit(2);
```
那么這樣的“查詢構造”可以在我們需要執行的時候執行,大大提高了不必要的花銷。
```
> var single=db.person.find().sort({"name":1}).skip(2).limit(2);
> single
{ "_id" : ObjectId("558fd39d02d9b5bcf004aaf5"), "name" : "yjc", "age" : 5, "address" : { "city" : "beijing" } }
{ "_id" : ObjectId("55926102f431047603d95187"), "name" : "yjc", "age" : 22 }
```
`sort()`方法來對數據進行排序,指定排序字段,并使用1或-1來指定排序方式是升序或降序。
`skip()`跳過前面兩條數據。
`limit()`該函數用來指定返回結果的最大數量