細說高級操作 · MongoDB學習筆記

今天分享一下mongodb中比較好玩的知識，主要包括：聚合，游標。 ## 聚合常見的聚合操作跟sql server一樣，有：`count，distinct，group，mapReduce`。 ### count count是最簡單，最容易，也是最常用的聚合工具，它的使用跟我們C#里面的count使用簡直一模一樣。  ``` > db.person.count(); 4 > db.person.count({"name" : "yjc"}); 1 ``` count()里面是條件。 ### distinct 這個操作相信大家也是非常熟悉的，指定了誰，誰就不能重復。現在數據庫里有兩個name為yjc的用戶，我們distinct一下： ``` > db.person.distinct("name"); [ "yjc", "liyi", "lier", "yjc2" ] ``` distinct()里頭是要指定的字符串。 ### group 在mongodb里面做group操作有點小復雜，不過大家對sql server里面的group比較熟悉的話還是一眼能看的明白的，其實group操作本質上形成了一種“k-v”模型，就像C#中的Dictionary，好，有了這種思維，我們來看看如何使用group。下面舉的例子就是按照age進行group操作，value為對應age的姓名。下面對這些參數介紹一下： `key`：這個就是分組的key，我們這里是對年齡分組。 `initial`: 每組都分享一個”初始化函數“，特別注意：是每一組，比如這的age=20的value的list分享一個initial函數，age=22同樣也分享一個initial函數。 `$reduce`: 這個函數的第一個參數是當前的文檔對象，第二個參數是上一次function操作的累計對象，第一次為initial中的{”perosn“：[]}。有多少個文檔， $reduce就會調用多少次。 ``` db.person.group({ "key" : { "age" : true}, "initial" : { "user" : [] }, "$reduce" : function(cur, prev){ prev.user.push(cur.name) } }); ``` 結果： ``` [ { "age" : 5, "user" : [ "yjc" ] }, { "age" : 20, "user" : [ "liyi" ] }, { "age" : 10, "user" : [ "lier" ] }, { "age" : 25, "user" : [ "yjc2" ] }, { "age" : 22, "user" : [ "yjc" ] } ] ``` 看到上面的結果，是不是有點感覺，我們通過age查看到了相應的name人員，不過有時我們可能有如下的要求： 1)想過濾掉age>20一些人員。 2)有時person數組里面的人員太多，我想加上一個count屬性標明一下。針對上面的需求，在group里面還是很好辦到的，因為group有這么兩個可選參數: `condition` 和 `finalize`。 `condition`: 這個就是過濾條件。 `finalize`: 這是個函數，每一組文檔執行完后，多會觸發此方法，那么在每組集合里面加上count也就是它的活了。 ``` db.person.group({ "key" : { "age" : true}, "initial" : { "user" : [] }, "reduce" : function(cur, prev){ prev.user.push(cur.name); }, "finalize" : function(prev){ prev.count = prev.user.length; }, "condition" : {"age" : {$gt : 20}} }); ``` 結果： ``` [ { "age" : 25, "user" : [ "yjc2" ], "count" : 1 }, { "age" : 22, "user" : [ "yjc" ], "count" : 1 } ] ``` 另外：由上面的例子，發現關鍵字reduce前面可以有`$`，也可以沒有，但是`$`具體干嘛用的呢？ ### mapReduce 這玩意算是聚合函數中最復雜的了，不過復雜也好，越復雜就越靈活。 mapReduce其實是一種編程模型，用在分布式計算中，其中有一個“map”函數，一個”reduce“函數。 1)map：這個稱為映射函數，里面會調用emit(key,value)，集合會按照你指定的key進行映射分組。 2)reduce：這個稱為簡化函數，會對map分組后的數據進行分組簡化，注意：在reduce(key,value)中的key就是 emit中的key，vlaue為emit分組后的emit(value)的集合，這里也就是很多{"count":1}的數組。 3)mapReduce: 這個就是最后執行的函數了，參數為map，reduce和一些可選參數。具體看程序可知： ``` function map(){ emit(this.name, {count:1}); } function reduce(key, value){ var result = {count : 0}; for(var i=0; i< value.length; i++){ result.count += value[i].count; } return result; } db.person.mapReduce(map, reduce, {"out" : "collection"}); ``` 結果： ``` { "result" : "collection", "timeMillis" : 93, "counts" : { "input" : 5, "emit" : 5, "reduce" : 1, "output" : 4 }, "ok" : 1 } ``` 從運行結我們可以看到如下信息： result: "存放的集合名“； input:傳入文檔的個數。 emit：此函數被調用的次數。 reduce：此函數被調用的次數。 output:最后返回文檔的個數。最后我們看一下“collecton”集合里面按姓名分組的情況。 ``` db.collection.find(); ``` 結果： ``` { "_id" : "lier", "value" : { "count" : 1 } } { "_id" : "liyi", "value" : { "count" : 1 } } { "_id" : "yjc", "value" : { "count" : 2 } } { "_id" : "yjc2", "value" : { "count" : 1 } } ``` ## 游標 mongodb里面的游標有點類似我們說的C#里面延遲執行，比如： ``` var list=db.person.find(); ``` 針對這樣的操作，list其實并沒有獲取到person中的文檔，而是申明一個“查詢結構”，等我們需要的時候通過for或者next()一次性加載過來，然后讓游標逐行讀取，當我們枚舉完了之后，游標銷毀，之后我們在通過list獲取時，發現沒有數據返回了。 ``` > var list=db.person.find(); > list { "_id" : ObjectId("558fd39d02d9b5bcf004aaf5"), "name" : "yjc", "age" : 5, "address" : { "city" : "beijing" } } { "_id" : ObjectId("5590ac85c8e4762462ebbab2"), "name" : "liyi", "age" : 20, "address" : { "province" : "hubei", "city" : "wuhan" }, "favourite" : [ "music", "movie" ] } { "_id" : ObjectId("5590adecc8e4762462ebbab3"), "name" : "lier", "age" : 10, "adress" : { "province" : "hubei", "city" : "yichang" } } { "_id" : ObjectId("5590b92aeb60c2633d9cfa24"), "name" : "yjc2", "age" : 25 } { "_id" : ObjectId("55926102f431047603d95187"), "name" : "yjc", "age" : 22 } ``` 當然我們的“查詢構造”還可以搞的復雜點，比如分頁，排序都可以加進去。 ``` var single=db.person.find().sort({"name"：1}).skip(2).limit(2); ``` 那么這樣的“查詢構造”可以在我們需要執行的時候執行，大大提高了不必要的花銷。 ``` > var single=db.person.find().sort({"name":1}).skip(2).limit(2); > single { "_id" : ObjectId("558fd39d02d9b5bcf004aaf5"), "name" : "yjc", "age" : 5, "address" : { "city" : "beijing" } } { "_id" : ObjectId("55926102f431047603d95187"), "name" : "yjc", "age" : 22 } ``` `sort()`方法來對數據進行排序，指定排序字段，并使用1或-1來指定排序方式是升序或降序。 `skip()`跳過前面兩條數據。 `limit()`該函數用來指定返回結果的最大數量