摘要:將返回結(jié)果限制為前個(gè)。所以,聚合的結(jié)果必須要限制在以內(nèi)支持的最大響應(yīng)消息大小。包含字段和排除字段的規(guī)則與常規(guī)查詢中的語法一致。改變字符大小寫的操作,只保證對羅馬字符有效。只對羅馬字符組成的字符串有效。
上一篇文章:MongoDB指南---15、特殊的索引和集合:地理空間索引、使用GridFS存儲文件
下一篇文章:MongoDB指南---17、MapReduce
如果你有數(shù)據(jù)存儲在MongoDB中,你想做的可能就不僅僅是將數(shù)據(jù)提取出來那么簡單了;你可能希望對數(shù)據(jù)進(jìn)行分析并加以利用。本章介紹MongoDB提供的聚合工具:
聚合框架;
MapReduce;
幾個(gè)簡單聚合命令:count、distinct和group。
聚合框架使用聚合框架可以對集合中的文檔進(jìn)行變換和組合。基本上,可以用多個(gè)構(gòu)件創(chuàng)建一個(gè)管道(pipeline),用于對一連串的文檔進(jìn)行處理。這些構(gòu)件包括篩選(filtering)、投射(projecting)、分組(grouping)、排序(sorting)、限制(limiting)和跳過(skipping)。
例如,有一個(gè)保存著雜志文章的集合,你可能希望找出發(fā)表文章最多的那個(gè)作者。假設(shè)每篇文章被保存為MongoDB中的一個(gè)文檔,可以按照如下步驟創(chuàng)建管道。
將每個(gè)文章文檔中的作者投射出來。
將作者按照名字排序,統(tǒng)計(jì)每個(gè)名字出現(xiàn)的次數(shù)。
將作者按照名字出現(xiàn)次數(shù)降序排列。
將返回結(jié)果限制為前5個(gè)。
這里面的每一步都對應(yīng)聚合框架中的一個(gè)操作符:
{"$project" : {"author" : 1}}
這樣可以將"author"從每個(gè)文檔中投射出來。
這個(gè)語法與查詢中的字段選擇器比較像:可以通過指定"fieldname" : 1選擇需要投射的字段,或者通過指定"fieldname":0排除不需要的字段。執(zhí)行完這個(gè)"$project"操作之后,結(jié)果集中的每個(gè)文檔都會(huì)以{"_id" : id, "author" : "authorName"}這樣的形式表示。這些結(jié)果只會(huì)在內(nèi)存中存在,不會(huì)被寫入磁盤。
{"$group" : {"_id" : "$author", "count" : {"$sum" : 1}}}
這樣就會(huì)將作者按照名字排序,某個(gè)作者的名字每出現(xiàn)一次,就會(huì)對這個(gè)作者的"count"加1。
這里首先指定了需要進(jìn)行分組的字段"author"。這是由"_id" : "$author"指定的。可以將這個(gè)操作想象為:這個(gè)操作執(zhí)行完后,每個(gè)作者只對應(yīng)一個(gè)結(jié)果文檔,所以"author"就成了文檔的唯一標(biāo)識符("_id")。
第二個(gè)字段的意思是為分組內(nèi)每個(gè)文檔的"count"字段加1。注意,新加入的文檔中并不會(huì)有"count"字段;這"$group"創(chuàng)建的一個(gè)新字段。
執(zhí)行完這一步之后,結(jié)果集中的每個(gè)文檔會(huì)是這樣的結(jié)構(gòu):
{"_id" : "authorName", "count" : articleCount}。
{"$sort" : {"count" : -1}}
這個(gè)操作會(huì)對結(jié)果集中的文檔根據(jù)"count"字段進(jìn)行降序排列。
{"$limit" : 5}
這個(gè)操作將最終的返回結(jié)果限制為當(dāng)前結(jié)果中的前5個(gè)文檔。
在MongoDB中實(shí)際運(yùn)行時(shí),要將這些操作分別傳給aggregate()函數(shù):
> db.articles.aggregate({"$project" : {"author" : 1}}, ... {"$group" : {"_id" : "$author", "count" : {"$sum" : 1}}}, ... {"$sort" : {"count" : -1}}, ... {"$limit" : 5}) { "result" : [ { "_id" : "R. L. Stine", "count" : 430 }, { "_id" : "Edgar Wallace", "count" : 175 }, { "_id" : "Nora Roberts", "count" : 145 }, { "_id" : "Erle Stanley Gardner", "count" : 140 }, { "_id" : "Agatha Christie", "count" : 85 } ], "ok" : 1 }
aggregate()會(huì)返回一個(gè)文檔數(shù)組,其中的內(nèi)容是發(fā)表文章最多的5個(gè)作者。
如果管道沒有給出預(yù)期的結(jié)果,就需要進(jìn)行調(diào)試,調(diào)試時(shí),可以先只指定第一個(gè)管道操作符。如果這時(shí)得到了預(yù)期結(jié)果,那就再指定第二個(gè)管道操作符。以前面的例子來說,首先要試著只使用"$project"操作符進(jìn)行聚合;如果這個(gè)操作符的結(jié)果是有效的,就再添加"$group"操作符;如果結(jié)果還是有效的,就再添加"$sort";最后再添加"$limit"操作符。這樣就可以逐步定位到造成問題的操作符。
本書寫作時(shí),聚合框架還不能對集合進(jìn)行寫入操作,因此所有結(jié)果必須返回給客戶端。所以,聚合的結(jié)果必須要限制在16 MB以內(nèi)(MongoDB支持的最大響應(yīng)消息大小)。
管道操作符每個(gè)操作符都會(huì)接受一連串的文檔,對這些文檔做一些類型轉(zhuǎn)換,最后將轉(zhuǎn)換后的文檔作為結(jié)果傳遞給下一個(gè)操作符(對于最后一個(gè)管道操作符,是將結(jié)果返回給客戶端)。
不同的管道操作符可以按任意順序組合在一起使用,而且可以被重復(fù)任意多次。例如,可以先做"$match",然后做"$group",然后再做"$match"(與之前的"$match"匹配不同的查詢條件)。
$match用于對文檔集合進(jìn)行篩選,之后就可以在篩選得到的文檔子集上做聚合。例如,如果想對Oregon(俄勒岡州,簡寫為OR)的用戶做統(tǒng)計(jì),就可以使用{$match : {"state" : "OR"}}。"$match"可以使用所有常規(guī)的查詢操作符("$gt"、"$lt"、"$in"等)。有一個(gè)例外需要注意:不能在"$match"中使用地理空間操作符。
通常,在實(shí)際使用中應(yīng)該盡可能將"$match"放在管道的前面位置。這樣做有兩個(gè)好處:一是可以快速將不需要的文檔過濾掉,以減少管道的工作量;二是如果在投射和分組之前執(zhí)行"$match",查詢可以使用索引。
相對于“普通”的查詢而言,管道中的投射操作更加強(qiáng)大。使用"$project"可以從子文檔中提取字段,可以重命名字段,還可以在這些字段上進(jìn)行一些有意思的操作。
最簡單的一個(gè)"$project"操作是從文檔中選擇想要的字段。可以指定包含或者不包含一個(gè)字段,它的語法與查詢中的第二個(gè)參數(shù)類似。如果在原來的集合上執(zhí)行下面的代碼,返回的結(jié)果文檔中只包含一個(gè)"author"字段。
> db.articles.aggregate({"$project" : {"author" : 1, "_id" : 0}})
默認(rèn)情況下,如果文檔中存在"_id"字段,這個(gè)字段就會(huì)被返回("_id"字段可以被一些管道操作符移除,也可能已經(jīng)被之前的投射操作給移除了)。可以使用上面的代碼將"_id"從結(jié)果文檔中移除。包含字段和排除字段的規(guī)則與常規(guī)查詢中的語法一致。
也可以將投射過的字段進(jìn)行重命名。例如,可以將每個(gè)用戶文檔的"_id"在返回結(jié)果中重命名為"userId":
> db.users.aggregate({"$project" : {"userId" : "$_id", "_id" : 0}}) { "result" : [ { "userId" : ObjectId("50e4b32427b160e099ddbee7") }, { "userId" : ObjectId("50e4b32527b160e099ddbee8") } ... ], "ok" : 1 }
這里的"$fieldname"語法是為了在聚合框架中引用fieldname字段(上面的例子中是"_id")的值。例如,"$age"會(huì)被替換為"age"字段的內(nèi)容(可能是數(shù)值,也可能是字符串),"$tags.3"會(huì)被替換為tags數(shù)組中的第4個(gè)元素。所以,上面例子中的"$_id"會(huì)被替換為進(jìn)入管道的每個(gè)文檔的"_id"字段的值。
注意,必須明確指定將"_id"排除,否則這個(gè)字段的值會(huì)被返回兩次:一次被標(biāo)為"userId",一次被標(biāo)為"_id"。可以使用這種技術(shù)生成字段的多個(gè)副本,以便在之后的"$group"中使用。
在對字段進(jìn)行重命名時(shí),MongoDB并不會(huì)記錄字段的歷史名稱。因此,如果在"originalFieldname"字段上有一個(gè)索引,聚合框架無法在下面的排序操作中使用這個(gè)索引,盡管人眼一下子就能看出下面代碼中的"newFieldname"與"originalFieldname"表示同一個(gè)字段。
> db.articles.aggregate({"$project" : {"newFieldname" : "$originalFieldname"}}, ... {"$sort" : {"newFieldname" : 1}})
所以,應(yīng)該盡量在修改字段名稱之前使用索引。
1. 管道表達(dá)式最簡單的"$project"表達(dá)式是包含和排除字段,以及字段名稱("$fieldname")。但是,還有一些更強(qiáng)大的選項(xiàng)。也可以使用表達(dá)式(expression)將多個(gè)字面量和變量組合在一個(gè)值中使用。
在聚合框架中有幾個(gè)表達(dá)式可用來組合或者進(jìn)行任意深度的嵌套,以便創(chuàng)建復(fù)雜的表達(dá)式。
算術(shù)表達(dá)式可用于操作數(shù)值。指定一組數(shù)值,就可以使用這個(gè)表達(dá)式進(jìn)行操作了。例如,下面的表達(dá)式會(huì)將"salary"和"bonus"字段的值相加。
> db.employees.aggregate( ... { ... "$project" : { ... "totalPay" : { ... "$add" : ["$salary", "$bonus"] ... } ... } ... })
可以將多個(gè)表達(dá)式嵌套在一起組成更復(fù)雜的表達(dá)式。假設(shè)我們想要從總金額中扣除為401(k)繳納的金額。可以使用"$subtract"表達(dá)式:
401(k)是美國的一種養(yǎng)老金計(jì)劃。——譯者注
> db.employees.aggregate( ... { ... "$project" : { ... "totalPay" : { ... "$subtract" : [{"$add" : ["$salary", "$bonus"]}, "$401k"] ... } ... } ... })
表達(dá)式可以進(jìn)行任意層次的嵌套。
下面是每個(gè)操作符的語法:
"$add" : [expr1[, expr2, ..., exprN]]
這個(gè)操作符接受一個(gè)或多個(gè)表達(dá)式作為參數(shù),將這些表達(dá)式相加。
"$subtract" : [expr1, expr2]
接受兩個(gè)表達(dá)式作為參數(shù),用第一個(gè)表達(dá)式減去第二個(gè)表達(dá)式作為結(jié)果。
"$multiply" : [expr1[, expr2, ..., exprN]]
接受一個(gè)或者多個(gè)表達(dá)式,并且將它們相乘。
"$divide" : [expr1, expr2]
接受兩個(gè)表達(dá)式,用第一個(gè)表達(dá)式除以第二個(gè)表達(dá)式的商作為結(jié)果。
"$mod" : [expr1, expr2]
接受兩個(gè)表達(dá)式,將第一個(gè)表達(dá)式除以第二個(gè)表達(dá)式得到的余數(shù)作為結(jié)果。
3. 日期表達(dá)式(date expression)許多聚合都是基于時(shí)間的:上周發(fā)生了什么?上個(gè)月發(fā)生了什么?過去一年間發(fā)生了什么?因此,聚合框架中包含了一些用于提取日期信息的表達(dá)式:"$year"、“$month”、"$week"、"$dayOfMonth"、"$dayOfWeek"、"$dayOfYear"、"$hour"、"$minute"和"$second"。只能對日期類型的字段進(jìn)行日期操作,不能對數(shù)值類型字段做日期操作。
每種日期類型的操作都是類似的:接受一個(gè)日期表達(dá)式,返回一個(gè)數(shù)值。下面的代碼會(huì)返回每個(gè)雇員入職的月份:
> db.employees.aggregate( ... { ... "$project" : { ... "hiredIn" : {"$month" : "$hireDate"} ... } ... })
也可以使用字面量日期。下面的代碼會(huì)計(jì)算出每個(gè)雇員在公司內(nèi)的工作時(shí)間:
> db.employees.aggregate( ... { ... "$project" : { ... "tenure" : { ... "$subtract" : [{"$year" : new Date()}, {"$year" : "$hireDate"}] ... } ... } ... })4. 字符串表達(dá)式(string expression)
也有一些基本的字符串操作可以使用,它們的簽名如下所示:
"$substr" : [expr, startOffset, numToReturn]
其中第一個(gè)參數(shù)expr必須是個(gè)字符串,這個(gè)操作會(huì)截取這個(gè)字符串的子串(從第startOffset字節(jié)開始的numToReturn字節(jié),注意,是字節(jié),不是字符。在多字節(jié)編碼中尤其要注意這一點(diǎn))expr必須是字符串。
"$concat" : [expr1[, expr2, ..., exprN]]
將給定的表達(dá)式(或者字符串)連接在一起作為返回結(jié)果。
"$toLower" : expr
參數(shù)expr必須是個(gè)字符串值,這個(gè)操作返回expr的小寫形式。
"$toUpper" : expr
參數(shù)expr必須是個(gè)字符串值,這個(gè)操作返回expr的大寫形式。
改變字符大小寫的操作,只保證對羅馬字符有效。
下面是一個(gè)生成 j.doe@example.com格式的email地址的例子。它提取"$firstname"的第一個(gè)字符,將其與多個(gè)常量字符串和"$lastname"連接成一個(gè)字符串:
> db.employees.aggregate( ... { ... "$project" : { ... "email" : { ... "$concat" : [ ... {"$substr" : ["$firstName", 0, 1]}, ... ".", ... "$lastName", ... "@example.com" ... ] ... } ... } ... })5. 邏輯表達(dá)式(logical expression)
有一些邏輯表達(dá)式可以用于控制語句。
下面是幾個(gè)比較表達(dá)式。
"$cmp" : [expr1, expr2]
比較expr1和expr2。如果expr1等于expr2,返回0;如果expr1 < expr2,返回一個(gè)負(fù)數(shù);如果expr1 >expr2,返回一個(gè)正數(shù)。
"$strcasecmp" : [string1, string2]
比較string1和string2,區(qū)分大小寫。只對羅馬字符組成的字符串有效。
"$eq"/"$ne"/"$gt"/"$gte"/"$lt"/"$lte" : [expr1, expr2]
對expr1和expr2執(zhí)行相應(yīng)的比較操作,返回比較的結(jié)果(true或false)。
下面是幾個(gè)布爾表達(dá)式。
"$and" : [expr1[, expr2, ..., exprN]]
如果所有表達(dá)式的值都是true,那就返回true,否則返回false。
"$or" : [expr1[, expr2, ..., exprN]]
只要有任意表達(dá)式的值為true,就返回true,否則返回false。
"$not" : expr
對expr取反。
還有兩個(gè)控制語句。
"$cond" : [booleanExpr, trueExpr, falseExpr]
如果booleanExpr的值是true,那就返回trueExpr,否則返回falseExpr。
"$ifNull" : [expr, replacementExpr]
如果expr是null,返回replacementExpr,否則返回expr。
通過這些操作符,就可以在聚合中使用更復(fù)雜的邏輯,可以對不同數(shù)據(jù)執(zhí)行不同的代碼,得到不同的結(jié)果。
管道對于輸入數(shù)據(jù)的形式有特定要求,所以這些操作符在傳入數(shù)據(jù)時(shí)要特別注意。算術(shù)操作符必須接受數(shù)值,日期操作符必須接受日期,字符串操作符必須接受字符串,如果有字符缺失,這些操作符就會(huì)報(bào)錯(cuò)。如果你的數(shù)據(jù)集不一致,可以通過這個(gè)條件來檢測缺失的值,并且進(jìn)行填充。
假如有個(gè)教授想通過某種比較復(fù)雜的計(jì)算為學(xué)生打分:出勤率占10%,日常測驗(yàn)成績占30%,期末考試占60%(如果是老師最寵愛的學(xué)生,那么分?jǐn)?shù)就是100)。可以使用如下代碼:
> db.students.aggregate( ... { ... "$project" : { ... "grade" : { ... "$cond" : [ ... "$teachersPet", ... 100, // if ... { // else ... "$add" : [ ... {"$multiply" : [.1, "$attendanceAvg"]}, ... {"$multiply" : [.3, "$quizzAvg"]}, ... {"$multiply" : [.6, "$testAvg"]} ... ] ... } ... ] ... } ... } ... })$group
$group操作可以將文檔依據(jù)特定字段的不同值進(jìn)行分組。下面是幾個(gè)分組的例子。
如果我們以分鐘作為計(jì)量單位,希望找出每天的平均濕度,就可以根據(jù)"day"字段進(jìn)行分組。
如果有一個(gè)學(xué)生集合,希望按照分?jǐn)?shù)等級將學(xué)生分為多個(gè)組,可以根據(jù)"grade"字段進(jìn)行分組。
如果有一個(gè)用戶集合,希望知道每個(gè)城市有多少用戶,可以根據(jù)"state"和"city"兩個(gè)字段對集合進(jìn)行分組,每個(gè)"city"/"state"對對應(yīng)一個(gè)分組。不應(yīng)該只根據(jù)"city"字段進(jìn)行分組,因?yàn)椴煌闹菘赡軗碛邢嗤值某鞘小?/p>
如果選定了需要進(jìn)行分組的字段,就可以將選定的字段傳遞給"$group"函數(shù)的"_id"字段。對于上面的例子,相應(yīng)的代碼如下:
{"$group" : {"_id" : "$day"}} {"$group" : {"_id" : "$grade"}} {"$group" : {"_id" : {"state" : "$state", "city" : "$city"}}}
如果執(zhí)行這些代碼,結(jié)果集中每個(gè)分組對應(yīng)一個(gè)只有一個(gè)字段(分組鍵)的文檔。例如,按學(xué)生分?jǐn)?shù)等級進(jìn)行分組的結(jié)果可能是:{"result" : [{"_id" : "A+"}, {"_id" : "A"}, {"_id" : "A-"}, ..., {"_id" : "F"}], "ok" : 1}。通過上面這些代碼,可以得到特定字段中每一個(gè)不同的值,但是所有例子都要求基于這些分組進(jìn)行一些計(jì)算。因此,可以添加一些字段,使用分組操作符對每個(gè)分組中的文檔做一些計(jì)算。
1. 分組操作符這些分組操作符允許對每個(gè)分組進(jìn)行計(jì)算,得到相應(yīng)的結(jié)果。7.1節(jié)介紹過"$sum"分組操作符的作用:分組中每出現(xiàn)一個(gè)文檔,它就對計(jì)算結(jié)果加1,這樣便可以得到每個(gè)分組中的文檔數(shù)量。
2. 算術(shù)操作符有兩個(gè)操作符可以用于對數(shù)值類型字段的值進(jìn)行計(jì)算:"$sum"和"$average"。
"$sum" : value
對于分組中的每一個(gè)文檔,將value與計(jì)算結(jié)果相加。注意,上面的例子中使用了一個(gè)字面量數(shù)字1,但是這里也可以使用比較復(fù)雜的值。例如,如果有一個(gè)集合,其中的內(nèi)容是各個(gè)國家的銷售數(shù)據(jù),使用下面的代碼就可以得到每個(gè)國家的總收入:
> db.sales.aggregate( ... { ... "$group" : { ... "_id" : "$country", ... "totalRevenue" : {"$sum" : "$revenue"} ... } ... })
"$avg" : value
返回每個(gè)分組的平均值。
例如,下面的代碼會(huì)返回每個(gè)國家的平均收入,以及每個(gè)國家的銷量:
> db.sales.aggregate( ... { ... "$group" : { ... "_id" : "$country", ... "totalRevenue" : {"$avg" : "$revenue"}, ... "numSales" : {"$sum" : 1} ... } ... })3. 極值操作符(extreme operator)
下面的四個(gè)操作符可用于得到數(shù)據(jù)集合中的“邊緣”值。
"$max" : expr 返回分組內(nèi)的最大值。
"$min" : expr
返回分組內(nèi)的最小值。
"$first" : expr 返回分組的第一個(gè)值,忽略后面所有值。只有排序之后,明確知道數(shù)據(jù)順序時(shí)這個(gè)操作才有意義。
"$last" : expr
與"$first"相反,返回分組的最后一個(gè)值。
"$max"和"$min"會(huì)查看每一個(gè)文檔,以便得到極值。因此,如果數(shù)據(jù)是無序的,這兩個(gè)操作符也可以有效工作;如果數(shù)據(jù)是有序的,這兩個(gè)操作符就會(huì)有些浪費(fèi)。假設(shè)有一個(gè)存有學(xué)生考試成績的數(shù)據(jù)集,需要找到其中的最高分與最低分:
> db.scores.aggregate( ... { ... "$group" : { ... "_id" : "$grade", ... "lowestScore" : {"$min" : "$score"}, ... "highestScore" : {"$max" : "$score"} ... } ... })
另一方面,如果數(shù)據(jù)集是按照希望的字段排序過的,那么"$first"和"$last"操作符就會(huì)非常有用。下面的代碼與上面的代碼可以得到同樣的結(jié)果:
> db.scores.aggregate( ... { ... "$sort" : {"score" : 1} ... }, ... { ... "$group" : { ... "_id" : "$grade", ... "lowestScore" : {"$first" : "$score"}, ... "highestScore" : {"$last" : "$score"} ... } ... })
如果數(shù)據(jù)是排過序的,那么$first和$last會(huì)比$min和$max效率更高。如果不準(zhǔn)備對數(shù)據(jù)進(jìn)行排序,那么直接使用$min和$max會(huì)比先排序再使用$first和$last效率更高。
4. 數(shù)組操作符有兩個(gè)操作符可以進(jìn)行數(shù)組操作。
"$addToSet" : expr
如果當(dāng)前數(shù)組中不包含expr ,那就將它添加到數(shù)組中。在返回結(jié)果集中,每個(gè)元素最多只出現(xiàn)一次,而且元素的順序是不確定的。
"$push" : expr
不管expr是什么值,都將它添加到數(shù)組中。返回包含所有值的數(shù)組。
5. 分組行為有兩個(gè)操作符不能用前面介紹的流式工作方式對文檔進(jìn)行處理,"$group"是其中之一。大部分操作符的工作方式都是流式的,只要有新文檔進(jìn)入,就可以對新文檔進(jìn)行處理,但是"$group"必須要等收到所有的文檔之后,才能對文檔進(jìn)行分組,然后才能將各個(gè)分組發(fā)送給管道中的下一個(gè)操作符。這意味著,在分片的情況下,"$group"會(huì)先在每個(gè)分片上執(zhí)行,然后各個(gè)分片上的分組結(jié)果會(huì)被發(fā)送到mongos再進(jìn)行最后的統(tǒng)一分組,剩余的管道工作也都是在mongos(而不是在分片)上運(yùn)行的。
$unwind拆分(unwind)可以將數(shù)組中的每一個(gè)值拆分為多帶帶的文檔。例如,如果有一篇擁有多條評論的博客文章,可以使用$unwind將每條評論拆分為一個(gè)獨(dú)立的文檔:
> db.blog.findOne() { "_id" : ObjectId("50eeffc4c82a5271290530be"), "author" : "k", "post" : "Hello, world!", "comments" : [ { "author" : "mark", "date" : ISODate("2013-01-10T17:52:04.148Z"), "text" : "Nice post" }, { "author" : "bill", "date" : ISODate("2013-01-10T17:52:04.148Z"), "text" : "I agree" } ] } > db.blog.aggregate({"$unwind" : "$comments"}) { "results" : { "_id" : ObjectId("50eeffc4c82a5271290530be"), "author" : "k", "post" : "Hello, world!", "comments" : { "author" : "mark", "date" : ISODate("2013-01-10T17:52:04.148Z"), "text" : "Nice post" } }, { "_id" : ObjectId("50eeffc4c82a5271290530be"), "author" : "k", "post" : "Hello, world!", "comments" : { "author" : "bill", "date" : ISODate("2013-01-10T17:52:04.148Z"), "text" : "I agree" } } ], "ok" : 1 }
如果希望在查詢中得到特定的子文檔,這個(gè)操作符就會(huì)非常有用:先使用"$unwind"得到所有子文檔,再使用"$match"得到想要的文檔。例如,如果要得到特定用戶的所有評論(只需要得到評論,不需要返回評論所屬的文章),使用普通的查詢是不可能做到的。但是,通過提取、拆分、匹配,就很容易了:
> db.blog.aggregate({"$project" : {"comments" : "$comments"}}, ... {"$unwind" : "$comments"}, ... {"$match" : {"comments.author" : "Mark"}})
由于最后得到的結(jié)果仍然是一個(gè)"comments"子文檔,所以你可能希望再做一次投射,以便讓輸出結(jié)果更優(yōu)雅。
$sort可以根據(jù)任何字段(或者多個(gè)字段)進(jìn)行排序,與在普通查詢中的語法相同。如果要對大量的文檔進(jìn)行排序,強(qiáng)烈建議在管道的第一階段進(jìn)行排序,這時(shí)的排序操作可以使用索引。否則,排序過程就會(huì)比較慢,而且會(huì)占用大量內(nèi)存。
可以在排序中使用文檔中實(shí)際存在的字段,也可以使用在投射時(shí)重命名的字段:
> db.employees.aggregate( ... { ... "$project" : { ... "compensation" : { ... "$add" : ["$salary", "$bonus"] ... }, ... "name" : 1 ... } ... }, ... { ... "$sort" : {"compensation" : -1, "name" : 1} ... })
這個(gè)例子會(huì)對員工排序,最終的結(jié)果是按照報(bào)酬從高到低,姓名從A到Z的順序排列。
排序方向可以是1(升序)和-1(降序)。
與前面講過的"$group"一樣,"$sort"也是一個(gè)無法使用流式工作方式的操作符。"$sort"也必須要接收到所有文檔之后才能進(jìn)行排序。在分片環(huán)境下,先在各個(gè)分片上進(jìn)行排序,然后將各個(gè)分片的排序結(jié)果發(fā)送到mongos做進(jìn)一步處理。
$limit會(huì)接受一個(gè)數(shù)字n,返回結(jié)果集中的前n個(gè)文檔。
$skip$skip也是接受一個(gè)數(shù)字n,丟棄結(jié)果集中的前n個(gè)文檔,將剩余文檔作為結(jié)果返回。在“普通”查詢中,如果需要跳過大量的數(shù)據(jù),那么這個(gè)操作符的效率會(huì)很低。在聚合中也是如此,因?yàn)樗仨氁绕ヅ涞剿行枰^的文檔,然后再將這些文檔丟棄。
使用管道應(yīng)該盡量在管道的開始階段(執(zhí)行"$project"、"$group"或者"$unwind"操作之前)就將盡可能多的文檔和字段過濾掉。管道如果不是直接從原先的集合中使用數(shù)據(jù),那就無法在篩選和排序中使用索引。如果可能,聚合管道會(huì)嘗試對操作進(jìn)行排序,以便能夠有效使用索引。
MongoDB不允許單一的聚合操作占用過多的系統(tǒng)內(nèi)存:如果MongoDB發(fā)現(xiàn)某個(gè)聚合操作占用了20%以上的內(nèi)存,這個(gè)操作就會(huì)直接輸出錯(cuò)誤。允許將輸出結(jié)果利用管道放入一個(gè)集合中是為了方便以后使用(這樣可以將所需的內(nèi)存減至最小)。
如果能夠通過"$match"操作迅速減小結(jié)果集的大小,就可以使用管道進(jìn)行實(shí)時(shí)聚合。由于管道會(huì)不斷包含更多的文檔,會(huì)越來越復(fù)雜,所以幾乎不可能實(shí)時(shí)得到管道的操作結(jié)果。
上一篇文章:MongoDB指南---15、特殊的索引和集合:地理空間索引、使用GridFS存儲文件
下一篇文章:MongoDB指南---17、MapReduce
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/44092.html
摘要:將返回結(jié)果限制為前個(gè)。所以,聚合的結(jié)果必須要限制在以內(nèi)支持的最大響應(yīng)消息大小。包含字段和排除字段的規(guī)則與常規(guī)查詢中的語法一致。改變字符大小寫的操作,只保證對羅馬字符有效。只對羅馬字符組成的字符串有效。 上一篇文章:MongoDB指南---15、特殊的索引和集合:地理空間索引、使用GridFS存儲文件下一篇文章:MongoDB指南---17、MapReduce 如果你有數(shù)據(jù)存儲在Mon...
摘要:操作花費(fèi)的時(shí)間,單位是毫秒。處理完成后,會(huì)自動(dòng)將臨時(shí)集合的名字更改為你指定的集合名,這個(gè)重命名的過程是原子性的。作用域在這些函數(shù)內(nèi)部是不變的。上一篇文章指南聚合下一篇文章指南聚合命令 上一篇文章:MongoDB指南---16、聚合下一篇文章:MongoDB指南---18、聚合命令 MapReduce是聚合工具中的明星,它非常強(qiáng)大、非常靈活。有些問題過于復(fù)雜,無法使用聚合框架的查詢語言...
摘要:操作花費(fèi)的時(shí)間,單位是毫秒。處理完成后,會(huì)自動(dòng)將臨時(shí)集合的名字更改為你指定的集合名,這個(gè)重命名的過程是原子性的。作用域在這些函數(shù)內(nèi)部是不變的。上一篇文章指南聚合下一篇文章指南聚合命令 上一篇文章:MongoDB指南---16、聚合下一篇文章:MongoDB指南---18、聚合命令 MapReduce是聚合工具中的明星,它非常強(qiáng)大、非常靈活。有些問題過于復(fù)雜,無法使用聚合框架的查詢語言...
摘要:不采用關(guān)系模型主要是為了獲得更好的擴(kuò)展性。易于擴(kuò)展應(yīng)用程序數(shù)據(jù)集的大小正在以不可思議的速度增長。過去非常罕見的級別數(shù)據(jù),現(xiàn)在已是司空見慣了。這種精簡方式的設(shè)計(jì)是能夠?qū)崿F(xiàn)如此高性能的原因之一。下一篇文章指南基礎(chǔ)知識文檔集合數(shù)據(jù)庫客戶端 下一篇文章:MongoDB指南---2、MongoDB基礎(chǔ)知識-文檔、集合、數(shù)據(jù)庫、客戶端 MongoDB是一款強(qiáng)大、靈活,且易于擴(kuò)展的通用型數(shù)據(jù)庫。它...
摘要:不采用關(guān)系模型主要是為了獲得更好的擴(kuò)展性。易于擴(kuò)展應(yīng)用程序數(shù)據(jù)集的大小正在以不可思議的速度增長。過去非常罕見的級別數(shù)據(jù),現(xiàn)在已是司空見慣了。這種精簡方式的設(shè)計(jì)是能夠?qū)崿F(xiàn)如此高性能的原因之一。下一篇文章指南基礎(chǔ)知識文檔集合數(shù)據(jù)庫客戶端 下一篇文章:MongoDB指南---2、MongoDB基礎(chǔ)知識-文檔、集合、數(shù)據(jù)庫、客戶端 MongoDB是一款強(qiáng)大、靈活,且易于擴(kuò)展的通用型數(shù)據(jù)庫。它...
閱讀 898·2023-04-26 03:03
閱讀 2221·2021-10-12 10:12
閱讀 1214·2021-09-24 09:48
閱讀 1666·2021-09-22 15:25
閱讀 3345·2021-09-22 15:15
閱讀 936·2019-08-29 16:21
閱讀 1078·2019-08-28 18:00
閱讀 3438·2019-08-26 13:44