国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

MongoDB指南---16、聚合

_Zhao / 3492人閱讀

摘要:將返回結(jié)果限制為前個(gè)。所以,聚合的結(jié)果必須要限制在以內(nèi)支持的最大響應(yīng)消息大小。包含字段和排除字段的規(guī)則與常規(guī)查詢中的語法一致。改變字符大小寫的操作,只保證對羅馬字符有效。只對羅馬字符組成的字符串有效。

上一篇文章:MongoDB指南---15、特殊的索引和集合:地理空間索引、使用GridFS存儲文件
下一篇文章:MongoDB指南---17、MapReduce

如果你有數(shù)據(jù)存儲在MongoDB中,你想做的可能就不僅僅是將數(shù)據(jù)提取出來那么簡單了;你可能希望對數(shù)據(jù)進(jìn)行分析并加以利用。本章介紹MongoDB提供的聚合工具:

聚合框架;

MapReduce;

幾個(gè)簡單聚合命令:count、distinct和group。

 聚合框架

使用聚合框架可以對集合中的文檔進(jìn)行變換和組合。基本上,可以用多個(gè)構(gòu)件創(chuàng)建一個(gè)管道(pipeline),用于對一連串的文檔進(jìn)行處理。這些構(gòu)件包括篩選(filtering)、投射(projecting)、分組(grouping)、排序(sorting)、限制(limiting)和跳過(skipping)。
例如,有一個(gè)保存著雜志文章的集合,你可能希望找出發(fā)表文章最多的那個(gè)作者。假設(shè)每篇文章被保存為MongoDB中的一個(gè)文檔,可以按照如下步驟創(chuàng)建管道。

將每個(gè)文章文檔中的作者投射出來。

將作者按照名字排序,統(tǒng)計(jì)每個(gè)名字出現(xiàn)的次數(shù)。

將作者按照名字出現(xiàn)次數(shù)降序排列。

將返回結(jié)果限制為前5個(gè)。

這里面的每一步都對應(yīng)聚合框架中的一個(gè)操作符:

{"$project" : {"author" : 1}}

這樣可以將"author"從每個(gè)文檔中投射出來。
這個(gè)語法與查詢中的字段選擇器比較像:可以通過指定"fieldname" : 1選擇需要投射的字段,或者通過指定"fieldname":0排除不需要的字段。執(zhí)行完這個(gè)"$project"操作之后,結(jié)果集中的每個(gè)文檔都會(huì)以{"_id" : id, "author" : "authorName"}這樣的形式表示。這些結(jié)果只會(huì)在內(nèi)存中存在,不會(huì)被寫入磁盤。

{"$group" : {"_id" : "$author", "count" : {"$sum" : 1}}}

這樣就會(huì)將作者按照名字排序,某個(gè)作者的名字每出現(xiàn)一次,就會(huì)對這個(gè)作者的"count"加1。
這里首先指定了需要進(jìn)行分組的字段"author"。這是由"_id" : "$author"指定的。可以將這個(gè)操作想象為:這個(gè)操作執(zhí)行完后,每個(gè)作者只對應(yīng)一個(gè)結(jié)果文檔,所以"author"就成了文檔的唯一標(biāo)識符("_id")。
第二個(gè)字段的意思是為分組內(nèi)每個(gè)文檔的"count"字段加1。注意,新加入的文檔中并不會(huì)有"count"字段;這"$group"創(chuàng)建的一個(gè)新字段。
執(zhí)行完這一步之后,結(jié)果集中的每個(gè)文檔會(huì)是這樣的結(jié)構(gòu):

{"_id" : "authorName", "count" : articleCount}。

{"$sort" : {"count" : -1}}

這個(gè)操作會(huì)對結(jié)果集中的文檔根據(jù)"count"字段進(jìn)行降序排列。

{"$limit" : 5}

這個(gè)操作將最終的返回結(jié)果限制為當(dāng)前結(jié)果中的前5個(gè)文檔。
在MongoDB中實(shí)際運(yùn)行時(shí),要將這些操作分別傳給aggregate()函數(shù):

> db.articles.aggregate({"$project" : {"author" : 1}},
... {"$group" : {"_id" : "$author", "count" : {"$sum" : 1}}},
... {"$sort" : {"count" : -1}},
... {"$limit" : 5})
{
    "result" : [
        {
            "_id" : "R. L. Stine",
            "count" : 430
        }, 
        {
            "_id" : "Edgar Wallace",
            "count" : 175
        },
        {
            "_id" : "Nora Roberts",
            "count" : 145
        },
        {
            "_id" : "Erle Stanley Gardner",
            "count" : 140
        },
        {
            "_id" : "Agatha Christie",
            "count" : 85
        }
    ],
    "ok" : 1
}

aggregate()會(huì)返回一個(gè)文檔數(shù)組,其中的內(nèi)容是發(fā)表文章最多的5個(gè)作者。

如果管道沒有給出預(yù)期的結(jié)果,就需要進(jìn)行調(diào)試,調(diào)試時(shí),可以先只指定第一個(gè)管道操作符。如果這時(shí)得到了預(yù)期結(jié)果,那就再指定第二個(gè)管道操作符。以前面的例子來說,首先要試著只使用"$project"操作符進(jìn)行聚合;如果這個(gè)操作符的結(jié)果是有效的,就再添加"$group"操作符;如果結(jié)果還是有效的,就再添加"$sort";最后再添加"$limit"操作符。這樣就可以逐步定位到造成問題的操作符。

本書寫作時(shí),聚合框架還不能對集合進(jìn)行寫入操作,因此所有結(jié)果必須返回給客戶端。所以,聚合的結(jié)果必須要限制在16 MB以內(nèi)(MongoDB支持的最大響應(yīng)消息大小)。

管道操作符

每個(gè)操作符都會(huì)接受一連串的文檔,對這些文檔做一些類型轉(zhuǎn)換,最后將轉(zhuǎn)換后的文檔作為結(jié)果傳遞給下一個(gè)操作符(對于最后一個(gè)管道操作符,是將結(jié)果返回給客戶端)。
不同的管道操作符可以按任意順序組合在一起使用,而且可以被重復(fù)任意多次。例如,可以先做"$match",然后做"$group",然后再做"$match"(與之前的"$match"匹配不同的查詢條件)。

 $match

$match用于對文檔集合進(jìn)行篩選,之后就可以在篩選得到的文檔子集上做聚合。例如,如果想對Oregon(俄勒岡州,簡寫為OR)的用戶做統(tǒng)計(jì),就可以使用{$match : {"state" : "OR"}}。"$match"可以使用所有常規(guī)的查詢操作符("$gt"、"$lt"、"$in"等)。有一個(gè)例外需要注意:不能在"$match"中使用地理空間操作符。
通常,在實(shí)際使用中應(yīng)該盡可能將"$match"放在管道的前面位置。這樣做有兩個(gè)好處:一是可以快速將不需要的文檔過濾掉,以減少管道的工作量;二是如果在投射和分組之前執(zhí)行"$match",查詢可以使用索引。

 $project

相對于“普通”的查詢而言,管道中的投射操作更加強(qiáng)大。使用"$project"可以從子文檔中提取字段,可以重命名字段,還可以在這些字段上進(jìn)行一些有意思的操作。
最簡單的一個(gè)"$project"操作是從文檔中選擇想要的字段。可以指定包含或者不包含一個(gè)字段,它的語法與查詢中的第二個(gè)參數(shù)類似。如果在原來的集合上執(zhí)行下面的代碼,返回的結(jié)果文檔中只包含一個(gè)"author"字段。

> db.articles.aggregate({"$project" : {"author" : 1, "_id" : 0}})

默認(rèn)情況下,如果文檔中存在"_id"字段,這個(gè)字段就會(huì)被返回("_id"字段可以被一些管道操作符移除,也可能已經(jīng)被之前的投射操作給移除了)。可以使用上面的代碼將"_id"從結(jié)果文檔中移除。包含字段和排除字段的規(guī)則與常規(guī)查詢中的語法一致。
也可以將投射過的字段進(jìn)行重命名。例如,可以將每個(gè)用戶文檔的"_id"在返回結(jié)果中重命名為"userId":

> db.users.aggregate({"$project" : {"userId" : "$_id", "_id" : 0}})
{
    "result" : [
        {
            "userId" : ObjectId("50e4b32427b160e099ddbee7")
        },
        {
            "userId" : ObjectId("50e4b32527b160e099ddbee8")
        }
        ...
    ],
    "ok" : 1
}

這里的"$fieldname"語法是為了在聚合框架中引用fieldname字段(上面的例子中是"_id")的值。例如,"$age"會(huì)被替換為"age"字段的內(nèi)容(可能是數(shù)值,也可能是字符串),"$tags.3"會(huì)被替換為tags數(shù)組中的第4個(gè)元素。所以,上面例子中的"$_id"會(huì)被替換為進(jìn)入管道的每個(gè)文檔的"_id"字段的值。
注意,必須明確指定將"_id"排除,否則這個(gè)字段的值會(huì)被返回兩次:一次被標(biāo)為"userId",一次被標(biāo)為"_id"。可以使用這種技術(shù)生成字段的多個(gè)副本,以便在之后的"$group"中使用。
在對字段進(jìn)行重命名時(shí),MongoDB并不會(huì)記錄字段的歷史名稱。因此,如果在"originalFieldname"字段上有一個(gè)索引,聚合框架無法在下面的排序操作中使用這個(gè)索引,盡管人眼一下子就能看出下面代碼中的"newFieldname"與"originalFieldname"表示同一個(gè)字段。

> db.articles.aggregate({"$project" : {"newFieldname" : "$originalFieldname"}},
... {"$sort" : {"newFieldname" : 1}})

所以,應(yīng)該盡量在修改字段名稱之前使用索引。

1. 管道表達(dá)式

最簡單的"$project"表達(dá)式是包含和排除字段,以及字段名稱("$fieldname")。但是,還有一些更強(qiáng)大的選項(xiàng)。也可以使用表達(dá)式(expression)將多個(gè)字面量和變量組合在一個(gè)值中使用。
在聚合框架中有幾個(gè)表達(dá)式可用來組合或者進(jìn)行任意深度的嵌套,以便創(chuàng)建復(fù)雜的表達(dá)式。

2. 數(shù)學(xué)表達(dá)式(mathematical expression)

算術(shù)表達(dá)式可用于操作數(shù)值。指定一組數(shù)值,就可以使用這個(gè)表達(dá)式進(jìn)行操作了。例如,下面的表達(dá)式會(huì)將"salary"和"bonus"字段的值相加。

> db.employees.aggregate(
... {
...     "$project" : {
...          "totalPay" : {
...              "$add" : ["$salary", "$bonus"]
...          }
...      }
... })

可以將多個(gè)表達(dá)式嵌套在一起組成更復(fù)雜的表達(dá)式。假設(shè)我們想要從總金額中扣除為401(k)繳納的金額。可以使用"$subtract"表達(dá)式:

401(k)是美國的一種養(yǎng)老金計(jì)劃。——譯者注
> db.employees.aggregate(
... {
...     "$project" : {
...         "totalPay" : {
...              "$subtract" : [{"$add" : ["$salary", "$bonus"]}, "$401k"]
...         }
...     }
... })

表達(dá)式可以進(jìn)行任意層次的嵌套。
下面是每個(gè)操作符的語法:

"$add" : [expr1[, expr2, ..., exprN]]

這個(gè)操作符接受一個(gè)或多個(gè)表達(dá)式作為參數(shù),將這些表達(dá)式相加。

"$subtract" : [expr1, expr2]

接受兩個(gè)表達(dá)式作為參數(shù),用第一個(gè)表達(dá)式減去第二個(gè)表達(dá)式作為結(jié)果。

"$multiply" : [expr1[, expr2, ..., exprN]]

接受一個(gè)或者多個(gè)表達(dá)式,并且將它們相乘。

"$divide" : [expr1, expr2]

接受兩個(gè)表達(dá)式,用第一個(gè)表達(dá)式除以第二個(gè)表達(dá)式的商作為結(jié)果。

"$mod" : [expr1, expr2]

接受兩個(gè)表達(dá)式,將第一個(gè)表達(dá)式除以第二個(gè)表達(dá)式得到的余數(shù)作為結(jié)果。

3. 日期表達(dá)式(date expression)

許多聚合都是基于時(shí)間的:上周發(fā)生了什么?上個(gè)月發(fā)生了什么?過去一年間發(fā)生了什么?因此,聚合框架中包含了一些用于提取日期信息的表達(dá)式:"$year"、“$month”、"$week"、"$dayOfMonth"、"$dayOfWeek"、"$dayOfYear"、"$hour"、"$minute"和"$second"。只能對日期類型的字段進(jìn)行日期操作,不能對數(shù)值類型字段做日期操作。
每種日期類型的操作都是類似的:接受一個(gè)日期表達(dá)式,返回一個(gè)數(shù)值。下面的代碼會(huì)返回每個(gè)雇員入職的月份:

> db.employees.aggregate(
... {
...     "$project" : {
...         "hiredIn" : {"$month" : "$hireDate"}
...     }
... })

也可以使用字面量日期。下面的代碼會(huì)計(jì)算出每個(gè)雇員在公司內(nèi)的工作時(shí)間:

> db.employees.aggregate(
... {
...     "$project" : { 
...         "tenure" : {
...             "$subtract" : [{"$year" : new Date()}, {"$year" : "$hireDate"}]
...         }
...     }
... })
4. 字符串表達(dá)式(string expression)

也有一些基本的字符串操作可以使用,它們的簽名如下所示:

"$substr" : [expr, startOffset, numToReturn]

其中第一個(gè)參數(shù)expr必須是個(gè)字符串,這個(gè)操作會(huì)截取這個(gè)字符串的子串(從第startOffset字節(jié)開始的numToReturn字節(jié),注意,是字節(jié),不是字符。在多字節(jié)編碼中尤其要注意這一點(diǎn))expr必須是字符串。

"$concat" : [expr1[, expr2, ..., exprN]]

將給定的表達(dá)式(或者字符串)連接在一起作為返回結(jié)果。

"$toLower" : expr

參數(shù)expr必須是個(gè)字符串值,這個(gè)操作返回expr的小寫形式。

"$toUpper" : expr

參數(shù)expr必須是個(gè)字符串值,這個(gè)操作返回expr的大寫形式。
改變字符大小寫的操作,只保證對羅馬字符有效。
下面是一個(gè)生成 j.doe@example.com格式的email地址的例子。它提取"$firstname"的第一個(gè)字符,將其與多個(gè)常量字符串和"$lastname"連接成一個(gè)字符串:

> db.employees.aggregate(
... {
...     "$project" : {
...         "email" : {
...             "$concat" : [
...                 {"$substr" : ["$firstName", 0, 1]},
...                 ".",
...                 "$lastName",
...                 "@example.com"
...             ]
...         }
...     }
... })
5. 邏輯表達(dá)式(logical expression)

有一些邏輯表達(dá)式可以用于控制語句。
下面是幾個(gè)比較表達(dá)式。

"$cmp" : [expr1, expr2]

比較expr1和expr2。如果expr1等于expr2,返回0;如果expr1 < expr2,返回一個(gè)負(fù)數(shù);如果expr1 >expr2,返回一個(gè)正數(shù)。

"$strcasecmp" : [string1, string2]

比較string1和string2,區(qū)分大小寫。只對羅馬字符組成的字符串有效。

"$eq"/"$ne"/"$gt"/"$gte"/"$lt"/"$lte" : [expr1, expr2]

對expr1和expr2執(zhí)行相應(yīng)的比較操作,返回比較的結(jié)果(true或false)。

下面是幾個(gè)布爾表達(dá)式。

"$and" : [expr1[, expr2, ..., exprN]]

如果所有表達(dá)式的值都是true,那就返回true,否則返回false。

"$or" : [expr1[, expr2, ..., exprN]]

只要有任意表達(dá)式的值為true,就返回true,否則返回false。

"$not" : expr

對expr取反。

還有兩個(gè)控制語句。

"$cond" : [booleanExpr, trueExpr, falseExpr]

如果booleanExpr的值是true,那就返回trueExpr,否則返回falseExpr。

"$ifNull" : [expr, replacementExpr]

如果expr是null,返回replacementExpr,否則返回expr。

通過這些操作符,就可以在聚合中使用更復(fù)雜的邏輯,可以對不同數(shù)據(jù)執(zhí)行不同的代碼,得到不同的結(jié)果。
管道對于輸入數(shù)據(jù)的形式有特定要求,所以這些操作符在傳入數(shù)據(jù)時(shí)要特別注意。算術(shù)操作符必須接受數(shù)值,日期操作符必須接受日期,字符串操作符必須接受字符串,如果有字符缺失,這些操作符就會(huì)報(bào)錯(cuò)。如果你的數(shù)據(jù)集不一致,可以通過這個(gè)條件來檢測缺失的值,并且進(jìn)行填充。

6. 一個(gè)提取的例子

假如有個(gè)教授想通過某種比較復(fù)雜的計(jì)算為學(xué)生打分:出勤率占10%,日常測驗(yàn)成績占30%,期末考試占60%(如果是老師最寵愛的學(xué)生,那么分?jǐn)?shù)就是100)。可以使用如下代碼:

> db.students.aggregate(
... {
...     "$project" : {
...         "grade" : {
...             "$cond" : [
...                 "$teachersPet",
...                 100, // if
...                 {    // else
...                     "$add" : [
...                         {"$multiply" : [.1, "$attendanceAvg"]},
...                         {"$multiply" : [.3, "$quizzAvg"]},
...                         {"$multiply" : [.6, "$testAvg"]}
...                     ]
...                 }
...             ]
...         }
...     }
... }) 
$group

$group操作可以將文檔依據(jù)特定字段的不同值進(jìn)行分組。下面是幾個(gè)分組的例子。

如果我們以分鐘作為計(jì)量單位,希望找出每天的平均濕度,就可以根據(jù)"day"字段進(jìn)行分組。

如果有一個(gè)學(xué)生集合,希望按照分?jǐn)?shù)等級將學(xué)生分為多個(gè)組,可以根據(jù)"grade"字段進(jìn)行分組。

如果有一個(gè)用戶集合,希望知道每個(gè)城市有多少用戶,可以根據(jù)"state"和"city"兩個(gè)字段對集合進(jìn)行分組,每個(gè)"city"/"state"對對應(yīng)一個(gè)分組。不應(yīng)該只根據(jù)"city"字段進(jìn)行分組,因?yàn)椴煌闹菘赡軗碛邢嗤值某鞘小?/p>

如果選定了需要進(jìn)行分組的字段,就可以將選定的字段傳遞給"$group"函數(shù)的"_id"字段。對于上面的例子,相應(yīng)的代碼如下:

{"$group" : {"_id" : "$day"}}
{"$group" : {"_id" : "$grade"}}
{"$group" : {"_id" : {"state" : "$state", "city" : "$city"}}}

如果執(zhí)行這些代碼,結(jié)果集中每個(gè)分組對應(yīng)一個(gè)只有一個(gè)字段(分組鍵)的文檔。例如,按學(xué)生分?jǐn)?shù)等級進(jìn)行分組的結(jié)果可能是:{"result" : [{"_id" : "A+"}, {"_id" : "A"}, {"_id" : "A-"}, ..., {"_id" : "F"}], "ok" : 1}。通過上面這些代碼,可以得到特定字段中每一個(gè)不同的值,但是所有例子都要求基于這些分組進(jìn)行一些計(jì)算。因此,可以添加一些字段,使用分組操作符對每個(gè)分組中的文檔做一些計(jì)算。

1. 分組操作符

這些分組操作符允許對每個(gè)分組進(jìn)行計(jì)算,得到相應(yīng)的結(jié)果。7.1節(jié)介紹過"$sum"分組操作符的作用:分組中每出現(xiàn)一個(gè)文檔,它就對計(jì)算結(jié)果加1,這樣便可以得到每個(gè)分組中的文檔數(shù)量。

2. 算術(shù)操作符

有兩個(gè)操作符可以用于對數(shù)值類型字段的值進(jìn)行計(jì)算:"$sum"和"$average"。

"$sum" : value

對于分組中的每一個(gè)文檔,將value與計(jì)算結(jié)果相加。注意,上面的例子中使用了一個(gè)字面量數(shù)字1,但是這里也可以使用比較復(fù)雜的值。例如,如果有一個(gè)集合,其中的內(nèi)容是各個(gè)國家的銷售數(shù)據(jù),使用下面的代碼就可以得到每個(gè)國家的總收入:

> db.sales.aggregate(
... {
...     "$group" : {
...         "_id" : "$country",
...         "totalRevenue" : {"$sum" : "$revenue"}
...     }
... })

"$avg" : value

返回每個(gè)分組的平均值。
例如,下面的代碼會(huì)返回每個(gè)國家的平均收入,以及每個(gè)國家的銷量:

> db.sales.aggregate(
... {
...     "$group" : {
...         "_id" : "$country",
...         "totalRevenue" : {"$avg" : "$revenue"},
...         "numSales" : {"$sum" : 1}
...     }
... }) 
3. 極值操作符(extreme operator)

下面的四個(gè)操作符可用于得到數(shù)據(jù)集合中的“邊緣”值。

"$max" : expr 返回分組內(nèi)的最大值。

"$min" : expr

返回分組內(nèi)的最小值。

"$first" : expr 返回分組的第一個(gè)值,忽略后面所有值。只有排序之后,明確知道數(shù)據(jù)順序時(shí)這個(gè)操作才有意義。

"$last" : expr

與"$first"相反,返回分組的最后一個(gè)值。

"$max"和"$min"會(huì)查看每一個(gè)文檔,以便得到極值。因此,如果數(shù)據(jù)是無序的,這兩個(gè)操作符也可以有效工作;如果數(shù)據(jù)是有序的,這兩個(gè)操作符就會(huì)有些浪費(fèi)。假設(shè)有一個(gè)存有學(xué)生考試成績的數(shù)據(jù)集,需要找到其中的最高分與最低分:

> db.scores.aggregate(
... {
...     "$group" : {
...         "_id" : "$grade",
...         "lowestScore" : {"$min" : "$score"},
...         "highestScore" : {"$max" : "$score"}
...         }
... })

另一方面,如果數(shù)據(jù)集是按照希望的字段排序過的,那么"$first"和"$last"操作符就會(huì)非常有用。下面的代碼與上面的代碼可以得到同樣的結(jié)果:

> db.scores.aggregate(
... {
...     "$sort" : {"score" : 1}
... },
... {
...     "$group" : {
...         "_id" : "$grade",
...         "lowestScore" : {"$first" : "$score"},
...         "highestScore" : {"$last" : "$score"}
...     }
... })

如果數(shù)據(jù)是排過序的,那么$first和$last會(huì)比$min和$max效率更高。如果不準(zhǔn)備對數(shù)據(jù)進(jìn)行排序,那么直接使用$min和$max會(huì)比先排序再使用$first和$last效率更高。

4. 數(shù)組操作符

有兩個(gè)操作符可以進(jìn)行數(shù)組操作。

"$addToSet" : expr

如果當(dāng)前數(shù)組中不包含expr ,那就將它添加到數(shù)組中。在返回結(jié)果集中,每個(gè)元素最多只出現(xiàn)一次,而且元素的順序是不確定的。

"$push" : expr

不管expr是什么值,都將它添加到數(shù)組中。返回包含所有值的數(shù)組。

5. 分組行為

有兩個(gè)操作符不能用前面介紹的流式工作方式對文檔進(jìn)行處理,"$group"是其中之一。大部分操作符的工作方式都是流式的,只要有新文檔進(jìn)入,就可以對新文檔進(jìn)行處理,但是"$group"必須要等收到所有的文檔之后,才能對文檔進(jìn)行分組,然后才能將各個(gè)分組發(fā)送給管道中的下一個(gè)操作符。這意味著,在分片的情況下,"$group"會(huì)先在每個(gè)分片上執(zhí)行,然后各個(gè)分片上的分組結(jié)果會(huì)被發(fā)送到mongos再進(jìn)行最后的統(tǒng)一分組,剩余的管道工作也都是在mongos(而不是在分片)上運(yùn)行的。

 $unwind

拆分(unwind)可以將數(shù)組中的每一個(gè)值拆分為多帶帶的文檔。例如,如果有一篇擁有多條評論的博客文章,可以使用$unwind將每條評論拆分為一個(gè)獨(dú)立的文檔:

> db.blog.findOne()
{
    "_id" : ObjectId("50eeffc4c82a5271290530be"),
    "author" : "k",
    "post" : "Hello, world!",
    "comments" : [
        {
            "author" : "mark",
            "date" : ISODate("2013-01-10T17:52:04.148Z"),
            "text" : "Nice post"
        },
        {
            "author" : "bill",
            "date" : ISODate("2013-01-10T17:52:04.148Z"),
            "text" : "I agree"
        }
    ]
}
> db.blog.aggregate({"$unwind" : "$comments"})
{
    "results" :
        {
            "_id" : ObjectId("50eeffc4c82a5271290530be"),
            "author" : "k",
            "post" : "Hello, world!",
            "comments" : {
                "author" : "mark",
                "date" : ISODate("2013-01-10T17:52:04.148Z"),
                "text" : "Nice post"
            }
        },
        {
            "_id" : ObjectId("50eeffc4c82a5271290530be"),
            "author" : "k",
            "post" : "Hello, world!",
            "comments" : {
                "author" : "bill",
                "date" : ISODate("2013-01-10T17:52:04.148Z"),
                "text" : "I agree"
            }
        }
    ],
    "ok" : 1
}

如果希望在查詢中得到特定的子文檔,這個(gè)操作符就會(huì)非常有用:先使用"$unwind"得到所有子文檔,再使用"$match"得到想要的文檔。例如,如果要得到特定用戶的所有評論(只需要得到評論,不需要返回評論所屬的文章),使用普通的查詢是不可能做到的。但是,通過提取、拆分、匹配,就很容易了:

> db.blog.aggregate({"$project" : {"comments" : "$comments"}},
... {"$unwind" : "$comments"},
... {"$match" : {"comments.author" : "Mark"}})

由于最后得到的結(jié)果仍然是一個(gè)"comments"子文檔,所以你可能希望再做一次投射,以便讓輸出結(jié)果更優(yōu)雅。

$sort

可以根據(jù)任何字段(或者多個(gè)字段)進(jìn)行排序,與在普通查詢中的語法相同。如果要對大量的文檔進(jìn)行排序,強(qiáng)烈建議在管道的第一階段進(jìn)行排序,這時(shí)的排序操作可以使用索引。否則,排序過程就會(huì)比較慢,而且會(huì)占用大量內(nèi)存。
可以在排序中使用文檔中實(shí)際存在的字段,也可以使用在投射時(shí)重命名的字段:

> db.employees.aggregate(
... {
...     "$project" : {
...         "compensation" : {
...             "$add" : ["$salary", "$bonus"]
...         },
...         "name" : 1
...     }
... },
... {
...     "$sort" : {"compensation" : -1, "name" : 1}
... })

這個(gè)例子會(huì)對員工排序,最終的結(jié)果是按照報(bào)酬從高到低,姓名從A到Z的順序排列。
排序方向可以是1(升序)和-1(降序)。
與前面講過的"$group"一樣,"$sort"也是一個(gè)無法使用流式工作方式的操作符。"$sort"也必須要接收到所有文檔之后才能進(jìn)行排序。在分片環(huán)境下,先在各個(gè)分片上進(jìn)行排序,然后將各個(gè)分片的排序結(jié)果發(fā)送到mongos做進(jìn)一步處理。

 $limit

$limit會(huì)接受一個(gè)數(shù)字n,返回結(jié)果集中的前n個(gè)文檔。

 $skip

$skip也是接受一個(gè)數(shù)字n,丟棄結(jié)果集中的前n個(gè)文檔,將剩余文檔作為結(jié)果返回。在“普通”查詢中,如果需要跳過大量的數(shù)據(jù),那么這個(gè)操作符的效率會(huì)很低。在聚合中也是如此,因?yàn)樗仨氁绕ヅ涞剿行枰^的文檔,然后再將這些文檔丟棄。

 使用管道

應(yīng)該盡量在管道的開始階段(執(zhí)行"$project"、"$group"或者"$unwind"操作之前)就將盡可能多的文檔和字段過濾掉。管道如果不是直接從原先的集合中使用數(shù)據(jù),那就無法在篩選和排序中使用索引。如果可能,聚合管道會(huì)嘗試對操作進(jìn)行排序,以便能夠有效使用索引。
MongoDB不允許單一的聚合操作占用過多的系統(tǒng)內(nèi)存:如果MongoDB發(fā)現(xiàn)某個(gè)聚合操作占用了20%以上的內(nèi)存,這個(gè)操作就會(huì)直接輸出錯(cuò)誤。允許將輸出結(jié)果利用管道放入一個(gè)集合中是為了方便以后使用(這樣可以將所需的內(nèi)存減至最小)。
如果能夠通過"$match"操作迅速減小結(jié)果集的大小,就可以使用管道進(jìn)行實(shí)時(shí)聚合。由于管道會(huì)不斷包含更多的文檔,會(huì)越來越復(fù)雜,所以幾乎不可能實(shí)時(shí)得到管道的操作結(jié)果。

上一篇文章:MongoDB指南---15、特殊的索引和集合:地理空間索引、使用GridFS存儲文件
下一篇文章:MongoDB指南---17、MapReduce

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/44092.html

相關(guān)文章

  • MongoDB指南---16聚合

    摘要:將返回結(jié)果限制為前個(gè)。所以,聚合的結(jié)果必須要限制在以內(nèi)支持的最大響應(yīng)消息大小。包含字段和排除字段的規(guī)則與常規(guī)查詢中的語法一致。改變字符大小寫的操作,只保證對羅馬字符有效。只對羅馬字符組成的字符串有效。 上一篇文章:MongoDB指南---15、特殊的索引和集合:地理空間索引、使用GridFS存儲文件下一篇文章:MongoDB指南---17、MapReduce 如果你有數(shù)據(jù)存儲在Mon...

    Keagan 評論0 收藏0
  • MongoDB指南---17、MapReduce

    摘要:操作花費(fèi)的時(shí)間,單位是毫秒。處理完成后,會(huì)自動(dòng)將臨時(shí)集合的名字更改為你指定的集合名,這個(gè)重命名的過程是原子性的。作用域在這些函數(shù)內(nèi)部是不變的。上一篇文章指南聚合下一篇文章指南聚合命令 上一篇文章:MongoDB指南---16、聚合下一篇文章:MongoDB指南---18、聚合命令 MapReduce是聚合工具中的明星,它非常強(qiáng)大、非常靈活。有些問題過于復(fù)雜,無法使用聚合框架的查詢語言...

    jonh_felix 評論0 收藏0
  • MongoDB指南---17、MapReduce

    摘要:操作花費(fèi)的時(shí)間,單位是毫秒。處理完成后,會(huì)自動(dòng)將臨時(shí)集合的名字更改為你指定的集合名,這個(gè)重命名的過程是原子性的。作用域在這些函數(shù)內(nèi)部是不變的。上一篇文章指南聚合下一篇文章指南聚合命令 上一篇文章:MongoDB指南---16、聚合下一篇文章:MongoDB指南---18、聚合命令 MapReduce是聚合工具中的明星,它非常強(qiáng)大、非常靈活。有些問題過于復(fù)雜,無法使用聚合框架的查詢語言...

    pubdreamcc 評論0 收藏0
  • MongoDB指南---1、MongoDB簡介

    摘要:不采用關(guān)系模型主要是為了獲得更好的擴(kuò)展性。易于擴(kuò)展應(yīng)用程序數(shù)據(jù)集的大小正在以不可思議的速度增長。過去非常罕見的級別數(shù)據(jù),現(xiàn)在已是司空見慣了。這種精簡方式的設(shè)計(jì)是能夠?qū)崿F(xiàn)如此高性能的原因之一。下一篇文章指南基礎(chǔ)知識文檔集合數(shù)據(jù)庫客戶端 下一篇文章:MongoDB指南---2、MongoDB基礎(chǔ)知識-文檔、集合、數(shù)據(jù)庫、客戶端 MongoDB是一款強(qiáng)大、靈活,且易于擴(kuò)展的通用型數(shù)據(jù)庫。它...

    VPointer 評論0 收藏0
  • MongoDB指南---1、MongoDB簡介

    摘要:不采用關(guān)系模型主要是為了獲得更好的擴(kuò)展性。易于擴(kuò)展應(yīng)用程序數(shù)據(jù)集的大小正在以不可思議的速度增長。過去非常罕見的級別數(shù)據(jù),現(xiàn)在已是司空見慣了。這種精簡方式的設(shè)計(jì)是能夠?qū)崿F(xiàn)如此高性能的原因之一。下一篇文章指南基礎(chǔ)知識文檔集合數(shù)據(jù)庫客戶端 下一篇文章:MongoDB指南---2、MongoDB基礎(chǔ)知識-文檔、集合、數(shù)據(jù)庫、客戶端 MongoDB是一款強(qiáng)大、靈活,且易于擴(kuò)展的通用型數(shù)據(jù)庫。它...

    guyan0319 評論0 收藏0

發(fā)表評論

0條評論

最新活動(dòng)
閱讀需要支付1元查看
<