Sampler Aggregation · Elasticsearch 5.4 中文文檔

# Sampler Aggregation 原文鏈接 : [https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-sampler-aggregation.html](https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-sampler-aggregation.html) 譯文鏈接 : [Sampler Aggregation](http://apache.wiki/display/Elasticsearch/Sampler+Aggregation) 貢獻者 : @于永超，[ApacheCN](/display/~apachecn)，[Apache中文網](/display/~apachechina) ## Sampler Aggregation 此功能是實驗性的，可能會在將來的版本中完全更改或刪除。?Elastic將采取最大努力來解決任何問題，但是實驗性的功能不受官方GA功能的支持用于將任何子聚合處理限制為最高評分文檔樣本的過濾聚合。 ## 示例用例 * 將分析的重點放在高度相關性匹配上，而不是潛在的非常長的低質量的長尾詞 * 減少聚合的運行成本，只使用樣本就能產生有用的結果 ? ? ? e.g.?`significant_terms` 例子：一個關于StackOverflow數據的查詢，用于流行的術語javascript或者更罕見的術語kibana將匹配許多文檔－－他們中的大多數缺少Kibana這個詞。要將significant_terms聚合重點放在最有可能與查詢中最有趣的部分相匹配的最高評分文檔上，我們使用如下示例 ``` POST /stackoverflow/_search?size=0 { "query": { "query_string": { "query": "tags:kibana OR tags:javascript" } }, "aggs": { "sample": { "sampler": { "shard_size": 200 }, "aggs": { "keywords": { "significant_terms": { "field": "tags", "exclude": ["kibana", "javascript"] } } } } } } ``` 響應： ``` { ... "aggregations": { "sample": { "doc_count": 1000, ＃1 "keywords": { "doc_count": 1000, "buckets": [ { "key": "elasticsearch", "doc_count": 150, "score": 1.078125, "bg_count": 200 }, { "key": "logstash", "doc_count": 50, "score": 0.5625, "bg_count": 50 } ] } } } } ``` ＃1 ??共有1000份文件被抽樣，因為我們從5個碎片的索引中要求最多200個。因此，執行嵌套的significant_terms聚合的成本是有限的，而不是無限制的。如果沒有sampler聚合，請求查詢就會考慮到低質量匹配的完整“長尾”，因此不確定諸如jquery和angular等重要術語，而不是關注更有洞察力的kibana相關術語。 ``` POST /stackoverflow/_search?size=0 { "query": { "query_string": { "query": "tags:kibana OR tags:javascript" } }, "aggs": { "low_quality_keywords": { "significant_terms": { "field": "tags", "size": 3, "exclude":["kibana", "javascript"] } } } } ``` ?響應： ``` { ... "aggregations": { "low_quality_keywords": { "doc_count": 1000, "buckets": [ { "key": "angular", "doc_count": 200, "score": 0.02777, "bg_count": 200 }, { "key": "jquery", "doc_count": 200, "score": 0.02777, "bg_count": 200 }, { "key": "logstash", "doc_count": 50, "score": 0.0069, "bg_count": 50 } ] } } } ``` ### shard_size shard_size參數限制在每個分片上處理的樣本中收集的頂級評分文檔數量。默認值為100。 ### Limitations 不能嵌套在breadth_first聚合下作為一個基于質量的過濾器，sampler聚合需要訪問為每個文檔生成的相關性分數。因此，它不能嵌套在具有collect_mode從默認depth_first模式切換到breadth_first的術語聚合，因為這丟棄分數。在這種情況下，會拋出一個錯誤。