NGram Tokenizer · Elasticsearch 5.4 中文文檔

# NGram Tokenizer **ngram?tokenizer**?遇到指定的字符（如 : 空白、標點）時分割文本，然后返回指定長度的每個單詞的?[N-grams](https://en.wikipedia.org/wiki/N-gram)。 N-grams?就像一個滑動窗口在單詞上移動，是一個連續的指定長度的字符序列。?通常用于查詢不使用空格或具有較長復合詞（如德語）的語言。原文鏈接 : [https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-ngram-tokenizer.html](https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-ngram-tokenizer.html) 譯文鏈接 : [http://www.apache.wiki/display/Elasticsearch/NGram+Tokenizer](http://www.apache.wiki/display/Elasticsearch/NGram+Tokenizer) 貢獻者 : [陳益雷](/display/~chenyilei)，[ApacheCN](/display/~apachecn)，[Apache中文網](/display/~apachechina) ## **輸出示例** 使用默認設置，**ngram tokenizer** 將初始文本視為單個詞元，并生成最小長度為1且最大長度為2的 N-gram： ``` POST _analyze { "tokenizer": "ngram", "text": "Quick Fox" } ``` 上面的句子會生成如下的詞元: ``` [ Q, Qu, u, ui, i, ic, c, ck, k, "k ", " ", " F", F, Fo, o, ox, x ] ``` ## **配置** **ngram tokenizer** 接受以下參數： _**min_gram**_ ? ? ??以 gram 為單位的最小字符長度。默認為1。 _**max_gram ? ? ?**_以 gram 為單位的最大字符長度。默認為2。 _**token_chars ??**_應包含在詞元中的字符類。 Elasticsearch將分割不屬于指定類的字符。默認為[]（保留所有字符）。 ? ? ? ? ? ? ? ? ? ? ? ? 字符類可能是以下任何一種： * 單詞 ?- 例如a，b，?或京 * 數字 ?- 例如3或7 * 空格 ?- 例如“”或“\ n” * 標點符號 ?- 例如！要么 ” * 符號 ?- 例如$或√ 提示 It usually makes sense to set min_gram and max_gram to the same value. The smaller the length, the more documents will match but the lower the quality of the matches. The longer the length, the more specific the matches. A tri-gram (length 3) is a good place to start. 通常，將 _**min_gram**_ 和 _**max_gram**_ 設為同樣的值。值越小，匹配到的文檔越多，但是匹配的質量越差。值越大，越能匹配到指定的文檔。 3 是一個不錯的初始值。 ## **配置示例** 下面的例子中，我們配置?**ngram tokenizer** 處理單詞和數字，生成??tri-grams (grams 為?`3`): ``` PUT my_index { "settings": { "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "my_tokenizer" } }, "tokenizer": { "my_tokenizer": { "type": "ngram", "min_gram": 3, "max_gram": 3, "token_chars": [ "letter", "digit" ] } } } } } POST my_index/_analyze { "analyzer": "my_analyzer", "text": "2 Quick Foxes." } ``` 輸出為： ``` [ Qui, uic, ick, Fox, oxe, xes ] ```