Classic Tokenizer · Elasticsearch 5.4 中文文檔

# Classic Tokenizer **`classic`?tokenizer**?是一種基于語法的標記器，適用于英文文檔。該標記器啟發式地特殊處理了首字母縮略詞、公司名稱、電子郵件地址和互聯網主機名。但是，這些規則并不總是起作用，而且除了英文之外，大多數語言中并不能正常工作： * 它以大多數標點符號分割字詞，刪除標點符號。不過，后面沒有空格的點被認為是 **token** 的一部分。 * 它以連字符分隔單詞。除非 **token** 中有一個數字，在這種情況下，整個 **token** 將被解釋為產品編號，并且不分割。 * 它將電子郵件地址和互聯網主機名識別為一個詞元。原文鏈接 : [https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-classic-tokenizer.html](https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-classic-tokenizer.html) 譯文鏈接 : [http://www.apache.wiki/display/Elasticsearch/Classic+Tokenizer](http://www.apache.wiki/display/Elasticsearch/Classic+Tokenizer) 貢獻者 : [陳益雷](/display/~chenyilei)，[ApacheCN](/display/~apachecn)，[Apache中文網](/display/~apachechina) ## **輸出示例** ``` POST _analyze { "tokenizer": "classic", "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone." } ``` 上面的句子會生成如下的詞元： ``` [ The, 2, QUICK, Brown, Foxes, jumped, over, the, lazy, dog's, bone ] ``` ## **配置** **Classic Tokenizer** ?接受以下參數： _**max_token_length**_ ? 單個?token 的最大長度。如果一個 token 超過這個長度，則以??`max_token_length 為間隔分割。默認值是`?`255`.。 ## **配置示例** 下面的例子中，我們配置 **Classic Tokenizer?**的??`_**max_token_length**_?為 5 (便于展示)：` ``` PUT my_index { "settings": { "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "my_tokenizer" } }, "tokenizer": { "my_tokenizer": { "type": "classic", "max_token_length": 5 } } } } } POST my_index/_analyze { "analyzer": "my_analyzer", "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone." } ``` 輸出如下： ``` [ The, 2, QUICK, Brown, Foxes, jumpe, d, over, the, lazy, dog's, bone ] ```