Pattern Tokenizer · my-elasticsearch-cn

# Pattern Tokenizer **Pattern Tokenizer?**使用正則表達式分割文本。遇到單詞分隔符將文本分割為詞元，或者將捕獲到匹配的文本作為詞元。默認的匹配模式時 ??\W+ ，遇到非單詞的字符時分割文本。謹防病態的正則表達式 **Pattern Tokenizer?**使用?[Java 正則表達式](http://docs.oracle.com/javase/8/docs/api/java/util/regex/Pattern.html)?。一個書寫不當的正則表達式會導致運行緩慢，甚至拋出StackOverflowError 導致運行中的節點突然退出。查看更多關于[?病態的正則表達式和如何避免。](http://www.regular-expressions.info/catastrophic.html) ## **輸出示例** | `POST _analyze` `{` `"tokenizer"``:?``"pattern"``,` `"text"``:?``"The foo_bar_size's default is 5."` `}` | 上面的句子會生成如下的詞元： | `[ The, foo_bar_size, s, default, is, 5 ]` | ## **配置** **Pattern Tokenizer?**有以下參數： | `pattern` | [Java 正則表達式](http://docs.oracle.com/javase/8/docs/api/java/util/regex/Pattern.html)?。默認是?`\W+ 。` | | `flags` | Java正則表達式?[flags](http://docs.oracle.com/javase/8/docs/api/java/util/regex/Pattern.html#field.summary). flag之間用管道分隔，如`"CASE_INSENSITIVE|COMMENTS"。` | | `group` | 將哪個捕獲分組作為詞元。默認是 -1。 | ## **配置示例** 下面的例子中，我們配置?**Pattern Tokenizer?**遇到逗號時分隔文本。 | `PUT my_index` `{` `"settings"``: {` `"analysis"``: {` `"analyzer"``: {` `"my_analyzer"``: {` `"tokenizer"``:?``"my_tokenizer"` `}` `},` `"tokenizer"``: {` `"my_tokenizer"``: {` `"type"``:?``"pattern"``,` `"pattern"``:?``","` `}` `}` `}` `}` `}` `POST my_index``/_analyze` `{` `"analyzer"``:?``"my_analyzer"``,` `"text"``:?``"comma,separated,values"` `}` | 輸出為： | `[ comma, separated, values ]` | 在下一個例子中，我們配置?**Pattern Tokenizer?**遇到雙引號( 忽視轉義的引號 \" ) 時捕獲分組。正則表達式如下： | `"((?:\\"``|[^``"]|\\"``)*)"` | 解釋： * 起始的引號 " * 開始捕獲 * 一個 \" ?或者其他非" 的字符 * 重復直到無法匹配更多的字符 * 結束的引號在寫入到 JSON 中，**?"**?和?**\**?需要轉義，因此表達式最終為: | `\"((?:\\\\\"|[^\"]|\\\\\")+)\"` | | `PUT my_index` `{` `"settings"``: {` `"analysis"``: {` `"analyzer"``: {` `"my_analyzer"``: {` `"tokenizer"``:?``"my_tokenizer"` `}` `},` `"tokenizer"``: {` `"my_tokenizer"``: {` `"type"``:?``"pattern"``,` `"pattern"``:?``"\"((?:\\\\\"|[^\"]|\\\\\")+)\""``,` `"group"``: 1` `}` `}` `}` `}` `}` `POST my_index``/_analyze` `{` `"analyzer"``:?``"my_analyzer"``,` `"text"``:?``"\"value\", \"value with embedded \\\" quote\""` `}` | 輸出為： | `[ value, value with embedded \" quote ]` |