Word Delimiter Token Filter · my-elasticsearch-cn

# Word Delimiter Token Filter（Word Delimiter 詞元過濾器）命名為 word_delimiter，它將單詞分解為子詞，并對子詞組進行可選的轉換。詞被分為以下規則的子詞： * 拆分字內分隔符（默認情況下，所有非字母數字字符）。. * "Wi-Fi" → "Wi", "Fi" * 按大小寫轉換拆分: "PowerShot" → "Power", "Shot" * 按字母數字轉換拆分: "SD500" → "SD", "500" * 每個子詞的前導和尾隨的詞內分隔符都被忽略: "//hello---there,?*dude*" → "hello", "there", "dude" * 每個子詞都刪除尾隨的“s”: "O’Neil’s" → "O", "Neil" 參數包括： **generate_word_parts** **true**?導致生成單詞部分："PowerShot" ? "Power" "Shot"。默認?**true** **generate_number_parts** **true?**導致生成數字子詞："500-42" ? "500" "42"。默認?**true** **catenate_numbers** ****true?****導致單詞最大程度的鏈接到一起："wi-fi" ? "wifi"。默認?**false** **catenate_numbers** ******true?******導致數字最大程度的連接到一起："500-42" ? "50042"。默認?**false** **catenate_all** ********true?********導致所有的子詞可以連接："wi-fi-4000" ? "wifi4000"。默認?**false** **split_on_case_change** **true?**導致?"PowerShot" 作為兩個詞元（"Power-Shot" 作為兩部分看待）。默認?**true** **preserve_original** **true?**在子詞中保留原始詞：?"500-42" ? "500-42" "500" "42"。默認?**false** **split_on_numerics** **true?**導致?"j2se" 成為三個詞元：?"j" "2" "se"。默認?**true** **stem_english_possessive** **true?**導致每個子詞中的?"'s" 都會被移除："O’Neil’s" ? "O", "Neil"。默認?**true** 高級設置： **protected_words** 被分隔時的受保護詞列表。一個數組，或者也可以將**protected_words_path**?設置為配置有保護字的文件（每行一個）。如果存在，則自動解析為基于?**config/**?位置的位置。 **type_table** 例如，自定義類型映射表（使用?**type_table_path**?配置時）： ? | `# Map the $, %,?``'.'``, and?``','`?`characters to DIGIT` `# This might be useful?``for`?`financial data.` `$ => DIGIT` `% => DIGIT` `. => DIGIT` `\\u002C => DIGIT` `# in some cases you might not want to split on ZWJ` `#?``this`?`also tests the?``case`?`where we need a bigger?``byte``[]` `# see http:``//en.wikipedia.org/wiki/Zero-width_joiner` `\\u200D => ALPHANUM` | **提示：** 使用像?**`standard`****?tokenizer**?的?**tokenizer**?可能會干擾?**catenate_ ***?和**preserve_original**?參數，因為原始字符串在分詞期間可能已經丟失了標點符號。相反，您可能需要使用?**`whitespace?`tokenizer**。