<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                合規國際互聯網加速 OSASE為企業客戶提供高速穩定SD-WAN國際加速解決方案。 廣告
                # Word Delimiter Token Filter(Word Delimiter 詞元過濾器) 原文鏈接 : [https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-word-delimiter-tokenfilter.html](https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-word-delimiter-tokenfilter.html) 譯文鏈接 : [http://www.apache.wiki/pages/viewpage.action?pageId=10028522](http://www.apache.wiki/pages/viewpage.action?pageId=10028522) 貢獻者 : [fucker](/display/~caizhongjie),[ApacheCN](/display/~apachecn),[Apache中文網](/display/~apachechina) ``` 命名為 word_delimiter,它將單詞分解為子詞,并對子詞組進行可選的轉換。 詞被分為以下規則的子詞: ``` * 拆分字內分隔符(默認情況下,所有非字母數字字符)。. * "Wi-Fi" → "Wi", "Fi" * 按大小寫轉換拆分: "PowerShot" → "Power", "Shot" * 按字母數字轉換拆分: "SD500" → "SD", "500" * 每個子詞的前導和尾隨的詞內分隔符都被忽略: "//hello---there,?_dude_" → "hello", "there", "dude" * 每個子詞都刪除尾隨的“s”: "O’Neil’s" → "O", "Neil" 參數包括: **generate_word_parts** **true**?導致生成單詞部分:"PowerShot" ? "Power" "Shot"。默認?**true** **generate_number_parts** **true?**導致生成數字子詞:"500-42" ? "500" "42"。默認?**true** **catenate_numbers** ****true?****導致單詞最大程度的鏈接到一起:"wi-fi" ? "wifi"。默認?**false** **catenate_numbers** ******true?******導致數字最大程度的連接到一起:"500-42" ? "50042"。默認?**false** **catenate_all** ********true?********導致所有的子詞可以連接:"wi-fi-4000" ? "wifi4000"。默認?**false** **split_on_case_change** **true?**導致?"PowerShot" 作為兩個詞元("Power-Shot" 作為兩部分看待)。默認?**true** **preserve_original** **true?**在子詞中保留原始詞:?"500-42" ? "500-42" "500" "42"。默認?**false** **split_on_numerics** **true?**導致?"j2se" 成為三個詞元:?"j" "2" "se"。默認?**true** **stem_english_possessive** **true?**導致每個子詞中的?"'s" 都會被移除:"O’Neil’s" ? "O", "Neil"。默認?**true** 高級設置: **protected_words** 被分隔時的受保護詞列表。 一個數組,或者也可以將 **protected_words_path** 設置為配置有保護字的文件(每行一個)。 如果存在,則自動解析為基于 **config/** 位置的位置。 **type_table** 例如,自定義類型映射表(使用 **type_table_path** 配置時): ``` # Map the $, %, '.', and ',' characters to DIGIT # This might be useful for financial data. $ =&gt; DIGIT % =&gt; DIGIT . =&gt; DIGIT \\u002C =&gt; DIGIT # in some cases you might not want to split on ZWJ # this also tests the case where we need a bigger byte[] # see http://en.wikipedia.org/wiki/Zero-width_joiner \\u200D =&gt; ALPHANUM ``` **提示:** 使用像?**`standard`****?tokenizer**?的 **tokenizer** 可能會干擾 **catenate_ *** 和 **preserve_original** 參數,因為原始字符串在分詞期間可能已經丟失了標點符號。 相反,您可能需要使用?**`whitespace?`tokenizer**。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看