內置分析器 · Elasticsearch7.x

Elasticsearch 還附帶了可以直接使用的預包裝的分析器。接下來我們會列出最重要的分析器。為了證明它們的差異，我們看看每個分析器會從下面的字符串得到哪些詞條： ``` Set the shape to semi-transparent by calling set_trans(5) ``` **1. 標準分析器** 標準分析器是 Elasticsearch 默認使用的分析器。它是分析各種語言文本最常用的選擇。它根據 Unicode 聯盟定義的單詞邊界劃分文本。刪除絕大部分標點。最后將詞條小寫。它會產生： ``` set, the, shape, to, semi, transparent, by, calling, set_trans, 5 ``` **2. 簡單分析器** 簡單分析器在任何不是字母的地方分隔文本，將詞條小寫。它會產生： ``` set, the, shape, to, semi, transparent, by, calling, set, trans ``` **3. 空格分析器** 空格分析器在空格的地方劃分文本。它會產生： ``` Set, the, shape, to, semi-transparent, by, calling, set_trans(5) ``` **4. 語言分析器** 特定語言分析器可用于很多語言。它們可以考慮指定語言的特點。例如，英語分析器附帶了一組英語無用詞（常用單詞，例如 and 或者 the ，它們對相關性沒有多少影響），它們會被刪除。由于理解英語語法的規則，這個分詞器可以提取英語單詞的詞干。英語分詞器會產生下面的詞條： ``` set, shape, semi, transpar, call, set_tran, 5 ``` 注意看 transparent、 calling 和 set_trans 已經變為詞根格式。