Term suggester · my-elasticsearch-cn

# Term suggester 術語?**suggester**?建議基于編輯距離的術語。在術語?**suggested**?之前分析所提供的?**suggest**?文本。根據分析的?**suggest**?文本?**token**提供?**suggest**?的術語。術語?**suggester**?不考慮作為請求的一部分的查詢。 ## 常見的 suggest 選項 | **test** | **suggest**?文本，**suggest**?文本是必須選項，需要被設定為全局或者對每個?**suggestion**。 | | **field** | 從中獲取候選?**suggestions**?的字段（**field**）。這是必需的選項，需要設置為全局或按?**suggestion**?設置。 | | **analyzer** | **analyzer**?跟?**suggest**?文本一起進行分析，默認為?**suggest**?字段的搜索?**analyzer。** | | **size** | 每個?**suggest**?文本標記（**token**）返回的最大更正值。 | | **sort** | 定義每個?**suggest**?文本術語中?**suggestions**?該如何排序。兩個可能的值： * **score**：先按照分數排序，然后按文檔頻率排序，然后是術語本身。 * **frequency**：按文檔頻率排序，然后依次選擇相似性分數和術語本身。 | | **suggest_mode** | **suggest_mode?**控制什么?**suggestions**?被包括或控制什么?**suggest**?文本術語，什么?**suggestions**?應該被**suggested**。可以指定三個可能的值： * **missing**：只提供不在索引中的?**suggest**?文字字詞的?**suggestion**?。這是默認值。 * **popular**：只?**suggest**?出現在更多文檔中的?**suggestions**，而不是原始**?suggest**?文本術語。 * **always**：根據?**suggest**?文字中的字詞?**suggest**?任何相符的?**suggestions。** | ## 其他術語 suggest 選項： | **lowercase_terms** | 在文本分析后的小寫?**suggest**?文本術語。 | | **max_edits** | 可以認為是候選?**suggestions**?的最大編輯距離。只能是介于1和2之間的值。任何其他值都會導致拋出錯誤的請求錯誤。默認為2。 | | **prefix_length** | 為了成為候選 suggestions 所必須匹配的最小前綴字符的數量。默認值為1.增加此數字可提高拼寫檢查性能。通常拼寫錯誤不會出現在術語的開頭。（舊名稱 “**prefix_len**” 已棄用） | | **min_word_length** | suggest 文本術語必須包含的最小長度。默認值為4.（舊名稱 “**min_word_len**” 已棄用） | | **shard_size** | 設置要從每個單獨的分片檢索的 suggestions 的最大數量。在減少階段期間，僅基于?**size**?選項返回前N個**suggestions。**?默認為?**size**?選項。將其設置為大于該?**size**?的值可以是有用的，以便以性能為代價獲得更準確的拼寫校正的文檔頻率。由于術語在分片之間分割的事實，拼寫校正的分片級文檔頻率可能不精確。增加這將使這些文檔頻率更精確。 | | **max_inspections** | 用于乘以?**shards_size**?以便在碎片級別上檢查更多候選拼寫校正的因子。可以以性能為代價提高精度。默認為5。 | | **min_doc_freq** | **suggestion**?應該出現的文檔數量的最小閾值。這可以指定為絕對數字或文檔數量的相對百分比。這可以通過僅?**suggesting**?高頻項來提高質量。默認值為?**0f**?，未啟用。如果指定的值大于1，則該數字不能為小數。分片級文檔頻率用于此選項。 | | **max_term_freq** | **suggest**?文本標記可以存在的文檔數量中的最大閾值，以便包括。可以是表示文檔頻率的相對百分比數字（例如0.4）或絕對數字。如果指定的值大于1，則不能指定小數。默認為?**0.01f**。這可以用于排除高頻術語的拼寫檢查。高頻項通常拼寫正確，這也提高了拼寫檢查的性能。分片級文檔頻率用于此選項。 | | **string_distance** | 使用哪個字符串距離實現來比較類似的?**suggested**?術語。可以指定五個可能的值：?**internal -**?基于**damerau_levenshtein**?的默認值，但是高度優化用于比較索引中的項的字符串距離。**damerau_levenshtein -?**基于?**Damerau-Levenshtein**?算法的字符串距離算法。?**levenstein -**?基于**Levenstein**?編碼距離算法的字符串距離算法。?**jarowinkler -**?基于**?Jaro-Winkler**?算法的字符串距離算法。**ngram -**?基于字符?**n-gram**?的字符串距離算法。 |