語言分析器 · Elasticsearch 5.4 中文文檔

# 語言分析器原文鏈接 : [https://www.elastic.co/guide/en/elasticsearch/reference/5.3/getting-started.html](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/getting-started.html)（修改該鏈接為官網對應的鏈接）譯文鏈接 : [http://www.apache.wiki/display/Elasticsearch](http://www.apache.wiki/display/Elasticsearch)（修改該鏈接為 **ApacheCN** 對應的譯文鏈接）貢獻者 : [╮欠n1的太多](/display/~wuhongzhou)，[ApacheCN](/display/~apachecn)，[Apache中文網](/display/~apachechina) 一組用于分析特定語言文本的分析器。支持以下類型：[`arabic`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#arabic-analyzer "arabic analyzer"),?[`armenian`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#armenian-analyzer "armenian analyzer"),?[`basque`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#basque-analyzer "basque analyzer"),?[`brazilian`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#brazilian-analyzer "brazilian analyzer"),?[`bulgarian`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#bulgarian-analyzer "bulgarian analyzer"),?[`catalan`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#catalan-analyzer "catalan analyzer"),?[`cjk`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#cjk-analyzer "cjk analyzer"),[`czech`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#czech-analyzer "czech analyzer"),?[`danish`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#danish-analyzer "danish analyzer"),?[`dutch`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#dutch-analyzer "dutch analyzer"),?[`english`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#english-analyzer "english analyzer"),?[`finnish`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#finnish-analyzer "finnish analyzer"),?[`french`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#french-analyzer "french analyzer"),?[`galician`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#galician-analyzer "galician analyzer"),?[`german`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#german-analyzer "german analyzer"),?[`greek`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#greek-analyzer "greek analyzer"),?[`hindi`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#hindi-analyzer "hindi analyzer"),[`hungarian`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#hungarian-analyzer "hungarian analyzer"),?[`indonesian`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#indonesian-analyzer "indonesian analyzer"),?[`irish`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#irish-analyzer "irish analyzer"),?[`italian`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#italian-analyzer "italian analyzer"),?[`latvian`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#latvian-analyzer "latvian analyzer"),?[`lithuanian`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#lithuanian-analyzer "lithuanian analyzer"),?[`norwegian`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#norwegian-analyzer "norwegian analyzer"),?[`persian`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#persian-analyzer "persian analyzer"),[`portuguese`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#portuguese-analyzer "portuguese analyzer"),?[`romanian`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#romanian-analyzer "romanian analyzer"),?[`russian`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#russian-analyzer "russian analyzer"),?[`sorani`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#sorani-analyzer "sorani analyzer"),?[`spanish`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#spanish-analyzer "spanish analyzer"),?[`swedish`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#swedish-analyzer "swedish analyzer"),?[`turkish`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#turkish-analyzer "turkish analyzer"),?[`thai`](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lang-analyzer.html#thai-analyzer "thai analyzer"). ## **配置語言分析儀** ### Stopwords(停止詞) ?所有分析儀都支持在配置內部設置自定義停用詞，也可以通過設置stopwords_path來使用外部的停用詞。檢查Stop Analyzer了解更多詳細信息。 ### Excluding words from stemming(排除詞干) stem_exclusion參數允許您指定不應該被阻止的小寫字母數組。在內部，通過將關鍵字設置為該值的keyword_marker token filter?來實現此功能 ### Reimplementing language analyzers（重新實現語言分析器） ? 內置語言分析器可以作為custom analyzers（如下所述）重新實現，以便自定義其行為。 ? ? **?筆記：**如果您不打算排除單詞被干擾（相當于上面的stem_exclusion參數），那么您應該從custom analyzer配置中刪除keyword_marker token filter。 ## `**arabic 分析器**?` arabic 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "arabic_stop": { "type": "stop", "stopwords": "_arabic_" }, "arabic_keywords": { "type": "keyword_marker", "keywords": [] }, "arabic_stemmer": { "type": "stemmer", "language": "arabic" } }, "analyzer": { "arabic": { "tokenizer": "standard", "filter": [ "lowercase", "arabic_stop", "arabic_normalization", "arabic_keywords", "arabic_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## armenian 分析器 ?分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "armenian_stop": { "type": "stop", "stopwords": "_armenian_" }, "armenian_keywords": { "type": "keyword_marker", "keywords": [] }, "armenian_stemmer": { "type": "stemmer", "language": "armenian" } }, "analyzer": { "armenian": { "tokenizer": "standard", "filter": [ "lowercase", "armenian_stop", "armenian_keywords", "armenian_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## basque分析器 ?basque 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "basque_stop": { "type": "stop", "stopwords": "_basque_" }, "basque_keywords": { "type": "keyword_marker", "keywords": [] }, "basque_stemmer": { "type": "stemmer", "language": "basque" } }, "analyzer": { "basque": { "tokenizer": "standard", "filter": [ "lowercase", "basque_stop", "basque_keywords", "basque_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## brazilian分析器 ?brazilian 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "brazilian_stop": { "type": "stop", "stopwords": "_brazilian_" }, "brazilian_keywords": { "type": "keyword_marker", "keywords": [] }, "brazilian_stemmer": { "type": "stemmer", "language": "brazilian" } }, "analyzer": { "brazilian": { "tokenizer": "standard", "filter": [ "lowercase", "brazilian_stop", "brazilian_keywords", "brazilian_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## bulgarian分析器 ?bulgarian 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "bulgarian_stop": { "type": "stop", "stopwords": "_bulgarian_" }, "bulgarian_keywords": { "type": "keyword_marker", "keywords": [] }, "bulgarian_stemmer": { "type": "stemmer", "language": "bulgarian" } }, "analyzer": { "bulgarian": { "tokenizer": "standard", "filter": [ "lowercase", "bulgarian_stop", "bulgarian_keywords", "bulgarian_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## catalan 分析器 ?catalan 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "catalan_elision": { "type": "elision", "articles": [ "d", "l", "m", "n", "s", "t"] }, "catalan_stop": { "type": "stop", "stopwords": "_catalan_" }, "catalan_keywords": { "type": "keyword_marker", "keywords": [] }, "catalan_stemmer": { "type": "stemmer", "language": "catalan" } }, "analyzer": { "catalan": { "tokenizer": "standard", "filter": [ "catalan_elision", "lowercase", "catalan_stop", "catalan_keywords", "catalan_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## cjk 分析器 ?cjk 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "english_stop": { "type": "stop", "stopwords": "_english_" } }, "analyzer": { "cjk": { "tokenizer": "standard", "filter": [ "cjk_width", "lowercase", "cjk_bigram", "english_stop" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## czech 分析器 ? czech 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "czech_stop": { "type": "stop", "stopwords": "_czech_" }, "czech_keywords": { "type": "keyword_marker", "keywords": [] }, "czech_stemmer": { "type": "stemmer", "language": "czech" } }, "analyzer": { "czech": { "tokenizer": "standard", "filter": [ "lowercase", "czech_stop", "czech_keywords", "czech_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## danish 分析器 ?danish 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "danish_stop": { "type": "stop", "stopwords": "_danish_" }, "danish_keywords": { "type": "keyword_marker", "keywords": [] }, "danish_stemmer": { "type": "stemmer", "language": "danish" } }, "analyzer": { "danish": { "tokenizer": "standard", "filter": [ "lowercase", "danish_stop", "danish_keywords", "danish_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## dutch分析器 ?dutch 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "dutch_stop": { "type": "stop", "stopwords": "_dutch_" }, "dutch_keywords": { "type": "keyword_marker", "keywords": [] }, "dutch_stemmer": { "type": "stemmer", "language": "dutch" }, "dutch_override": { "type": "stemmer_override", "rules": [ "fiets=>fiets", "bromfiets=>bromfiets", "ei=>eier", "kind=>kinder" ] } }, "analyzer": { "dutch": { "tokenizer": "standard", "filter": [ "lowercase", "dutch_stop", "dutch_keywords", "dutch_override", "dutch_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## english分析器 ?english 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "english_stop": { "type": "stop", "stopwords": "_english_" }, "english_keywords": { "type": "keyword_marker", "keywords": [] }, "english_stemmer": { "type": "stemmer", "language": "english" }, "english_possessive_stemmer": { "type": "stemmer", "language": "possessive_english" } }, "analyzer": { "english": { "tokenizer": "standard", "filter": [ "english_possessive_stemmer", "lowercase", "english_stop", "english_keywords", "english_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## finnish 分析器 ?finnish 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "finnish_stop": { "type": "stop", "stopwords": "_finnish_" }, "finnish_keywords": { "type": "keyword_marker", "keywords": [] }, "finnish_stemmer": { "type": "stemmer", "language": "finnish" } }, "analyzer": { "finnish": { "tokenizer": "standard", "filter": [ "lowercase", "finnish_stop", "finnish_keywords", "finnish_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## french 分析器 ?french 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "french_elision": { "type": "elision", "articles_case": true, "articles": [ "l", "m", "t", "qu", "n", "s", "j", "d", "c", "jusqu", "quoiqu", "lorsqu", "puisqu" ] }, "french_stop": { "type": "stop", "stopwords": "_french_" }, "french_keywords": { "type": "keyword_marker", "keywords": [] }, "french_stemmer": { "type": "stemmer", "language": "light_french" } }, "analyzer": { "french": { "tokenizer": "standard", "filter": [ "french_elision", "lowercase", "french_stop", "french_keywords", "french_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## galician 分析器 ?galician 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "galician_stop": { "type": "stop", "stopwords": "_galician_" }, "galician_keywords": { "type": "keyword_marker", "keywords": [] }, "galician_stemmer": { "type": "stemmer", "language": "galician" } }, "analyzer": { "galician": { "tokenizer": "standard", "filter": [ "lowercase", "galician_stop", "galician_keywords", "galician_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## german 分析器 ?german 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "german_stop": { "type": "stop", "stopwords": "_german_" }, "german_keywords": { "type": "keyword_marker", "keywords": [] }, "german_stemmer": { "type": "stemmer", "language": "light_german" } }, "analyzer": { "german": { "tokenizer": "standard", "filter": [ "lowercase", "german_stop", "german_keywords", "german_normalization", "german_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## greek 分析器 greek ?分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "greek_stop": { "type": "stop", "stopwords": "_greek_" }, "greek_lowercase": { "type": "lowercase", "language": "greek" }, "greek_keywords": { "type": "keyword_marker", "keywords": [] }, "greek_stemmer": { "type": "stemmer", "language": "greek" } }, "analyzer": { "greek": { "tokenizer": "standard", "filter": [ "greek_lowercase", "greek_stop", "greek_keywords", "greek_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## hindi 分析器 ?hindi 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "hindi_stop": { "type": "stop", "stopwords": "_hindi_" }, "hindi_keywords": { "type": "keyword_marker", "keywords": [] }, "hindi_stemmer": { "type": "stemmer", "language": "hindi" } }, "analyzer": { "hindi": { "tokenizer": "standard", "filter": [ "lowercase", "indic_normalization", "hindi_normalization", "hindi_stop", "hindi_keywords", "hindi_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## hungarian 分析器 ? hungarian 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "hungarian_stop": { "type": "stop", "stopwords": "_hungarian_" }, "hungarian_keywords": { "type": "keyword_marker", "keywords": [] }, "hungarian_stemmer": { "type": "stemmer", "language": "hungarian" } }, "analyzer": { "hungarian": { "tokenizer": "standard", "filter": [ "lowercase", "hungarian_stop", "hungarian_keywords", "hungarian_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## indonesian分析器 ? indonesian 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "indonesian_stop": { "type": "stop", "stopwords": "_indonesian_" }, "indonesian_keywords": { "type": "keyword_marker", "keywords": [] }, "indonesian_stemmer": { "type": "stemmer", "language": "indonesian" } }, "analyzer": { "indonesian": { "tokenizer": "standard", "filter": [ "lowercase", "indonesian_stop", "indonesian_keywords", "indonesian_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## irish 分析器 irish ?分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "irish_elision": { "type": "elision", "articles": [ "h", "n", "t" ] }, "irish_stop": { "type": "stop", "stopwords": "_irish_" }, "irish_lowercase": { "type": "lowercase", "language": "irish" }, "irish_keywords": { "type": "keyword_marker", "keywords": [] }, "irish_stemmer": { "type": "stemmer", "language": "irish" } }, "analyzer": { "irish": { "tokenizer": "standard", "filter": [ "irish_stop", "irish_elision", "irish_lowercase", "irish_keywords", "irish_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## italian 分析器 ?italian 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "italian_elision": { "type": "elision", "articles": [ "c", "l", "all", "dall", "dell", "nell", "sull", "coll", "pell", "gl", "agl", "dagl", "degl", "negl", "sugl", "un", "m", "t", "s", "v", "d" ] }, "italian_stop": { "type": "stop", "stopwords": "_italian_" }, "italian_keywords": { "type": "keyword_marker", "keywords": [] }, "italian_stemmer": { "type": "stemmer", "language": "light_italian" } }, "analyzer": { "italian": { "tokenizer": "standard", "filter": [ "italian_elision", "lowercase", "italian_stop", "italian_keywords", "italian_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## latvian 分析器 latvian ?分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "latvian_stop": { "type": "stop", "stopwords": "_latvian_" }, "latvian_keywords": { "type": "keyword_marker", "keywords": [] }, "latvian_stemmer": { "type": "stemmer", "language": "latvian" } }, "analyzer": { "latvian": { "tokenizer": "standard", "filter": [ "lowercase", "latvian_stop", "latvian_keywords", "latvian_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## lithuanian 分析器 lithuanian ?分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "lithuanian_stop": { "type": "stop", "stopwords": "_lithuanian_" }, "lithuanian_keywords": { "type": "keyword_marker", "keywords": [] }, "lithuanian_stemmer": { "type": "stemmer", "language": "lithuanian" } }, "analyzer": { "lithuanian": { "tokenizer": "standard", "filter": [ "lowercase", "lithuanian_stop", "lithuanian_keywords", "lithuanian_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## norwegian 分析器 ?norwegian 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "norwegian_stop": { "type": "stop", "stopwords": "_norwegian_" }, "norwegian_keywords": { "type": "keyword_marker", "keywords": [] }, "norwegian_stemmer": { "type": "stemmer", "language": "norwegian" } }, "analyzer": { "norwegian": { "tokenizer": "standard", "filter": [ "lowercase", "norwegian_stop", "norwegian_keywords", "norwegian_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## persian 分析器 ?persian 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "char_filter": { "zero_width_spaces": { "type": "mapping", "mappings": [ "\\u200C=> "] } }, "filter": { "persian_stop": { "type": "stop", "stopwords": "_persian_" } }, "analyzer": { "persian": { "tokenizer": "standard", "char_filter": [ "zero_width_spaces" ], "filter": [ "lowercase", "arabic_normalization", "persian_normalization", "persian_stop" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## portuguese 分析器 portuguese ?分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "portuguese_stop": { "type": "stop", "stopwords": "_portuguese_" }, "portuguese_keywords": { "type": "keyword_marker", "keywords": [] }, "portuguese_stemmer": { "type": "stemmer", "language": "light_portuguese" } }, "analyzer": { "portuguese": { "tokenizer": "standard", "filter": [ "lowercase", "portuguese_stop", "portuguese_keywords", "portuguese_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## romanian 分析器 romanian ?分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "romanian_stop": { "type": "stop", "stopwords": "_romanian_" }, "romanian_keywords": { "type": "keyword_marker", "keywords": [] }, "romanian_stemmer": { "type": "stemmer", "language": "romanian" } }, "analyzer": { "romanian": { "tokenizer": "standard", "filter": [ "lowercase", "romanian_stop", "romanian_keywords", "romanian_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## russian 分析器 ?russian 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "russian_stop": { "type": "stop", "stopwords": "_russian_" }, "russian_keywords": { "type": "keyword_marker", "keywords": [] }, "russian_stemmer": { "type": "stemmer", "language": "russian" } }, "analyzer": { "russian": { "tokenizer": "standard", "filter": [ "lowercase", "russian_stop", "russian_keywords", "russian_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## sorani 分析器 ?sorani 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "sorani_stop": { "type": "stop", "stopwords": "_sorani_" }, "sorani_keywords": { "type": "keyword_marker", "keywords": [] }, "sorani_stemmer": { "type": "stemmer", "language": "sorani" } }, "analyzer": { "sorani": { "tokenizer": "standard", "filter": [ "sorani_normalization", "lowercase", "sorani_stop", "sorani_keywords", "sorani_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## spanish 分析器 ?spanish 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "spanish_stop": { "type": "stop", "stopwords": "_spanish_" }, "spanish_keywords": { "type": "keyword_marker", "keywords": [] }, "spanish_stemmer": { "type": "stemmer", "language": "light_spanish" } }, "analyzer": { "spanish": { "tokenizer": "standard", "filter": [ "lowercase", "spanish_stop", "spanish_keywords", "spanish_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## swedish 分析器 ?swedish 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "swedish_stop": { "type": "stop", "stopwords": "_swedish_" }, "swedish_keywords": { "type": "keyword_marker", "keywords": [] }, "swedish_stemmer": { "type": "stemmer", "language": "swedish" } }, "analyzer": { "swedish": { "tokenizer": "standard", "filter": [ "lowercase", "swedish_stop", "swedish_keywords", "swedish_stemmer" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## turkish 分析器 ?turkish 分析器可以如以下定制分析儀重新實現： { "settings": { "analysis": { "filter": { "turkish_stop": { "type": "stop", "stopwords": "_turkish_" }, "turkish_lowercase": { "type": "lowercase", "language": "turkish" }, "turkish_keywords": { "type": "keyword_marker", "keywords": [] }, "turkish_stemmer": { "type": "stemmer", "language": "turkish" } }, "analyzer": { "turkish": { "tokenizer": "standard", "filter": [ "apostrophe", "turkish_lowercase", "turkish_stop", "turkish_keywords", "turkish_stemmer" ] } } } } } ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。 ?2>應該刪除此過濾器，除非有字詞應該排除在干擾之外。 ## thai 分析器 ?thai 分析器可以如以下定制分析儀重新實現： ``` { "settings": { "analysis": { "filter": { "thai_stop": { "type": "stop", "stopwords": "_thai_" } }, "analyzer": { "thai": { "tokenizer": "thai", "filter": [ "lowercase", "thai_stop" ] } } } } } ``` ?1>可以使用無效詞或stopwords_path參數覆蓋默認的停用詞。