指紋分析器 · my-elasticsearch-cn

# 指紋分析器 fingerprint 分析器實現了OpenRefine項目使用的[指紋識別算法](https://github.com/OpenRefine/OpenRefine/wiki/Clustering-In-Depth#fingerprint)來協助聚類。輸入文本較低，規范化以刪除擴展字符，排序，重復數據刪除并連接到單個令牌。如果配置了一個停用詞列表，停止單詞也將被刪除。 **定義** 它包括：分詞器 * [Standard Tokenizer](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-standard-tokenizer.html "Standard Tokenizer") 詞語過濾器 * [Lower Case Token Filter](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-lowercase-tokenfilter.html "Lowercase Token Filter") * [ASCII Folding Token Filter](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-asciifolding-tokenfilter.html "ASCII Folding Token Filter") * [Stop Token Filter](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-stop-tokenfilter.html "Stop Token Filter")?(默認禁用) * [Fingerprint Token Filter](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-fingerprint-tokenfilter.html "Fingerprint Token Filter") ## **輸出實例** | `POST _analyze` `{` `"analyzer"``:?``"fingerprint"``,` `"text"``:?``"Yes yes, G?del said this sentence is consistent and."` `}` | 上述的句子將產生以下的詞語： | `[ and consistent godel is said sentence?``this`?`yes ]` | ## **配置**? fingerprint（指紋）分析器接受以下的參數： | `separator` | 用于連接條款的字符。默認為空格。 | | `max_output_size` | 要發出的最大標記大小。默認為255.大于此大小的token將被丟棄。 | | `stopwords` | 預定義的停止詞列表，如_english_或包含停止詞列表的數組。默認為\ _none_。 | | `stopwords_path` | 包含停止詞的文件的路徑。 | 有關停止字配置的更多信息，請參閱?[Stop Token Filter](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-stop-tokenfilter.html "Stop Token Filter")。 ? ## **配置實例** 在這個例子中，我們配置 fingerprint 分析器以使用預定義的英文停止詞列表： | `PUT my_index` `{` `"settings"``: {` `"analysis"``: {` `"analyzer"``: {` `"my_fingerprint_analyzer"``: {` `"type"``:?``"fingerprint"``,` `"stopwords"``:?``"_english_"` `}` `}` `}` `}` `}` `POST my_index/_analyze` `{` `"analyzer"``:?``"my_fingerprint_analyzer"``,` `"text"``:?``"Yes yes, G?del said this sentence is consistent and."` `}` | 以上示例產生以下詞語： | `[ consistent godel said sentence yes ]` |