字符串排序 · Elasticsearch權威指南（中文版）

## 多值字段字符串排序 > 譯者注: `多值字段`是指同一個字段在ES索引中可以有多個含義，即可使用多個分析器(analyser)進行分詞與排序，也可以不添加分析器，保留原值。被分析器(analyser)處理過的字符稱為`analyzed field`(譯者注：即已被分詞并排序的字段，所有寫入ES中的字段默認圴會被analyzed), `analyzed`字符串字段同時也是多值字段，在這些字段上排序往往得不到你想要的值。比如你分析一個字符 `"fine old art"`,它最終會得到三個值。例如我們想要按照第一個詞首字母排序，如果第一個單詞相同的話，再用第二個詞的首字母排序，以此類推，可惜 ElasticSearch 在進行排序時是得不到這些信息的。當然你可以使用 `min` 和 `max` 模式來排（默認使用的是 `min` 模式）但它是依據`art` 或者 `old`排序，而不是我們所期望的那樣。為了使一個string字段可以進行排序，它必須只包含一個詞：即完整的`not_analyzed`字符串(譯者注：未經分析器分詞并排序的原字符串)。當然我們需要對字段進行全文本搜索的時候還必須使用被 `analyzed` 標記的字段。在 `_source` 下相同的字符串上排序兩次會造成不必要的資源浪費。而我們想要的是同一個字段中同時包含這兩種索引方式，我們只需要改變索引(index)的mapping即可。方法是在所有核心字段類型上，使用通用參數 `fields`對mapping進行修改。比如，我們原有mapping如下： ```Javascript "tweet": { "type": "string", "analyzer": "english" } ``` 改變后的多值字段mapping如下： ```Javascript "tweet": { <1> "type": "string", "analyzer": "english", "fields": { "raw": { <2> "type": "string", "index": "not_analyzed" } } } ``` <1> `tweet` 字段用于全文本的 `analyzed` 索引方式不變。 <2> 新增的 `tweet.raw` 子字段索引方式是 `not_analyzed`。現在，在給數據重建索引后，我們既可以使用 `tweet` 字段進行全文本搜索，也可以用`tweet.raw`字段進行排序： ```Javascript GET /_search { "query": { "match": { "tweet": "elasticsearch" } }, "sort": "tweet.raw" } ``` >**警告**： >對 `analyzed` 字段進行強制排序會消耗大量內存。 >詳情請查閱《字段類型簡介》相關內容。