全文搜索 · elasticsearch-definitive-guide-cn

##全文檢索我們已經介紹了簡單的結構化查詢，下面開始介紹_全文檢索_：怎樣對全文字段(full-text fields)進行檢索以找到相關度最高的文檔。全文檢索最重要的兩個方面是： * 相關度(Relevance) 根據文檔與查詢的相關程度對結果集進行排序的能力。相關度可以使用TF/IDF、地理位置相近程度、模糊相似度或其他算法計算。 * 分析(Analysis) 將一段文本轉換為一組唯一的、標準化了的標記(token)，用以(a)創建倒排索引，(b)查詢倒排索引。注意，一旦提到相關度和分析，指的都是查詢(queries)而非過濾器(filters)。 ### 基于短語 vs. 全文雖然所有的查詢都會進行相關度計算，但不是所有的查詢都有分析階段。而且像``bool``或``function_score``這樣的查詢并不在文本字段執行。文本查詢可以分為兩大類： #### 1. 基于短語(Term-based)的查詢：像``term``或``fuzzy``一類的查詢是低級查詢，它們沒有分析階段。這些查詢在單一的短語上執行。例如對單詞``'Foo'``的``term``查詢會在倒排索引里__精確地__查找``'Foo'``這個詞，并對每個包含這個單詞的文檔計算TF/IDF相關度``'_score'``。牢記``term``查詢只在倒排查詢里精確地查找特定短語，而不會匹配短語的其它變形，如``foo``或``FOO``。不管短語怎樣被加入索引，都只匹配倒排索引里的準確值。如果你在一個設置了``'not_analyzed'``的字段為``'["Foo", "Bar"]'``建索引，或者在一個用``'whitespace'``解析器解析的字段為``'Foo Bar'``建索引，都會在倒排索引里加入兩個索引``'Foo'``和``'Bar'``。 #### 2. 全文(Full-text)檢索 ``match``和``query_string``這樣的查詢是高級查詢，它們會對字段進行分析： * 如果檢索一個``'date'``或``'integer'``字段，它們會把查詢語句作為日期或者整數格式數據。 * 如果檢索一個準確值(``'not_analyzed'``)字符串字段，它們會把整個查詢語句作為一個短語。 * 如果檢索一個全文(``'analyzed'``)字段，查詢會先用適當的解析器解析查詢語句，產生需要查詢的短語列表。然后對列表中的每個短語執行低級查詢，合并查詢結果，得到最終的文檔相關度。我們將會在后續章節討論這一過程的細節。我們很少需要直接使用基于短語的查詢。通常我們會想要檢索全文，而不是單獨的短語，使用高級的全文檢索會更簡單（全文檢索內部最終還是使用基于短語的查詢）。 ####[提示] 如果確實要查詢一個準確值字段(``'not_analyzed'``)，需要考慮使用查詢還是過濾器。單一短語的查詢通常相當于__是/否__問題，用過濾器可以更好的描述這類查詢，并且過濾器緩存可以提升性能： GET /_search { "query": { "filtered": { "filter": { "term": { "gender": "female" } } } } }