模糊匹配 · Elasticsearch權威指南（中文版）

## 模糊匹配  一般的全文檢索方式使用 TF/IDF 處理文本或者文本數據中的某個字段內容。將字面切分成很多字、詞(word)建立索引，match查詢用query中的term來匹配索引中的字、詞。match查詢提供了文檔數據中是否包含我們需要的query中的單、詞，但僅僅這樣是不夠的，它無法提供文本中的字詞之間的關系。  舉個例子： * 小蘇吃了鱷魚 * 鱷魚吃了小蘇 * 小蘇去哪兒都帶著的鱷魚皮錢包用`match`查詢`小蘇鱷魚`，這三句話都會被命中，但是`tf/idf`并不會告訴我們這兩個詞出現在同一句話里面還是在同一個段落中（僅僅提供這兩個詞在這段文本中的出現頻率）  理解文本中詞語之間的關系是一個很復雜的問題，而且這個問題通過更換query的表達方式是無法解決的。但是我們可以知道兩個詞語在文本中的距離遠近，甚至是否相鄰，這個信息似乎上能一定程度的表達這兩個詞比較相關。一般的文本可能比我們舉的例子長很多，正如我們提到的：`小蘇`跟`鱷魚`這兩個詞可能分布在文本的不同段落中。我們還是期望能找到這兩個詞分布均勻的文檔，但是我們把這兩個詞距離比較近的文檔賦予更好的相關性權重。這就是段落匹配（_phrase matching_）或者模糊匹配（_proximity matching_）所做的事情。  【**提示** 】這一章，我們會用之之前在< match-test-data, `match` query >中使用的文檔做例子。