Fuzziness · Elasticsearch權威指南（中文版）

[[模糊]] === 模糊 _模糊匹配_ 視兩個單詞 ``模糊'' 相似,正好像它們是同一個詞. ((("typoes and misspellings", "fuzziness, defining"))) 首先, 我們需要通過_fuzziness_ 來定義什么是((("fuzziness"))). 1965年, Vladimir Levenshtein 開發了 http://en.wikipedia.org/wiki/Levenshtein_distance[Levenshtein distance(Levenshtein距離)], 用來度量把一個單詞轉換為另一個單詞需要的單字符編輯次數 ((("Levenshtein distance"))). 他提出了3種單字符編輯: * _替換_ 一個字符到另一個字符: _f_ox -> _b_ox * _插入_ 一個新字符: sic -> sic_k_ * _刪除_ 一個字符:: b_l_ack -> back http://en.wikipedia.org/wiki/Frederick_J._Damerau[Frederick Damerau] 稍后擴展了這些操作并包含了1個新的 ((("Damerau, Frederick J."))): * _換位_ 調整字符: _st_ar -> _ts_ar 例如,把 `bieber` 轉換為 `beaver` 需要以下幾步: 1. 用 `v` 替換掉 `b`: bie_b_er -> bie_v_er 2. 用 `a` 替換掉 `i`: b_i_ever -> b_a_ever 3. 換位 `a` 和 `e` : b_ae_ver -> b_ea_ver 以上的3步代表了3個 http://bit.ly/1ymgZPB[Damerau-Levenshtein edit distance(Damerau-Levenshtein編輯距離)]. 顯然, `bieber` 距 `beaver`&#x2014很遠;遠得無法被認為是一個簡單的拼寫錯誤. Damerau發現 80% 的人類拼寫錯誤的編輯距離都是1. 換句話說, 80% 的拼寫錯誤都可以通過 _單次編輯_ 修改為原始的字符串. 通過指定 `fuzziness` 參數為 2,Elasticsearch 支持最大的編輯距離. 當然, 一個字符串的單次編輯次數依賴于它的長度. 對 `hat` 進行兩次編輯可以得到 `mad`, 所以允許對長度為3的字符串進行兩次修改就太過了. `fuzziness` 參數可以被設置成 `AUTO`, 結果會在下面的最大編輯距離中: * `0` 1或2個字符的字符串 * `1` 3、4或5個字符的字符串 * `2` 多于5個字符的字符串當然, 你可能發現編輯距離為`2` 仍然是太過了, 返回的結果好像并沒有什么關聯. 把 `fuzziness` 設置為 `1` ,你可能會獲得更好的結果和性能.