動態更新索引 · Elasticsearch7.x

如何在保留不變性的前提下實現倒排索引的更新？ 答案是: 用更多的索引。通過增加新的補充索引來反映新近的修改，而不是直接重寫整個倒排索引。每一個倒排索引都會被輪流查詢到，從最早的開始查詢完后再對結果進行合并。 Elasticsearch 基于 Lucene, 這個 java 庫引入了**按段搜索**的概念。每一**段**本身都是一個倒排索引，但索引在 Lucene 中除表示所有段的集合外，還增加了**提交點**的概念 — 一個列出了所有已知段的文件。 :-: ![](https://img.kancloud.cn/3f/94/3f94b3d245fb018d2fc56f720b2c4dc0_558x332.png) 按段搜索會以如下流程執行： 1. 新文檔被收集到內存索引緩存。 :-: ![](https://img.kancloud.cn/a2/e4/a2e41e28720aa53cb203147c12d18863_443x320.png) 2. 不時地, 緩存被提交。（1）一個新的段—一個追加的倒排索引—被寫入磁盤。（2）一個新的包含新段名字的提交點被寫入磁盤。（3）磁盤進行同步 — 所有在文件系統緩存中等待的寫入都刷新到磁盤，以確保它們被寫入物理文件。 3. 新的段被開啟，讓它包含的文檔可見以被搜索。 4. 內存緩存被清空，等待接收新的文檔。 :-: ![](https://img.kancloud.cn/ce/2b/ce2ba56b56447eceb5275a722a9f9c7f_576x425.png) 當一個查詢被觸發，所有已知的段按順序被查詢。詞項統計會對所有段的結果進行聚合，以保證每個詞和每個文檔的關聯都被準確計算。這種方式可以用相對較低的成本將新文檔添加到索引。 段是不可改變的，所以既不能從把文檔從舊的段中移除，也不能修改舊的段來進行反映文檔的更新。取而代之的是，每個提交點會包含一個 `.del` 文件，文件中會列出這些被刪除文檔的段信息。 當一個文檔被刪除”時，它實際上只是在 `.del` 文件中被標記刪除。一個被標記刪除的文檔仍然可以被查詢匹配到，但它會在最終結果被返回前從結果集中移除。 文檔更新也是類似的操作方式：當一個文檔被更新時，舊版本文檔被標記刪除，文檔的新版本被索引到一個新的段中。可能兩個版本的文檔都會被一個查詢匹配到，但被刪除的那個舊版本文檔在結果集返回前就已經被移除。