全文搜索引擎 · Elasticsearch7.x

Google，百度類的網站搜索，它們都是根據網頁中的關鍵字生成索引，我們在搜索的時候輸入關鍵字，它們會將該關鍵字即索引匹配到的所有網頁返回；還有常見的項目中應用日志的搜索等等。對于這些非結構化的數據文本，關系型數據庫搜索不是能很好的支持。 一般傳統數據庫，全文檢索都實現的很雞肋，因為一般也沒人用數據庫存文本字段。進行全文檢索需要掃描整個表，如果數據量大的話即使對 SQL 的語法優化，也收效甚微。建立了索引，但是維護起來也很麻煩，對于 insert 和 update 操作都會重新構建索引。 基于以上原因可以分析得出，在一些生產環境中，使用常規的搜索方式，性能是非常差的： * 搜索的數據對象是大量的非結構化的文本數據。 * 文件記錄量達到數十萬或數百萬個甚至更多。 * 支持大量基于交互式文本的查詢。 * 需求非常靈活的全文搜索查詢。 * 對高度相關的搜索結果的有特殊需求，但是沒有可用的關系數據庫可以滿足。對不同記錄類型、非文本數據操作或安全事務處理的需求相對較少的情況。為了解決結構化數據搜索和非結構化數據搜索性能問題，我們就需要專業，健壯，強大的全文搜索引擎。 這里說到的全文搜索引擎指的是目前廣泛應用的主流搜索引擎。它的工作原理是計算機索引程序通過掃描文章中的每一個詞，對每一個詞建立一個索引，指明該詞在文章中出現的次數和位置，當用戶查詢時，檢索程序就根據事先建立的索引進行查找，并將查找的結果反饋給用戶的檢索方式。這個過程類似于通過字典中的檢索字表查字的過程。