Basic Concepts（基礎概念） · Elasticsearch 5.4 中文文檔

# Basic Concepts（基礎概念）原文鏈接 : [https://www.elastic.co/guide/en/elasticsearch/reference/5.4/_basic_concepts.html](https://www.elastic.co/guide/en/elasticsearch/reference/5.4/_basic_concepts.html) 譯文鏈接 : [http://www.apache.wiki/pages/viewpage.action?pageId=4260579](http://www.apache.wiki/pages/viewpage.action?pageId=4260579) 貢獻者 : [那伊抹微笑](/display/~wangyangting)，[ApacheCN](/display/~apachecn)，[Apache中文網](/display/~apachechina) 這里有一些關于?**Elasticsearch**?的核心概念。從一開始了解這些概念有助于減少學習過程。 ### Near Realtime（NRT 近實時） **Elasticsearch?**是一個近實時的搜索平臺。這意味著從您索引一個文檔開始直到它可以被查詢時會有輕微的延遲時間（通常為一秒）。 ### Cluster（集群） **cluster**（集群）是一個或者多個節點的集合，它們一起保存數據并且提供所有節點聯合索引以及搜索功能。集群存在一個唯一的名字身份且默認為 “**elasticsearch**”。這個名字非常重要，因為如果節點安裝時通過它自己的名字加入到集群中的話，那么一個節點只能是一個集群中的一部分。請確保您在不同環境中不要重復使用相同的集群名字，否則您可能最終會將節點加入到了錯誤的集群中。例如，您可以使用?_**logging-dev**_，_**logging-stage**_，以及?_**logging-prod**_?用于?**development**（開發），**staging**（演示）和?**production**（生產）集群。注意，一個集群如果只有一個結點也是有效的，并且完全可行的。此外，您還可以有多個獨立的集群并且每個集群都有它自己唯一的?**cluster**?**name**（集群名）。 ### Node（節點） **node（**節點）是一個單獨的服務器，它是集群的一部分，存儲數據，參與集群中的索引和搜索功能。像一個集群一樣，一個節點通過一個在它啟動時默認分配的一個隨機的 **UUID**（通用唯一標識符）名稱來識別。如果您不想使用默認名稱您也可自定義任何節點名稱。這個名字是要識別網絡中的服務器對應這在您的 **Elasticsearch** 集群節點管理的目的是很重要的。節點可以通過配置 **cluster name** 來加入到指定的集群中。默認情況下，每個節點安裝時都會加入到名為 **elasticsearch** 的集群中，這也就意味著如果您在網絡中啟動許多節點--假設它們可以發現彼此–它們全部將自動的構成并且加入到一個名為 **elasticsearch** 的單獨的集群中。在一個集群中，你需要多少就可以添加多少結點。此外，如果在當前網絡中沒有其它?**elasticsearch?**結點在運行，則啟動一個結點將會默認形成一個叫?**elasticsearch?**的單結點集群。 ### Index（索引） **index**（索引）是具有稍微類似特征文檔的集合。例如，您有一個消費者數據的索引，一個產品目錄的索引，和另一個是訂單數據的索引。一個索引通過名字（必須全部是小寫）來標識，并且該名字在對 **document**（文檔）執行 **indexing**（索引），**search**（搜索），**update**（更新）和 **delete**（刪除）操作時會涉及到。在一個單獨的集群中，您可以定義您想要的許多索引。 ### Type（類型）在 **Index**（索引）中，可以定義一個或多個類型。一個類型是索引中一個邏輯的種類/分區，它的語義完全取決于您自己。一般情況下，一個類型被定義成一組常見字段的文檔。例如，假設您運行著一個博客平臺并且在一個單獨的索引中存儲了所有的數據。在這個索引中，您也許定義了一個用戶數據類型，博客數據類型，和評論數據類型。 ### Document（文檔） **document**（文檔）是索引信息的基本單位。例如，您有一存儲 **customer**（客戶）數據的文檔，另一個是存儲 **product**（產品）數據的文檔，還有一個是存儲 **order**（訂單）數據的文檔。該文檔可以使用 [JSON](http://json.org/) 來表示，它是一種無處不在的互聯網數據交換格式。在索引/類型中，您可以存儲許多文檔。注意，盡管一個文檔物理的存在于索引中，實際上一個文檔必須被索引/分配給索引內的類型。 ### Shards & Replicas（分片 & 副本）索引可以存儲大量數據，可以超過單個節點的硬件限制。例如，十億個文檔占用了?**1TB?**的磁盤空間的單個索引可能不適合放在單個節點的磁盤上，并且從單個節點服務請求會變得很慢。為了解決這個問題，**Elasticsearch** 提供了把 **Index**（索引）拆分到多個 **Shard**（分片）中的能力。在創建索引時，您可以簡單的定義 **Shard**（分片）的數量。每個 **Shard** 本身就是一個?**fully-functional**（全功能的）和獨立的 “**Index**（索引）”，（Shard）它可以存儲在集群中的任何節點上。 **Sharding**（分片）非常重要兩個理由是 :? * 水平的拆分/擴展。 * 分布式和并行跨 Shard 操作（可能在多個節點），從而提高了性能/吞吐量。 **Shard** 的分布式機制以及它的文檔是如何聚合支持搜索請求是完全由 **Elasticsearch** 管理的，并且是對用戶透明的。在網絡/云環境中可能隨時會故障，無論出于何種原因，在 **shard/node** 不知何故會離線或者消失的情況下強烈建議設置故障轉移是非常有效的。為了達到這個目的，**Elasticsearch** 可以讓您設置一個或多個索引的 **Shard** 副本到所謂的副本分片，或者副本中去。副本非常重要的兩個理由是 :? * 在 **shard/node** 故障的情況下提供了高可用性。為了達到這個目的，需要注意的是在原始的/主 **Shard** 被復制時副本的 **Shard** 不會被分配到相同的節點上。 * 它可以讓你水平擴展搜索量/吞吐量，因為搜索可以在所有的副本上并行執行。總而言之，每個索引可以被拆分成多個分片，一個索引可以設置 **0** 個（沒有副本）或多個副本。開啟副本后，每個索引將有主分片（被復制的原始分片）和副本分片（主分片的副本）。分片和副本的數量在索引被創建時都能夠被指定。在創建索引后，您也可以在任何時候動態的改變副本的數量，但是不能夠改變分片數量。默認情況下，**Elasticsearch** 中的每個索引分配了 **5** 個主分片和 **1** 個副本，這也就意味著如果您的集群至少有兩個節點的話，您的索引將會有 **5** 個主分片和另外 **5** 個副本分片（**1** 個完整的副本），每個索引共計 10 個分片。注意 : 每個 **Elasticsearch** 分片是一個 **Lucene** 索引。在單個 **Lucene** 索引中有一個最大的文檔數量限制。從 `[LUCENE-5843](https://issues.apache.org/jira/browse/LUCENE-5843) 的時候開始，該限制為 **2,147,483,519**（=**Interger.MAX_VALUE** - **128**）個文檔。您可以使用 [`_cat/shards`](https://www.elastic.co/guide/en/elasticsearch/reference/current/cat-shards.html "cat shards")?**api** 來監控分片大小。` 理解了這些基礎概念之后，讓我們開始接觸更有趣的部分、、、