常用術語 · JAVA

[TOC] # 常用術語 * Document 文檔數據(可以理解mysql的行) * Index 索引 (可以理解為mysql中的一個數據庫) * Type索引中的數據類型 (mysql中表的概念) * Field字段,文檔屬性 (比如用戶的字段,他會有年齡,性別這些等等) * Query DSL查詢語法 | MySQL | ElasticSearch | | --- | --- | | Database | Index | | Table | Type | | Row | Document | | Column | Field | | Schema | Mapping | | Index | Everything is indexed | | SQL | Query DSL | | select sql | GET http:// | | update sql | PUT http:// | 只要在這個集群里面,新加入的節點能自動被發現 elasticsearch各個節點都是對等關系的,目的就是去中心化. **master節點只是多了一個維護集群狀態的功能,master如果出了故障,其他節點能立即頂上去** * Node(節點): 單個的裝有Elasticsearch服務并且提供故障轉移和擴展的服務器 * Cluster(集群): 一個集群就是由一個或多個node組織在一起的,共同工作,共同分享整個數據具有負載均衡功能的集群 * Document(文檔): 一個文檔是一個可被索引的基礎信息單元 * Index(索引): 索引就是一個擁有幾分相似特征的文檔的集合 * Type(類型): 一個索引中,你可以定義一種或者多種類型 * Field(列): Field是Elasticsearch的最小單位,相當于數據的某一列 * Shards(分片): Elasticsearch將索引分成若干份,每個部分就是一個shard * Replicas(復制): Replicas是索引一份或者多份拷貝 # 基本概念 **cluster** 代表一個集群，集群中有多個節點，其中有一個為主節點，這個主節點是可以通過選舉產生的，主從節點是對于集群內部來說的。es的一個概念就是去中心化，字面上理解就是無中心節點，這是對于集群外部來說的，因為從外部來看es集群，在邏輯上是個整體，你與任何一個節點的通信和與整個es集群通信是等價的。 **shards** 代表索引分片，es可以把一個完整的索引分成多個分片，這樣的好處是可以把一個大的索引拆分成多個，分布到不同的節點上。構成分布式搜索。分片的數量只能在索引創建前指定，并且索引創建后不能更改。 **replicas** 代表索引副本，es可以設置多個索引的副本，副本的作用一是提高系統的容錯性，當某個節點某個分片損壞或丟失時可以從副本中恢復。二是提高es的查詢效率，es會自動對搜索請求進行負載均衡。 **recovery** 代表數據恢復或叫數據重新分布，es在有節點加入或退出時會根據機器的負載對索引分片進行重新分配，掛掉的節點重新啟動時也會進行數據恢復。 **river** 代表es的一個數據源，也是其它存儲方式（如：數據庫）同步數據到es的一個方法。它是以插件方式存在的一個es服務，通過讀取river中的數據并把它索引到es中，官方的river有couchDB的，RabbitMQ的，Twitter的，Wikipedia的。 **gateway** 代表es索引快照的存儲方式，es默認是先把索引存放到內存中，當內存滿了時再持久化到本地硬盤。gateway對索引快照進行存儲，當這個es集群關閉再重新啟動時就會從gateway中讀取索引備份數據。es支持多種類型的gateway，有本地文件系統（默認），分布式文件系統，Hadoop的HDFS和amazon的s3云存儲服務。 **discovery.zen** 代表es的自動發現節點機制，es是一個基于p2p的系統，它先通過廣播尋找存在的節點，再通過多播協議來進行節點之間的通信，同時也支持點對點的交互。 **Transport** 代表es內部節點或集群與客戶端的交互方式，默認內部是使用tcp協議進行交互，同時它支持http協議（json格式）、thrift、servlet、memcached、zeroMQ等的傳輸協議（通過插件方式集成）。 # 倒排索引 ![](https://img.kancloud.cn/b4/37/b437858cc89ea0fcb1c346d3afbed58f_768x212.png) 然后我們根據這個單詞集合和文檔集合它們進行運算,就能得到一個矩陣 ![](https://img.kancloud.cn/40/c2/40c2a0d4436e534949b79f53eb760241_628x183.png) ![](https://img.kancloud.cn/3c/f4/3cf4848dd2b0f90035dc9f0a1b86c19b_780x101.png) 這個結果其實是個數據結構, 可以用這樣的表來表示 ![](https://img.kancloud.cn/e3/8a/e38af3044e5776d64e893fadf7e8690d_750x465.png) 上面的第一行(1,)意思是喬布斯這個單詞在文檔1中出現過,并且在文檔1中的3和11位置第二張表有TF,表示出現的頻率,第二張表是額外記錄出現的頻率把關鍵詞文檔還有出現的位置,一條條記錄下來 ![](https://img.kancloud.cn/97/e0/97e067730c365eb58c3d5f0155124ee6_776x152.png)