Elasticsearch 還附帶了可以直接使用的預包裝的分析器。接下來我們會列出最重要的分析器。為了證明它們的差異,我們看看每個分析器會從下面的字符串得到哪些詞條:
```
Set the shape to semi-transparent by calling set_trans(5)
```
**1. 標準分析器**
標準分析器是 Elasticsearch 默認使用的分析器。它是分析各種語言文本最常用的選擇。它根據 Unicode 聯盟定義的 單詞邊界劃分文本。刪除絕大部分標點。最后將詞條小寫。它會產生:
```
set, the, shape, to, semi, transparent, by, calling, set_trans, 5
```
**2. 簡單分析器**
簡單分析器在任何不是字母的地方分隔文本,將詞條小寫。它會產生:
```
set, the, shape, to, semi, transparent, by, calling, set, trans
```
**3. 空格分析器**
空格分析器在空格的地方劃分文本。它會產生:
```
Set, the, shape, to, semi-transparent, by, calling, set_trans(5)
```
**4. 語言分析器**
特定語言分析器可用于很多語言。它們可以考慮指定語言的特點。例如, 英語分析器附帶了一組英語無用詞(常用單詞,例如 and 或者 the ,它們對相關性沒有多少影響),它們會被刪除。 由于理解英語語法的規則,這個分詞器可以提取英語單詞的 詞干 。
英語分詞器會產生下面的詞條:
```
set, shape, semi, transpar, call, set_tran, 5
```
注意看 transparent、 calling 和 set_trans 已經變為詞根格式。
- Elasticsearch是什么
- 全文搜索引擎
- Elasticsearch與Solr
- 數據結構
- 安裝Elasticsearch
- Linux單機安裝
- Windows單機安裝
- 安裝Kibana
- Linux安裝
- Windows安裝
- es基本語句
- 索引操作
- 文檔操作
- 映射操作
- 高級查詢
- es-JavaAPI
- maven依賴
- 索引操作
- 文檔操作
- 高級查詢
- es集群搭建
- Linux集群搭建
- Windows集群搭建
- 核心概念
- 索引(Index)
- 類型(Type)
- 文檔(Document)
- 字段(Field)
- 映射(Mapping)
- 分片(Shards)
- 副本(Replicas)
- 分配(Allocation)
- 系統架構
- 分布式集群
- 單節點集群
- 故障轉移
- 水平擴容
- 應對故障
- 路由計算
- 分片控制
- 寫流程
- 讀流程
- 更新流程
- 多文檔操作流程
- 分片原理
- 倒排索引
- 文檔搜索
- 動態更新索引
- 近實時搜索
- 持久化變更
- 段合并
- 文檔分析
- 內置分析器
- 分析器使用場景
- 測試分析器
- 指定分析器
- 自定義分析器
- 文檔處理
- 文檔沖突
- 樂觀并發控制
- 外部系統版本控制
- es優化
- 硬件選擇
- 分片策略
- 合理設置分片數
- 推遲分片分配
- 路由選擇
- 寫入速度優化
- 批量數據提交
- 優化存儲設備
- 合理使用合并
- 減少Refresh的次數
- 加大Flush設置
- 減少副本的數量
- 內存設置
- 重要配置
- es常見問題
- 為什么要使用Elasticsearch
- master選舉流程
- 集群腦裂問題
- 索引文檔流程
- 更新和刪除文檔流程
- 搜索流程
- ES部署在Linux時的優化方法
- GC方面ES需要注意的點
- ES對大數據量的聚合實現
- 并發時保證讀寫一致性
- 字典樹
- ES的倒排索引
- Spring Data Elasticsearch
- 環境搭建
- 索引操作
- 文檔操作