## 索引原理
### 倒排索引
`倒排索引(Inverted Index)`也叫反向索引,有反向索引必有正向索引。通俗地來講,`正向索引是通過key找value,反向索引則是通過value找key。ES底層在檢索時底層使用的就是倒排索引。`
### 索引模型
現有索引和映射如下:
```json
{
"products" : {
"mappings" : {
"properties" : {
"description" : {
"type" : "text"
},
"price" : {
"type" : "float"
},
"title" : {
"type" : "keyword"
}
}
}
}
}
```
先錄入如下數據,有三個字段title、price、description等
| _id | title | price | description |
| ---- | ------------ | ------ | -------------------- |
| 1 | 藍月亮洗衣液 | `19.9` | 藍月亮洗衣液`很`高效 |
| 2 | iphone13 | `19.9` | `很`不錯的手機 |
| 3 | 小浣熊干脆面 | 1.5 | 小浣熊`很`好吃 |
在ES中除了text類型分詞,其他類型不分詞,因此根據不同字段創建索引如下:
- **title字段:**
| term | _id(文檔id) |
| ------------ | ----------- |
| 藍月亮洗衣液 | 1 |
| iphone13 | 2 |
| 小浣熊干脆面 | 3 |
- **price字段**
| term | _id(文檔id) |
| ---- | ----------- |
| 19.9 | [1,2] |
| 1.5 | 3 |
- **description字段**
| term | _id | term | _id | term | _id |
| ---- | ------------------- | ---- | ---- | ---- | ---- |
| 藍 | 1 | 不 | 2 | 小 | 3 |
| 月 | 1 | 錯 | 2 | 浣 | 3 |
| 亮 | 1 | 的 | 2 | 熊 | 3 |
| 洗 | 1 | 手 | 2 | 好 | 3 |
| 衣 | 1 | 機 | 2 | 吃 | 3 |
| 液 | 1 | | | | |
| 很 | [1:1:9,2:1:6,3:1:6] | | | | |
| 高 | 1 | | | | |
| 效 | 1 | | | | |
**`注意: Elasticsearch分別為每個字段都建立了一個倒排索引。因此查詢時查詢字段的term,就能知道文檔ID,就能快速找到文檔。`**
## 分詞器
### Analysis 和 Analyzer
`Analysis`: 文本分析是把全文本轉換一系列單詞(term/token)的過程,也叫分詞(Analyzer)。**Analysis是通過Analyzer來實現的**。`分詞就是將文檔通過Analyzer分成一個一個的Term(關鍵詞查詢),每一個Term都指向包含這個Term的文檔`。
### Analyzer 組成
- ? 注意: 在ES中默認使用標準分詞器: StandardAnalyzer 特點: 中文單字分詞 單詞分詞
我是中國人 this is good man----> analyzer----> 我 是 中 國 人 this is good man
> 分析器(analyzer)都由三種構件組成的:`character filters` , `tokenizers` , `token filters`。
- `character filter` 字符過濾器
- 在一段文本進行分詞之前,先進行預處理,比如說最常見的就是,過濾html標簽(<span>hello<span> --> hello),& --> and(I&you --> I and you)
- `tokenizers` 分詞器
- 英文分詞可以根據空格將單詞分開,中文分詞比較復雜,可以采用機器學習算法來分詞。
- `Token filters` Token過濾器
- **將切分的單詞進行加工**。大小寫轉換(例將“Quick”轉為小寫),去掉停用詞(例如停用詞像“a”、“and”、“the”等等),加入同義詞(例如同義詞像“jump”和“leap”)。
`注意:`
- 三者順序: Character Filters--->Tokenizer--->Token Filter
- 三者個數:Character Filters(0個或多個) + Tokenizer + Token Filters(0個或多個)
### 內置分詞器
- Standard Analyzer - 默認分詞器,英文按單詞詞切分,并小寫處理
- Simple Analyzer - 按照單詞切分(符號被過濾), 小寫處理
- Stop Analyzer - 小寫處理,停用詞過濾(the,a,is)
- Whitespace Analyzer - 按照空格切分,不轉小寫
- Keyword Analyzer - 不分詞,直接將輸入當作輸出
### 內置分詞器測試
- 標準分詞器
- 特點: 按照單詞分詞 英文統一轉為小寫 過濾標點符號 中文單字分詞
```http
POST /_analyze
{
"analyzer": "standard",
"text": "this is a , good Man 中華人民共和國"
}
```
- Simple 分詞器
- 特點: 英文按照單詞分詞 英文統一轉為小寫 去掉符號 中文按照空格進行分詞
```http
POST /_analyze
{
"analyzer": "simple",
"text": "this is a , good Man 中華人民共和國"
}
```
- Whitespace 分詞器
- 特點: 中文 英文 按照空格分詞 英文不會轉為小寫 不去掉標點符號
```http
POST /_analyze
{
"analyzer": "whitespace",
"text": "this is a , good Man"
}
```
### 創建索引設置分詞
```json
PUT /索引名
{
"settings": {},
"mappings": {
"properties": {
"title":{
"type": "text",
"analyzer": "standard" //顯示指定分詞器
}
}
}
}
```
- 文檔說明
- 開始
- linux
- 常用命令
- ps -ef
- lsof
- netstat
- 解壓縮
- 復制
- 權限
- 其他
- lnmp集成安裝
- supervisor
- 安裝
- supervisor進程管理
- nginx
- 域名映射
- 負載均衡配置
- lnmp集成環境安裝
- nginx源碼安裝
- location匹配
- 限流配置
- 日志配置
- 重定向配置
- 壓縮策略
- nginx 正/反向代理
- HTTPS配置
- mysql
- navicat創建索引
- 設置外網鏈接mysql
- navicat破解
- sql語句學習
- 新建mysql用戶并賦予權限
- php
- opcache
- 設計模式
- 在CentOS下安裝crontab服務
- composer
- 基礎
- 常用的包
- guzzle
- 二維碼
- 公共方法
- 敏感詞過濾
- IP訪問頻次限制
- CURL
- 支付
- 常用遞歸
- 數據排序
- 圖片相關操作
- 權重分配
- 毫秒時間戳
- base64<=>圖片
- 身份證號分析
- 手機號相關操作
- 項目搭建 公共處理函數
- JWT
- 系統函數
- json_encode / json_decode 相關
- 數字計算
- 數組排序
- php8
- jit特性
- php8源碼編譯安裝
- laravel框架
- 常用artisan命令
- 常用查詢
- 模型關聯
- 創建公共方法
- 圖片上傳
- 中間件
- 路由配置
- jwt
- 隊列
- 定時任務
- 日志模塊
- laravel+swoole基本使用
- 拓展庫
- 請求接口log
- laravel_octane
- 微信開發
- token配置驗證
- easywechart 獲取用戶信息
- 三方包
- webman
- win下熱更新代碼
- 使用laravel db listen 監聽sql語句
- guzzle
- 使用workman的httpCLient
- 修改隊列后代碼不生效
- workman
- 安裝與使用
- websocket
- eleticsearch
- php-es 安裝配置
- hyperf
- 熱更新
- 安裝報錯
- swoole
- 安裝
- win安裝swoole-cli
- google登錄
- golang
- 文檔地址
- 標準庫
- time
- 數據類型
- 基本數據類型
- 復合數據類型
- 協程&管道
- 協程基本使用
- 讀寫鎖 RWMutex
- 互斥鎖Mutex
- 管道的基本使用
- 管道select多路復用
- 協程加管道
- beego
- gin
- 安裝
- 熱更新
- 路由
- 中間件
- 控制器
- 模型
- 配置文件/conf
- gorm
- 初始化
- 控制器 模型查詢封裝
- 添加
- 修改
- 刪除
- 聯表查詢
- 環境搭建
- Windows
- linux
- 全局異常捕捉
- javascript
- 常用函數
- vue
- vue-cli
- 生產環境 開發環境配置
- 組件通信
- 組件之間通信
- 父傳子
- 子傳父
- provide->inject (非父子)
- 引用元素和組件
- vue-原始寫法
- template基本用法
- vue3+ts項目搭建
- vue3引入element-plus
- axios 封裝網絡請求
- computed 計算屬性
- watch 監聽
- 使用@符 代替文件引入路徑
- vue開發中常用的插件
- vue 富文本編輯
- nuxt
- 學習筆記
- 新建項目踩坑整理
- css
- flex布局
- flex PC端基本布局
- flex 移動端基本布局
- 常用css屬性
- 盒子模型與定位
- 小說分屏顯示
- git
- 基本命令
- fetch
- 常用命令
- 每次都需要驗證
- git pull 有沖突時
- .gitignore 修改后不生效
- 原理解析
- tcp與udp詳解
- TCP三次握手四次揮手
- 緩存雪崩 穿透 更新詳解
- 內存泄漏-內存溢出
- php_fpm fast_cgi cig
- redis
- 相關三方文章
- API對外接口文檔示范
- elaticsearch
- 全文檢索
- 簡介
- 安裝
- kibana
- 核心概念 索引 映射 文檔
- 高級查詢 Query DSL
- 索引原理
- 分詞器
- 過濾查詢
- 聚合查詢
- 整合應用
- 集群
- docker
- docker 簡介
- docker 安裝
- docker 常用命令
- image 鏡像命令
- Contrainer 容器命令
- docker-compose
- redis 相關
- 客戶端安裝
- Linux 環境下安裝
- uni
- http請求封裝
- ios打包
- 視頻縱向播放
- 日記
- 工作日記
- 情感日志
- 壓測
- ab
- ui
- thorui
- 開發規范
- 前端
- 后端
- 狀態碼
- 開發小組未來規劃