## 1. 正排(doc value)與倒排
> 搜索的時候,要依靠倒排索引;排序的時候,需要依靠正排索引,看到每個document的每個field,然后進行排序,所謂的正排索引,其實就是doc values
> 在建立索引的時候,一方面會建立倒排索引,以供搜索用;一方面會建立正排索引,也就是doc values,以供排序,聚合,過濾等操作使用
> 正排索引:
> 1. 如果你的某個field設置為不分詞,那么在建立索引的時候(index-time),就會自動生成doc value
> 2. doc value(正排索引):
> 是被保存在磁盤上的,此時如果內存足夠,os會自動將其緩存在內存中,性能還是會很高;如果內存不足夠,os會將其寫入磁盤上
~~~
doc1: hello world you and me
doc2: hi, world, how are you
~~~
> 倒排索引:數據-文檔的二維矩陣
~~~
word doc1 doc2
hello *
world * *
you * *
and *
me *
hi *
how *
are *
~~~
> 例如搜索hello you,搜索語句會按照index中對應的field的分詞器進行分詞
> hello you --> hello, you
~~~
hello --> doc1
you --> doc1,doc2
~~~
~~~
doc1: hello world you and me
doc2: hi, world, how are you
~~~
> 正排索引
~~~
doc1: { "name": "jack", "age": 27 }
doc2: { "name": "tom", "age": 30 }
~~~
> 文檔-數據的二維矩陣
~~~
document name age
doc1 jack 27
doc2 tom 30
~~~
> 例如通過age排序,方便排序
>
## 2. 對于分詞的field進行聚合
* 正常情況下,是不可以對分詞的field進行聚合的
~~~
PUT myindex/test/1
{
"name":"dailin"
}
~~~
聚合測試
~~~
GET myindex/_search
{
"size": 0,
"aggs": {
"groupby_name": {
"terms": {
"field": "name"
}
}
}
}
~~~
報錯
~~~
"reason": "Fielddata is disabled on text fields by default. Set fielddata=true on [name] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory. Alternatively use a keyword field instead."
~~~
Fielddata默認是關閉的,必須要打開fielddata,然后將正排索引數據加載到內存中,才可以對分詞的field執行聚合操作,而且會消耗很大的內存。
如果對分詞的field進行聚合,有以下幾種方法
1. 對應field的Fielddata設置成true
首先設置mapping
~~~
POST myindex/_mapping/test
{
"properties": {
"name":{
"type": "text",
"fielddata": true
}
}
}
~~~
再次聚合
~~~
GET myindex/_search
{
"size": 0,
"aggs": {
"groupby_name": {
"terms": {
"field": "name"
}
}
}
}
~~~
成功
~~~
"aggregations": {
"groupby_name": {
"doc_count_error_upper_bound": 0,
"sum_other_doc_count": 0,
"buckets": [
{
"key": "dailin",
"doc_count": 1
}
]
}
}
}
~~~
2. 使用分詞field的keyword子field
5.X版本以后,es默認會為每個textfield生成一個keyword(不分詞),我們可以利用這個field聚合
* 查看mapping
`GET myindex/_mapping`
~~~
"name": {
"type": "text",
"fields": {
"keyword": {
"type": "keyword", # 生成一個不分詞的子field
"ignore_above": 256
}
}
~~~
* 聚合測試
~~~
GET myindex/_search
{
"size": 0,
"aggs": {
"groupby_name": {
"terms": {
"field": "name.keyword"
}
}
}
}
~~~
同樣得到一樣的結果
>1. 如果一定要對分詞的field執行聚合,那么必須將fielddata=true,然后es就會在執行聚合操作的時候,現場將field對應的數據,建立一份fielddata正排索引,fielddata正排索引的結構跟doc value是類似的,但是只會講fielddata正排索引加載到內存中來,然后基于內存中的fielddata正排索引執行分詞field的聚合操作
>2. fielddata加載到內存的過程是lazy加載的,對一個analzyed field執行聚合時,才會加載,而且是field-level加載的一個index的一個field,所有doc都會被加載,而不是少數doc不是index-time創建,是query-time創建
> 3. 監控fielddata內存使用
~~~
# 各個分片的fiedata內存占用情況
GET /_stats/fielddata?fields=*
# 各個node的fielddata的內存占用情況
GET /_nodes/stats/indices/fielddata?fields=*
GET /_nodes/stats/indices/fielddata?level=indices&fields=*
~~~
> 4. circuit breaker(fielddata內存使用控制)
~~~
如果一次query load的feilddata超過總內存,就會oom --> 內存溢出
circuit breaker會估算query要加載的fielddata大小,如果超出總內存,就短路,query直接失敗
indices.breaker.fielddata.limit:fielddata的內存限制,默認60%
indices.breaker.request.limit:執行聚合的內存限制,默認40%
indices.breaker.total.limit:綜合上面兩個,限制在70%以內
~~~
### fielddata預加載
如果真的要對分詞的field執行聚合,那么每次都在query-time現場生產fielddata并加載到內存中來,速度可能會比較慢
我們是不是可以預先生成加載fielddata到內存中來???
1. fielddata預加載
~~~
POST /test_index/_mapping/test_type
{
"properties": {
"test_field": {
"type": "string",
"fielddata": {
"loading" : "eager"
}
}
}
}
~~~
query-time的fielddata生成和加載到內存,變為index-time,建立倒排索引的時候,會同步生成fielddata并且加載到內存中來,這樣的話,對分詞field的聚合性能當然會大幅度增強
2. 序號標記預加載
global ordinal原理解釋
~~~
doc1: status1
doc2: status2
doc3: status2
doc4: status1
~~~
有很多重復值的情況,會進行global ordinal標記
~~~
status1 --> 0
status2 --> 1
doc1: 0
doc2: 1
doc3: 1
doc4: 0
~~~
建立的fielddata也會是這個樣子的,這樣的好處就是減少重復字符串的出現的次數,減少內存的消耗
~~~
POST /test_index/_mapping/test_type
{
"properties": {
"test_field": {
"type": "string",
"fielddata": {
"loading" : "eager_global_ordinals"
}
}
}
}
~~~
- Docker
- 什么是docker
- Docker安裝、組件啟動
- docker網絡
- docker命令
- docker swarm
- dockerfile
- mesos
- 運維
- Linux
- Linux基礎
- Linux常用命令_1
- Linux常用命令_2
- ip命令
- 什么是Linux
- SELinux
- Linux GCC編譯警告:Clock skew detected. 錯誤解決辦法
- 文件描述符
- find
- 資源統計
- LVM
- Linux相關配置
- 服務自啟動
- 服務器安全
- 字符集
- shell腳本
- shell命令
- 實用腳本
- shell 數組
- 循環與判斷
- 系統級別進程開啟和停止
- 函數
- java調用shell腳本
- 發送郵件
- Linux網絡配置
- Ubuntu
- Ubuntu發送郵件
- 更換apt-get源
- centos
- 防火墻
- 虛擬機下配置網絡
- yum重新安裝
- 安裝mysql5.7
- 配置本地yum源
- 安裝telnet
- 忘記root密碼
- rsync+ crontab
- Zabbix
- Zabbix監控
- Zabbix安裝
- 自動報警
- 自動發現主機
- 監控MySQL
- 安裝PHP常見錯誤
- 基于nginx安裝zabbix
- 監控Tomcat
- 監控redis
- web監控
- 監控進程和端口號
- zabbix自定義監控
- 觸發器函數
- zabbix監控mysql主從同步狀態
- Jenkins
- 安裝Jenkins
- jenkins+svn+maven
- jenkins執行shell腳本
- 參數化構建
- maven區分環境打包
- jenkins使用注意事項
- nginx
- nginx認證功能
- ubuntu下編譯安裝Nginx
- 編譯安裝
- Nginx搭建本地yum源
- 文件共享
- Haproxy
- 初識Haproxy
- haproxy安裝
- haproxy配置
- virtualbox
- virtualbox 復制新的虛擬機
- ubuntu下vitrualbox安裝redhat
- centos配置雙網卡
- 配置存儲
- Windows
- Windows安裝curl
- VMware vSphere
- 磁盤管理
- 增加磁盤
- gitlab
- 安裝
- tomcat
- Squid
- bigdata
- FastDFS
- FastFDS基礎
- FastFDS安裝及簡單實用
- api介紹
- 數據存儲
- FastDFS防盜鏈
- python腳本
- ELK
- logstash
- 安裝使用
- kibana
- 安準配置
- elasticsearch
- elasticsearch基礎_1
- elasticsearch基礎_2
- 安裝
- 操作
- java api
- 中文分詞器
- term vector
- 并發控制
- 對text字段排序
- 倒排和正排索引
- 自定義分詞器
- 自定義dynamic策略
- 進階練習
- 共享鎖和排它鎖
- nested object
- 父子關系模型
- 高亮
- 搜索提示
- Redis
- redis部署
- redis基礎
- redis運維
- redis-cluster的使用
- redis哨兵
- redis腳本備份還原
- rabbitMQ
- rabbitMQ安裝使用
- rpc
- RocketMQ
- 架構概念
- 安裝
- 實例
- 好文引用
- 知乎
- ACK
- postgresql
- 存儲過程
- 編程語言
- 計算機網絡
- 基礎_01
- tcp/ip
- http轉https
- Let's Encrypt免費ssl證書(基于haproxy負載)
- what's the http?
- 網關
- 網絡IO
- http
- 無狀態網絡協議
- Python
- python基礎
- 基礎數據類型
- String
- List
- 遍歷
- Python基礎_01
- python基礎_02
- python基礎03
- python基礎_04
- python基礎_05
- 函數
- 網絡編程
- 系統編程
- 類
- Python正則表達式
- pymysql
- java調用python腳本
- python操作fastdfs
- 模塊導入和sys.path
- 編碼
- 安裝pip
- python進階
- python之setup.py構建工具
- 模塊動態導入
- 內置函數
- 內置變量
- path
- python模塊
- 內置模塊_01
- 內置模塊_02
- log模塊
- collections
- Twisted
- Twisted基礎
- 異步編程初探與reactor模式
- yield-inlineCallbacks
- 系統編程
- 爬蟲
- urllib
- xpath
- scrapy
- 爬蟲基礎
- 爬蟲種類
- 入門基礎
- Rules
- 反反爬蟲策略
- 模擬登陸
- problem
- 分布式爬蟲
- 快代理整站爬取
- 與es整合
- 爬取APP數據
- 爬蟲部署
- collection for ban of web
- crawlstyle
- API
- 多次請求
- 向調度器發送請求
- 源碼學習
- LinkExtractor源碼分析
- 構建工具-setup.py
- selenium
- 基礎01
- 與scrapy整合
- Django
- Django開發入門
- Django與MySQL
- java
- 設計模式
- 單例模式
- 工廠模式
- java基礎
- java位移
- java反射
- base64
- java內部類
- java高級
- 多線程
- springmvc-restful
- pfx數字證書
- 生成二維碼
- 項目中使用log4j
- 自定義注解
- java發送post請求
- Date時間操作
- spring
- 基礎
- spring事務控制
- springMVC
- 注解
- 參數綁定
- springmvc+spring+mybatis+dubbo
- MVC模型
- SpringBoot
- java配置入門
- SpringBoot基礎入門
- SpringBoot web
- 整合
- SpringBoot注解
- shiro權限控制
- CommandLineRunner
- mybatis
- 靜態資源
- SSM整合
- Aware
- Spring API使用
- Aware接口
- mybatis
- 入門
- mybatis屬性自動映射、掃描
- 問題
- @Param 注解在Mybatis中的使用 以及傳遞參數的三種方式
- mybatis-SQL
- 逆向生成dao、model層代碼
- 反向工程中Example的使用
- 自增id回顯
- SqlSessionDaoSupport
- invalid bound statement(not found)
- 脈絡
- beetl
- beetl是什么
- 與SpringBoot整合
- shiro
- 什么是shiro
- springboot+shrio+mybatis
- 攔截url
- 枚舉
- 圖片操作
- restful
- java項目中日志處理
- JSON
- 文件工具類
- KeyTool生成證書
- 兼容性問題
- 開發規范
- 工具類開發規范
- 壓縮圖片
- 異常處理
- web
- JavaScript
- 基礎語法
- 創建對象
- BOM
- window對象
- DOM
- 閉包
- form提交-文件上傳
- td中內容過長
- 問題1
- js高級
- js文件操作
- 函數_01
- session
- jQuery
- 函數01
- data()
- siblings
- index()與eq()
- select2
- 動態樣式
- bootstrap
- 表單驗證
- 表格
- MUI
- HTML
- iframe
- label標簽
- 規范編程
- layer
- sss
- 微信小程序
- 基礎知識
- 實踐
- 自定義組件
- 修改自定義組件的樣式
- 基礎概念
- appid
- 跳轉
- 小程序發送ajax
- 微信小程序上下拉刷新
- if
- 工具
- idea
- Git
- maven
- svn
- Netty
- 基礎概念
- Handler
- SimpleChannelInboundHandler 與 ChannelInboundHandler
- 網絡編程
- 網絡I/O
- database
- oracle
- 游標
- PLSQL Developer
- mysql
- MySQL基準測試
- mysql備份
- mysql主從不同步
- mysql安裝
- mysql函數大全
- SQL語句
- 修改配置
- 關鍵字
- 主從搭建
- centos下用rpm包安裝mysql
- 常用sql
- information_scheme數據庫
- 值得學的博客
- mysql學習
- 運維
- mysql權限
- 配置信息
- 好文mark
- jsp
- jsp EL表達式
- C
- test