## Elasticsearch
**author:xiak**
**last update: 2022-10-15 10:12:22**
----
[TOC=3,8]
----
### 索引的概念
#### doc 文檔
1. 小布愛吃瓜子
2. 小布好強勢,搶瓜子吃
3. 小布是一只布丁倉鼠
4. 金絲熊不是熊
https://hanlp.hankcs.com/demos/tok.html?text=%E5%B0%8F%E5%B8%83%E6%98%AF%E4%B8%80%E5%8F%AA%E5%B8%83%E4%B8%81%E4%BB%93%E9%BC%A0&v1=true&coarse=true
----
#### 正排索引
每個文檔有哪些關鍵詞 (文檔 > 關鍵詞)
| doc | keywords |
|--|--|
|doc1| 小布, 愛, 吃, 愛吃, 瓜子|
|doc2| 小布, 好, 強勢, 搶, 瓜子, 吃|
|doc3| 小布, 是, 布丁, 倉鼠, 布丁倉鼠|
|doc4| 金絲熊, 不, 是, 不是, 熊|
----
#### 倒排索引
每個關鍵詞出現在哪些文檔 (關鍵詞 > 文檔)
| keyword | docs |
|--|--|
|小布| doc1, doc2, doc3|
|愛| doc1|
|吃| doc1, doc2|
|愛吃| doc1|
|瓜子| doc1, doc2|
|好| doc2|
|強勢| doc2|
|搶| doc2|
|布丁| doc3|
|倉鼠| doc3|
|布丁倉鼠| doc3|
|金絲熊| doc4|
|不| doc4|
|是| doc3, doc4|
|不是| doc4|
|熊| doc4|
----
### 查詢方式
1. termquery 關鍵字查詢
2. phrase 短語查詢
3. boolean 布爾查詢
4. range 區間查詢
5. boosting 加權查詢
6. wildcard 通配符查詢 (類似 like "_{$keyword}%")
7. fuzzy 模糊查詢 (proximity 鄰近查詢)
8. spatial 地理位置查詢
9. prospective search (訂閱查詢)
http://www.hmoore.net/wizardforcel/mastering-elasticsearch/147126
----
### 特殊字符
如果在搜索關鍵詞中出現了如下18個字符中的任意一個字符,就需要用反斜杠`\`進行轉義,例如,查詢關鍵詞 `abc"efg` 就需要轉義成 `abc\"efg`。
`+`, `-`, `&`, `|`, `!`, `(`, `)`, `{`, `}`, `[`, `]`, `^`, `"`, `~`, `*`, `?`, `:`, `\`, `/`
----
query term
字符、詞、短語
通配搜索
模糊搜索
----
### RESTful API
```shell
curl -i -XGET 'http://127.0.0.1:9200/_count?pretty' -d '{ "query": { "match_all": {} }}' -H "Content-Type: application/json"
```
----
[基礎入門 | Elasticsearch: 權威指南 | Elastic - 互聯網筆記](http://www.lvesu.com/blog/es/getting-started.html)
> 如果你現在打開這本書,是因為你擁有數據。除非你準備使用它做些什么,否則擁有這些數據將沒有意義。
**不幸的是,大部分數據庫在從你的數據中提取可用知識時出乎意料的低效。當然,你可以通過時間戳或精確值進行過濾,但是它們能夠進行全文檢索、處理同義詞、通過相關性給文檔評分么? 它們從同樣的數據中生成分析與聚合數據嗎?最重要的是,它們能實時地做到上面的那些而不經過大型批處理的任務么?**
這就是 Elasticsearch 脫穎而出的地方:Elasticsearch 鼓勵你去探索與利用數據,而不是因為查詢數據太困難,就讓它們爛在數據倉庫里面。
[添加索引 | Elasticsearch: 權威指南 | Elastic - 互聯網筆記](http://www.lvesu.com/blog/es/_add-an-index.html)
> 集群的健康狀況為`yellow`則表示全部主分片都正常運行(集群可以正常服務所有請求),但是*副本*分片沒有全部處在正常狀態。 實際上,所有3個副本分片都是`unassigned`—— 它們都沒有被分配到任何節點。 **在同一個節點上既保存原始數據又保存副本是沒有意義的,因為一旦失去了那個節點,我們也將丟失該節點上的所有副本數據。** 當前我們的集群是正常運行的,但是在硬件故障時有丟失數據的風險。
[Elasticsearch 在各大互聯網公司大量真實的應用案例!](https://baijiahao.baidu.com/s?id=1708767125326104870&wfr=spider&for=pc)
> 原來采用的熱表分庫方式,即將最近6個月的訂單的放置在一張表中,將歷史訂單放在在history表中。history表存儲全量的數據,當用戶查詢的下單時間跨度超過6個月即查詢歷史訂單表,此分表方式熱表的數據量為4000w左右,當時能解決的問題。但是顯然不能滿足攜程藝龍訂單接入的需求。
>
> 滴滴幾乎所有寫入 Elasticsearch 的數據都是經由 kafka 消費入到 Elasticsearch。kafka 的數據包括業務 log 數據、mysql binlog 數據和業務自主上報的數據,Sink 服務將這些數據實時消費入到 Elasticsearch。
[社區電臺第七期:Elastic 在今日頭條廣告系統中的大規模應用 - 知乎](https://zhuanlan.zhihu.com/p/50819769)
[Mastering Elasticsearch 中文版 · 看云](http://www.hmoore.net/wizardforcel/mastering-elasticsearch/147120)
[java - mysql一千萬的數據量如何一秒內實現模糊搜索? - SegmentFault 思否](https://segmentfault.com/q/1010000042572439?utm_source=sf-similar-question)
[java - mysql 倒排索引為什么沒人用? - SegmentFault 思否](https://segmentfault.com/q/1010000042632919?utm_source=sf-similar-question)
[可否完全使用ElasticSearch代替數據庫存儲?](https://baijiahao.baidu.com/s?id=1721820719672976775&wfr=spider&for=pc)
[Elastic Search 入門 - 知乎](https://zhuanlan.zhihu.com/p/458011982)
- 開始
- 公益
- 更好的使用看云
- 推薦書單
- 優秀資源整理
- 技術文章寫作規范
- SublimeText - 編碼利器
- PSR-0/PSR-4命名標準
- php的多進程實驗分析
- 高級PHP
- 進程
- 信號
- 事件
- IO模型
- 同步、異步
- socket
- Swoole
- PHP擴展
- Composer
- easyswoole
- php多線程
- 守護程序
- 文件鎖
- s-socket
- aphp
- 隊列&并發
- 隊列
- 講個故事
- 如何最大效率的問題
- 訪問式的web服務(一)
- 訪問式的web服務(二)
- 請求
- 瀏覽器訪問阻塞問題
- Swoole
- 你必須理解的計算機核心概念 - 碼農翻身
- CPU阿甘 - 碼農翻身
- 異步通知,那我要怎么通知你啊?
- 實時操作系統
- 深入實時 Linux
- Redis 實現隊列
- redis與隊列
- 定時-時鐘-阻塞
- 計算機的生命
- 多進程/多線程
- 進程通信
- 拜占庭將軍問題深入探討
- JAVA CAS原理深度分析
- 隊列的思考
- 走進并發的世界
- 鎖
- 事務筆記
- 并發問題帶來的后果
- 為什么說樂觀鎖是安全的
- 內存鎖與內存事務 - 劉小兵2014
- 加鎖還是不加鎖,這是一個問題 - 碼農翻身
- 編程世界的那把鎖 - 碼農翻身
- 如何保證萬無一失
- 傳統事務與柔性事務
- 大白話搞懂什么是同步/異步/阻塞/非阻塞
- redis實現鎖
- 淺談mysql事務
- PHP異常
- php錯誤
- 文件加載
- 路由與偽靜態
- URL模式之分析
- 字符串處理
- 正則表達式
- 數組合并與+
- 文件上傳
- 常用驗證與過濾
- 記錄
- 趣圖
- foreach需要注意的問題
- Discuz!筆記
- 程序設計思維
- 抽象與具體
- 配置
- 關于如何學習的思考
- 編程思維
- 談編程
- 如何安全的修改對象
- 臨時
- 臨時筆記
- 透過問題看本質
- 程序后門
- 邊界檢查
- session
- 安全
- 王垠
- 第三方數據接口
- 驗證碼問題
- 還是少不了虛擬機
- 程序員如何談戀愛
- 程序員為什么要一直改BUG,為什么不能一次性把代碼寫好?
- 碎碎念
- 算法
- 實用代碼
- 相對私密與絕對私密
- 學習目標
- 隨記
- 編程小知識
- foo
- 落盤
- URL編碼的思考
- 字符編碼
- Elasticsearch
- TCP-IP協議
- 碎碎念2
- Grafana
- EFK、ELK
- RPC
- 依賴注入
- 科目一
- 開發筆記
- 經緯度格式轉換
- php時區問題
- 解決本地開發時調用遠程AIP跨域問題
- 后期靜態綁定
- 談tp的跳轉提示頁面
- 無限分類問題
- 生成微縮圖
- MVC名詞
- MVC架構
- 也許模塊不是唯一的答案
- 哈希算法
- 開發后臺
- 軟件設計架構
- mysql表字段設計
- 上傳表如何設計
- 二開心得
- awesomes-tables
- 安全的代碼部署
- 微信開發筆記
- 賬戶授權相關
- 小程序獲取是否關注其公眾號
- 支付相關
- 提交訂單
- 微信支付筆記
- 支付接口筆記
- 支付中心開發
- 下單與支付
- 支付流程設計
- 訂單與支付設計
- 敏感操作驗證
- 排序設計
- 代碼的運行環境
- 搜索關鍵字的顯示處理
- 接口異步更新ip信息
- 圖片處理
- 項目搭建
- 閱讀文檔的新方式
- mysql_insert_id并發問題思考
- 行鎖注意事項
- 細節注意
- 如何處理用戶的輸入
- 不可見的字符
- 抽獎
- 時間處理
- 應用開發實戰
- python 學習記錄
- Scrapy 教程
- Playwright 教程
- stealth.min.js
- Selenium 教程
- requests 教程
- pyautogui 教程
- Flask 教程
- PyInstaller 教程
- 蜘蛛
- python 文檔相似度驗證
- thinkphp5.0數據庫與模型的研究
- workerman進程管理
- workerman網絡分析
- java學習記錄
- docker
- 筆記
- kubernetes
- Kubernetes
- PaddlePaddle
- composer
- oneinstack
- 人工智能 AI
- 京東
- pc_detailpage_wareBusiness
- doc
- 電商網站設計
- iwebshop
- 商品規格分析
- 商品屬性分析
- tpshop
- 商品規格分析
- 商品屬性分析
- 電商表設計
- 設計記錄
- 優惠券
- 生成唯一訂單號
- 購物車技術
- 分類與類型
- 微信登錄與綁定
- 京東到家庫存系統架構設計
- crmeb
- 命名規范
- Nginx https配置
- 關于人工智能
- 從人的思考方式到二叉樹
- 架構
- 今日有感
- 文章保存
- 安全背后: 瀏覽器是如何校驗證書的
- 避不開的分布式事務
- devops自動化運維、部署、測試的最后一公里 —— ApiFox 云時代的接口管理工具
- 找到自己今生要做的事
- 自動化生活
- 開源與漿果
- Apifox: API 接口自動化測試指南