加載樣本數據 · Kibana 5.2 中文文檔

# 加載樣本數據原文鏈接 : [https://www.elastic.co/guide/en/kibana/5.2/tutorial-load-dataset.html](https://www.elastic.co/guide/en/kibana/5.2/tutorial-load-dataset.html) 譯文鏈接 : [http://www.apache.wiki/pages/viewpage.action?pageId=8159567](http://www.apache.wiki/pages/viewpage.action?pageId=8159567) 貢獻者 : [片刻](/display/~jiangzhonglian)， [那伊抹微笑](/display/~wangyangting)，[ApacheCN](/display/~apachecn)，[Apache中文網](/display/~apachechina) 本節中的教程依賴以下數據集 :? * 莎士比亞全集，適當解析成多個字段。下載此數據，點擊這里 :?[shakespeare.json](https://www.elastic.co/guide/en/kibana/3.0/snippets/shakespeare.json)。 * 一組虛構的賬戶，隨機生成的數據。下載此數據，點擊這里 :?[accounts.zip](https://github.com/bly2k/files/blob/master/accounts.zip?raw=true) * 一組隨機生成的日志文件。下載此數據，點擊這里 :?[logs.jsonl.gz](https://download.elastic.co/demos/kibana/gettingstarted/logs.jsonl.gz) 數據集的兩個被壓縮。使用下面的命令來解壓縮文件 :? ``` unzip accounts.zip gunzip logs.jsonl.gz ``` **Shakespeare**（莎士比亞）數據集以下列 **schema**（模式）進行組織 :? ``` { "line_id": INT, "play_name": "String", "speech_number": INT, "line_number": "String", "speaker": "String", "text_entry": "String", } ``` **accounts**（帳戶）數據集以下列?**schema**（模式）進行組織 :? ``` { "account_number": INT, "balance": INT, "firstname": "String", "lastname": "String", "age": INT, "gender": "M or F", "address": "String", "employer": "String", "email": "String", "city": "String", "state": "String" } ``` 對于日志數據集的方案有幾十個不同的 **fields**，但在本教程中使用更多的是 :? ``` { "memory": INT, "geo.coordinates": "geo_point" "@timestamp": "date" } ``` 在此之前，我們加載莎士比亞數據集，我們需要建立一個映射的字段。映射劃分的文件索引成邏輯組，并指定一個 **field?**的特征，如該領域的搜索性或是否它的標記化，或分解成單獨的詞。使用以下命令來為莎士比亞數據集設置 **mapping**（映射）:? ``` curl -XPUT http://localhost:9200/shakespeare -d ' { "mappings" : { "_default_" : { "properties" : { "speaker" : {"type": "string", "index" : "not_analyzed" }, "play_name" : {"type": "string", "index" : "not_analyzed" }, "line_id" : { "type" : "integer" }, "speech_number" : { "type" : "integer" } } } } } '; ``` 該 **mapping**（映射）指定了數據集下列特質 :? 1. **speaker** 字段是不分析的字符串。在這個 **filed**（字段）中的字符串被視為一個單獨的單元，即使在這個 **fileld**（字段）中有多個單詞。 2. 這同樣適用于?**play_name?**字段。 3. **line_id** 和 **speech_number** 字段是整數。日志數據集需要映射，通過將?**`geo_point?`**類型應用于這些字段，將日志中的 **latitude**（緯度）/**longitude**（緯度）對標記為地理位置。使用以下命令建立日志 **geo_point mappig**（映射）: ``` curl -XPUT http://localhost:9200/logstash-2015.05.18 -d ' { "mappings": { "log": { "properties": { "geo": { "properties": { "coordinates": { "type": "geo_point" } } } } } } } '; curl -XPUT http://localhost:9200/logstash-2015.05.19 -d ' { "mappings": { "log": { "properties": { "geo": { "properties": { "coordinates": { "type": "geo_point" } } } } } } } '; curl -XPUT http://localhost:9200/logstash-2015.05.20 -d ' { "mappings": { "log": { "properties": { "geo": { "properties": { "coordinates": { "type": "geo_point" } } } } } } } '; ``` **accounts**（賬目）數據集不需要任何 **mapping**（映射），所以在這一點上，我們已經準備好使用 **Elasticsearch?**的?[bulk](https://www.elastic.co/guide/en/elasticsearch/reference/5.2/docs-bulk.html)?**API** 加載數據集，使用以下命令 :? ``` curl -XPOST 'localhost:9200/bank/account/_bulk?pretty' --data-binary @accounts.json curl -XPOST 'localhost:9200/shakespeare/_bulk?pretty' --data-binary @shakespeare.json curl -XPOST 'localhost:9200/_bulk?pretty' --data-binary @logs.jsonl ``` 這些命令可能需要一些時間來執行，這取決于可用的計算資源。驗證成功加載使用下面的命令 :? ``` curl 'localhost:9200/_cat/indices?v' ``` 您應該看到類似以下的輸出 :? ``` index pri rep docs.count docs.deleted store.size pri.store.size yellow open bank 5 1 1000 0 418.2kb 418.2kb yellow open shakespeare 5 1 111396 0 17.6mb 17.6mb yellow open logstash-2015.05.18 5 1 4631 0 15.6mb 15.6mb yellow open logstash-2015.05.19 5 1 4624 0 15.7mb 15.7mb yellow open logstash-2015.05.20 5 1 4750 0 16.4mb 16.4mb ```