[toc]
## 零 hadoop集群基礎
hadoop是分布式大數據組件
:
* 大數據
大數據是海量數據的處理和分析的技術,需要用分布式框架
* 分布式
分布式則是通過多個主機的進程協同在一起,構成整個應用
hadoop常用模塊
* hdfs-分布式存儲模塊,使用了虛擬的文件系統,架構在Linux之上
* mapreduce-分布式計算模塊
Hadoop三種集群模式
* 本地模式
單機模式,進程都不需要啟動
* 偽分布式
在單機上啟動多個hadoop實例組成偽集群的方式
* 完全分布式
在多個機器上安卓hadoop,組成真正的集群模式
## 一 hadoop本地模式
### 單機環境部署
**準備環境**
```sh
mkdir -p /server/tools
cd /server/tools
#上傳jdk和hadoop安裝包
[root@hadoop-1 tools]# ll
total 372880
-rw-r--r-- 1 root root 214092195 Nov 29 11:24 hadoop-2.7.3.tar.gz
-rw-r--r-- 1 root root 167733100 Nov 29 11:24 jdk-8u121-linux-x64.rpm
```
**安裝軟件**
```sh
#安裝jdk軟件
rpm -ivh jdk-8u121-linux-x64.rpm
#安裝hadoop
tar xf hadoop-2.7.3.tar.gz -C /opt/
cd /opt/
ln -s hadoop-2.7.3/ hadoop
cd /opt/hadoop/etc/
mv hadoop/ local
cp -r hadoop/ pseudo
cp -r hadoop/ full
ln -s local/ hadoop
#設置環境變量
[root@hadoop-1 ~]# tail -5 /etc/profile
# ----java環境變量----
export JAVA_HOME=/usr/java/jdk1.8.0_121/
# ----hadoop環境變量----
export HADOOP_HOME=/opt/hadoop/
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
[root@hadoop-1 ~]# source /etc/profile
```
**安裝驗證**
```sh
[root@hadoop-1 ~]# java -version
java version "1.8.0_121"
........
[root@hadoop-1 ~]# hadoop version
Hadoop 2.7.3
........
```
### 單機環境使用
單機環境部署好后,不需要啟動hadoop,可以直接使用hadoop命令,hdfs和linux共用一套文件系統,用法如下:
**建立測試數據**
```sh
mkdir /test
cd /test
echo bbbb >b.txt
```
**操作數據**
hdfs的文件操作,基本上就是在linux的命令前加上hdfs前綴,如:`hfds -dfs -CMD`
```sh
#顯示文件
hdfs dfs -ls
# 查看文件
hdfs dfs -cat b.txt
# 刪除文件
hdfs dfs -rm b.txt
# 創建目錄
hdfs dfs -mkdir a.txt
```
## 二 hadoop偽分布式
偽分布式和單機的區別,就是使用了另外一套配置文件而已
### 偽分布式配置
**修改軟連接**
```sh
cd /opt/hadoop/etc/
ln -sf pseudo hadoop
```
**修改core-site文件**
```
cat >hadoop/core-site.xml <<EOF
<?xml version="1.0"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost/</value>
</property>
</configuration>
EOF
```
**修改hdfs-site文件**
```
cat >hadoop/hdfs-site.xml <<EOF
<?xml version="1.0"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
EOF
```
**修改mapred-site文件**
```
cat >hadoop/mapred-site.xml <<EOF
<?xml version="1.0"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
EOF
```
**修改yarn-site文件**
```
cat >hadoop/yarn-site.xml <<EOF
<?xml version="1.0"?>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
EOF
```
### 偽分布式啟動
**設置ssh免秘鑰**
```sh
ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa
ssh-copy-id hadoop-1
```
**初始化hdfs**
```sh
hdfs namenode -format
```
**修改hadoop.set配置**
```sh
#修改第25行的JAVA_HOME配置
sed -i "s#\(export JAVA_HOME=\).*#\1`echo $JAVA_HOME`#g" hadoop/hadoop-env.sh
```
啟動程序并驗證
```sh
sh /opt/hadoop/sbin/start-all.sh
[root@hadoop-1 etc]# jps
...... DataNode
...... ResourceManager
...... NodeManager
...... NameNode
...... SecondaryNameNode
# 只要出現這5個程序,表示hadoop啟動成功
#創建文件測試
[root@hadoop-1 etc]# hdfs dfs -mkdir /abcd
```
瀏覽器驗證
在瀏覽器輸入`10.0.0.11:50070`進入hadoop的webUI頁面,可以進行網頁瀏覽操作
## 三 hadoop完全分布式
完全分布式和偽分布式的區別是
* `NameNode` `SecondaryNameNode` `ResourceManager
`三個服務放在管理節點上啟動
* `NodeManager
` `DataNode`兩個服務在所有數據節點上啟動
* 需要再各配置文件中指定服務器信息
* master服務器到slave服務器的互信(ssh免密)
### 配置文件修改
**修改軟連接**
```sh
cd /opt/hadoop/etc/
ln -sf full hadoop
```
**修改slaves文件**
```sh
cat >>hadoop/slaves <<EOF
10.0.0.12
10.0.0.13
10.0.0.14
EOF
```
**修改core-site文件**
```
cat >hadoop/core-site.xml <<EOF
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://10.0.0.11:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/centos/hadoop</value>
</property>
</configuration>
EOF
```
**修改hdfs-site文件**
```
cat >hadoop/hdfs-site.xml <<EOF
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
EOF
```
**修改mapred-site文件**
```
cat >hadoop/mapred-site.xml <<EOF
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
EOF
```
**修改yarn-site文件**
```
cat >hadoop/yarn-site.xml <<EOF
<?xml version="1.0"?>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>10.0.0.11</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
EOF
```
### 互信和分發配置
**ssh互信**
```sh
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
ssh-copy-id hadoop@10.0.0.11
ssh-copy-id hadoop@10.0.0.12
ssh-copy-id hadoop@10.0.0.13
ssh-copy-id hadoop@10.0.0.14
```
**分發配置**
```sh
scp -r /opt/hadoop/etc/full /opt/hadoop/etc/hadoop hadoop@10.0.0.12:/opt/hadoop/etc/
scp -r /opt/hadoop/etc/full /opt/hadoop/etc/hadoop hadoop@10.0.0.13:/opt/hadoop/etc/
scp -r /opt/hadoop/etc/full /opt/hadoop/etc/hadoop hadoop@10.0.0.14:/opt/hadoop/etc/
```
**格式化HDFS并啟動hadoop**
```sh
hdfs namenode -format
sh /opt/hadoop/sbin/start-all.sh
```
**驗證安裝結果**
```sh
# master上啟動的服務
[root@hadoop-1 etc]# jps
...... NameNode
...... SecondaryNameNode
...... ResourceManager
# slaves上啟動的服務
[root@hadoop-2 etc]# jps
...... NodeManager
...... DataNode
```
- shell編程
- 變量1-規范-環境變量-普通變量
- 變量2-位置-狀態-特殊變量
- 變量3-變量子串
- 變量4-變量賦值三種方法
- 變量5-數組相關
- 計算1-數值計算命令和案例
- 計算2-expr命令舉例
- 計算3-條件表達式和各種操作符
- 計算4-條件表達式和操作符案例
- 循環1-函數的概念與作用
- 循環2-if與case語法
- 循環3-while語法
- 循環4-for循環
- 其他1-判斷傳入的參數為0或整數的多種思路
- 其他2-while+read按行讀取文件
- 其他3-給輸出內容加顏色
- 其他4-shell腳本后臺運行知識
- 其他5-6種產生隨機數的方法
- 其他6-break,continue,exit,return區別
- if語法案例
- case語法案例
- 函數語法案例
- WEB服務軟件
- nginx相關
- 01-簡介與對比
- 02-日志說明
- 03-配置文件和虛擬主機
- 04-location模塊和訪問控制
- 05-status狀態模塊
- 06-rewrite重寫模塊
- 07-負載均衡和反向代理
- 08-反向代理監控虛擬IP地址
- nginx與https自簽發證書
- php-nginx-mysql聯動
- Nginx編譯安裝[1.12.2]
- 案例
- 不同客戶端顯示不同信息
- 上傳和訪問資源池分離
- 配置文件
- nginx轉發解決跨域問題
- 反向代理典型配置
- php相關
- C6編譯安裝php.5.5.32
- C7編譯php5
- C6/7yum安裝PHP指定版本
- tomcxat相關
- 01-jkd與tomcat部署
- 02-目錄-日志-配置文件介紹
- 03-tomcat配置文件詳解
- 04-tomcat多實例和集群
- 05-tomcat監控和調優
- 06-Tomcat安全管理規范
- show-busy-java-threads腳本
- LVS與keepalived
- keepalived
- keepalived介紹和部署
- keepalived腦裂控制
- keepalived與nginx聯動-監控
- keepalived與nginx聯動-雙主
- LVS負載均衡
- 01-LVS相關概念
- 02-LVS部署實踐-ipvsadm
- 03-LVS+keepalived部署實踐
- 04-LVS的一些問題和思路
- mysql數據庫
- 配置和腳本
- 5.6基礎my.cnf
- 5.7基礎my.cnf
- 多種安裝方式
- 詳細用法和命令
- 高可用和讀寫分離
- 優化和壓測
- docker與k8s
- docker容器技術
- 1-容器和docker基礎知識
- 2-docker軟件部署
- 3-docker基礎操作命令
- 4-數據的持久化和共享互連
- 5-docker鏡像構建
- 6-docker鏡像倉庫和標簽tag
- 7-docker容器的網絡通信
- 9-企業級私有倉庫harbor
- docker單機編排技術
- 1-docker-compose快速入門
- 2-compose命令和yaml模板
- 3-docker-compose命令
- 4-compose/stack/swarm集群
- 5-命令補全和資源限制
- k8s容器編排工具
- mvn的dockerfile打包插件
- openstack與KVM
- kvm虛擬化
- 1-KVM基礎與快速部署
- 2-KVM日常管理命令
- 3-磁盤格式-快照和克隆
- 4-橋接網絡-熱添加與熱遷移
- openstack云平臺
- 1-openstack基礎知識
- 2-搭建環境準備
- 3-keystone認證服務部署
- 4-glance鏡像服務部署
- 5-nova計算服務部署
- 6-neutron網絡服務部署
- 7-horizon儀表盤服務部署
- 8-啟動openstack實例
- 9-添加計算節點流程
- 10-遷移glance鏡像服務
- 11-cinder塊存儲服務部署
- 12-cinder服務支持NFS存儲
- 13-新增一個網絡類型
- 14-云主機冷遷移前提設置
- 15-VXALN網絡類型配置
- 未分類雜項
- 部署環境準備
- 監控
- https證書
- python3.6編譯安裝
- 編譯安裝curl[7.59.0]
- 修改Redhat7默認yum源為阿里云
- 升級glibc至2.17
- rabbitmq安裝和啟動
- rabbitmq多實例部署[命令方式]
- mysql5.6基礎my.cnf
- centos6[upstart]/7[systemd]創建守護進程
- Java啟動參數詳解
- 權限控制方案
- app發包倉庫
- 版本發布流程
- elk日志系統
- rsyslog日志統一收集系統
- ELK系統介紹及YUM源
- 快速安裝部署ELK
- Filebeat模塊講解
- logstash的in/output模塊
- logstash的filter模塊
- Elasticsearch相關操作
- ES6.X集群及head插件
- elk收集nginx日志(json格式)
- kibana說明-漢化-安全
- ES安裝IK分詞器
- zabbix監控
- zabbix自動注冊模板實現監控項自動注冊
- hadoop大數據集群
- hadoop部署
- https證書
- certbot網站
- jenkins與CI/CD
- 01-Jenkins部署和初始化
- 02-Jenkins三種插件安裝方式
- 03-Jenkins目錄說明和備份
- 04-git與gitlab項目準備
- 05-構建自由風格項目和相關知識
- 06-構建html靜態網頁項目
- 07-gitlab自動觸發項目構建
- 08-pipelinel流水線構建項目
- 09-用maven構建java項目
- iptables
- 01-知識概念
- 02-常規命令實戰
- 03-企業應用模板
- 04-企業應用模板[1鍵腳本]
- 05-企業案例-共享上網和端口映射
- SSH與VPN
- 常用VPN
- VPN概念和常用軟件
- VPN之PPTP部署[6.x][7.x]
- 使用docker部署softether vpn
- softEther-vpn靜態路由表推送
- SSH服務
- SSH介紹和部署
- SSH批量分發腳本
- 開啟sftp日志并限制sftp訪問目錄
- sftp賬號權限分離-開發平臺
- ssh配置文件最佳實踐
- git-github-gitlab
- git安裝部署
- git詳細用法
- github使用說明
- gitlab部署和使用
- 緩存數據庫
- zookeeper草稿
- mongodb數據庫系列
- mongodb基本使用
- mongodb常用命令
- MongoDB配置文件詳解
- mongodb用戶認證管理
- mongodb備份與恢復
- mongodb復制集群
- mongodb分片集群
- docker部署mongodb
- memcached
- memcached基本概念
- memcached部署[6.x][7.x]
- memcached參數和命令
- memcached狀態和監控
- 會話共享和集群-優化-持久化
- memcached客戶端-web端
- PHP測試代碼
- redis
- 1安裝和使用
- 2持久化-事務-鎖
- 3數據類型和發布訂閱
- 4主從復制和高可用
- 5redis集群
- 6工具-安全-pythonl連接
- redis配置文件詳解
- 磁盤管理和存儲
- Glusterfs分布式存儲
- GlusterFS 4.1 版本選擇和部署
- Glusterfs常用命令整理
- GlusterFS 4.1 深入使用
- NFS文件存儲
- NFS操作和部署
- NFS文件系統-掛載和優化
- sersync與inotify
- rsync同步服務
- rsyncd.conf
- rsync操作和部署文檔
- rsync常見錯誤處理
- inotify+sersync同步服務
- inotify安裝部署
- inotify最佳腳本
- sersync安裝部署
- 時間服務ntp和chrony
- 時間服務器部署
- 修改utc時間為cst時間
- 批量操作與自動化
- cobbler與kickstart
- KS+COBBLER文件
- cobbler部署[7.x]
- kickstart部署[7.x]
- kickstar-KS文件和語法解析
- kickstart-PXE配置文件解析
- 自動化之ansible
- ansible部署和實踐
- ansible劇本編寫規范
- 配置文件示例
- 內網DNS服務
- 壓力測試
- 壓測工具-qpefr測試帶寬和延時