[TOC]
# 集群簡介
HADOOP集群具體來說包含兩個集群:HDFS集群和YARN集群,兩者邏輯上分離,但物理上常在一起
HDFS集群:
負責海量數據的存儲,集群中的角色主要有 NameNode / DataNode
YARN集群:
負責海量數據運算時的資源調度,集群中的角色主要有 ResourceManager /NodeManager
(那mapreduce是什么呢?它其實是一個應用程序開發包)
本集群搭建案例,以5節點為例進行搭建,角色分配如下
~~~
hdp-node-01 NameNode SecondaryNameNode
hdp-node-02 ResourceManager
hdp-node-03 DataNode NodeManager
hdp-node-04 DataNode NodeManager
hdp-node-05 DataNode NodeManager
~~~
**萬萬注意,hosts中不要127.0.0.1指定自己主機的別名**

# 安裝hadoop
安裝jdk,1.8或者1.7
archive.apache.org/dist
這個下面有apache各個項目
下載hadoop
~~~
wget https://archive.apache.org/dist/hadoop/common/hadoop-3.0.0/hadoop-3.0.0.tar.gz
或者
wget https://archive.apache.org/dist/hadoop/common/hadoop-2.6.4/hadoop-2.6.4.tar.gz
~~~
# 注意
把下面的有關ip配置成`/etc/hosts`下面的別名對應ip,不然會報錯
還有hostname不能搞錯
**時間同步**
# 配置文件
## hadoop-env.sh
hadoop下的`/etc/hadoop/`
里面有個`hadoop-env.sh`
把`export JAVA_HOME=/usr/local/jdk8`這個改下,原來是沒有值的
## core-site.xml
~~~
<configuration>
<!-- 指定hadoop所使用的文件系統schema(URI),HDFS老大(NameNode)的地址,指定的默認的文件系統,可以是別的,比如file:/ 還有TFS -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.33.12:9000</value>
</property>
<!-- 指定hadoop運行時產生文件的存儲目錄 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/root/hadoop3/tmp/hadoop</value>
</property>
</configuration>
~~~
## hdfs-site.xml
~~~
<configuration>
<!-- 指定namenode的數據存放在哪里 -->
<property>
<name>dfs.namenode.name.dir</name>
<value>/root/hadoop3/tmp/namenode</value>
</property>
<!-- 指定datanode數據存放在哪里,路徑可以配置多個,用,號隔開,不是容災的,是負載的-->
<property>
<name>dfs.datanode.data.dir</name>
<value>/root/hadoop3/tmp/datanode</value>
</property>
<!--指定hdfs副本數量,默認是5個,這邊設置為1個,保證數據備份和管理機制-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!--web端口-->
<property>
<name>dfs.secondary.http.address</name>
<value>192.168.33.12:50090</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>
~~~
**冗余數據塊自動刪除**
可配置刪除的速度
~~~
<property>
<name>dfs.blockreport.intervalMsec</name>
<value>3600000</value>
<description>Determines block reporting interval in milliseconds</description>
</property>
~~~
**通信超時設置**
通信超時時間默認是10分30秒
`timeout = 2*heartbeat.recheck.interval+10*dfs.heartbeat.interval`
2次5分鐘的重試時間,10次心跳時間,還連不上就認為datanode已經掛了
需要注意的是hdfs-site.xml配置文件中的heartbeat.recheck.interval的單位為毫秒,
dfs.heartbeat.interval的單位為秒
## mapred-site.xml
如果沒有這個文件`cp mapred-site.xml.template mapred-site.xml`
~~~
<configuration>
<!--指定mr運行在yarn上,用yarn去管理mapreduce,也可以寫local,那就是jvm的線程去模擬 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
~~~
**配置歷史服務器**
~~~
<property>
<name>mapreduce.jobhistory.address</name>
<value>host:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>host:19888</value>
</property>
<property>
<name>mapreduce.jobhistory.done-dir</name>
<value>/history/done</value>
</property>
<property>
<name>mapreduce.jobhistory.intermediate-done-dir</name>
<value>/history/done_intermediate</value>
</property>
~~~
## yarn-site.xml
~~~
<configuration>
<!-- Site specific YARN configuration properties -->
<!--指定yarn的老大(ResourceManager)的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>192.168.33.12</value>
</property>
<!--reducer獲取數據的方式-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
~~~
開啟日期聚集和保留設置
~~~
<!-- 日志聚集功能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 日志保留時間設置7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
~~~
## 將hadoop添加到環境變量`/etc/profile`
~~~
# hadoop
export HADOOP_HOME=/root/hadoop3
export PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH
~~~
source下
注意這些文件夾要提前創建
如果報一些錯誤
~~~
file:///data
~~~
試下加`file:///`這種的
# 啟動
首先要namenode格式下,前面是1版本,后面是2版本
namenode的初始化
~~~
hdfs namenode -format(hadoop namenode -format)
~~~
分發到各個節點
然后顯示

表示目錄已經被成功初始化了
~~~
[root@12 current]# pwd
/root/hadoop3/tmp/namenode/current
[root@12 current]# ls -lah
total 16K
drwxr-xr-x 2 root root 112 Apr 7 12:31 .
drwxr-xr-x 3 root root 21 Apr 7 12:31 ..
-rw-r--r-- 1 root root 389 Apr 7 12:31 fsimage_0000000000000000000
-rw-r--r-- 1 root root 62 Apr 7 12:31 fsimage_0000000000000000000.md5
-rw-r--r-- 1 root root 2 Apr 7 12:31 seen_txid
-rw-r--r-- 1 root root 212 Apr 7 12:31 VERSION
~~~
里面fsi什么的是鏡像文件
seen_txid是迭代的版本號
然后我們查看下版本號
~~~
[root@12 current]# cat VERSION
#Sat Apr 07 12:31:09 UTC 2018
namespaceID=1413563114
clusterID=CID-6208de96-1ce0-4eea-b3df-f7a81c25f6b3
cTime=1523104269939
storageType=NAME_NODE
blockpoolID=BP-871390616-0.0.0.12-1523104269939
layoutVersion=-64
~~~
比如我namenode的clusterID是這個,其他的datanode的clusterID也是這個值表示是一個集群
## 方式一:每個守護線程逐一啟動
啟動順序如下:
NameNode,DateNode,SecondaryNameNode,JobTracker,TaskTracker
Hadoop-daemon.sh:用于啟動當前節點的進程
例如Hadoop-daemon.sh start namenode 用于啟動當前的名稱節點
Hadoop-daemons.sh:用于啟動所有節點的進程
例如:Hadoop-daemons.sh start datanode 用于啟動所有節點的數據節點
~~~
[root@12 sbin]# hadoop-daemon.sh start namenode
~~~
~~~
[root@12 sbin]# hadoop-daemon.sh start datanode
WARNING: Use of this script to start HDFS daemons is deprecated.
WARNING: Attempting to execute replacement "hdfs --daemon start" instead.
~~~
這種警告意思就是hadoop這個命令被hdfs替代了
這個命令在各個datanode都要執行
~~~
[root@12 sbin]# hadoop-daemon.sh start secondarynamenode
~~~
查看下進程
~~~
[root@12 sbin]# jps
3856 DataNode
4019 Jps
3988 SecondaryNameNode
3515 NameNode
~~~
注意最大文件數打開,不然一啟動就可能等會就退出了
~~~
yarn-daemon.sh start resourcemanager
yarn-daemon.sh start nodemanager
~~~
## 前提
**文件最大打開數限制**
**ssh免密登錄**
注意authorized_keys這個文件里面的東西不要寫錯,前面ssh不要寫成sh,后面也不要少
還有.ssh權限問題
~~~
# mkdir /root/.ssh
# chown -R root:root /home/ansible
# chmod 700 /root
# chmod 700 /root/.ssh
# chmod 644 /root/.ssh/authorized_keys //公鑰文件的所有權限
# chmod 600 /root/.ssh/id_rsa //私鑰文件的所有權限
~~~
其中這兩項`PubkeyAuthentication yes` 和`PasswordAuthentication no`的值都要為yes,即公鑰認證和密碼認證都要為yes,因為我連接的方式是通過這兩種方式來連接的,
重啟sshd服務
`systemctl restart sshd.service`
mac要注意共享設置,允許遠程登錄
## 方法二:全部啟動或者全部停止
**啟動**
~~~
start-all.sh
~~~
啟動順序:`NameNode,DateNode,SecondaryNameNode,JobTracker,TaskTracker`
**停止**
~~~
stop-all.sh
~~~
關閉順序性:`JobTracker,TaskTracker,NameNode,DateNode,SecondaryNameNode`
## 方法三:分別啟動
首先創建slaves這個文件,在hadoop的配置文件
~~~
192.168.33.12
192.169.33.22
192.168.33.3
~~~
如果你是指定master,slave1這樣的話,那么這就寫別名
注意即使master和192.169.0.10一樣,你這邊也要寫對,否則ssh那邊known_hosts沒有的話會報錯
把這個slaves這個文件放到其他機器上,寫完最好檢查下
如果是hadoop3的話,這邊是workers,不是slaves
啟動:分別啟動HDFS和yarn
~~~
start-dfs.sh
start-yarn.sh
~~~
這個需要
### 問題
**問題1**
~~~
Starting namenodes on [localhost]
ERROR: Attempting to launch hdfs namenode as root
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting launch.
~~~
解決:
是因為缺少用戶定義造成的,所以分別編輯開始和關閉腳本
~~~
$ vim sbin/start-dfs.sh
$ vim sbin/stop-dfs.sh
~~~
在空白處添加內容:
~~~
HDFS_DATANODE_USER=root
HDFS_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
~~~
**問題2**
~~~
Starting resourcemanager
ERROR: Attempting to launch yarn resourcemanager as root
ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. Aborting launch.
Starting nodemanagers
ERROR: Attempting to launch yarn nodemanager as root
ERROR: but there is no YARN_NODEMANAGER_USER defined. Aborting launch.
~~~
~~~
解決:
是因為缺少用戶定義造成的,所以分別編輯開始和關閉腳本
$ vim sbin/start-yarn.sh
$ vim sbin/stop-yarn.sh
~~~
在空白處添加內容:
~~~
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
~~~
## 啟動history
啟動history-server
~~~
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver
~~~
停止history-server
~~~
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh stop historyserver
~~~
history-server啟動之后,可以通過瀏覽器訪問WEBUI: host:19888
在hdfs上會生成兩個目錄
hadoop fs -ls /history
~~~
drwxrwx--- - spark supergroup 0 2014-10-11 15:11 /history/done
drwxrwxrwt - spark supergroup 0 2014-10-11 15:16 /history/done_intermediate
~~~
這個目錄是在mapred-site.xml中配置的
mapreduce.jobhistory.done-dir(/history/done): Directory where history files are managed by the MR JobHistory Server(已完成作業信息)
mapreduce.jobhistory.intermediate-done-dir(/history/done_intermediate): Directory where history files are written by MapReduce jobs.(正在運行作業信息)
測試:
通過hive查詢city表觀察hdfs文件目錄和hadoop000:19888
~~~
hive> select id, name from city;
~~~
觀察hdfs文件目錄:
1. 歷史作業記錄是按照年/月/日的形式分別存放在相應的目錄(/history/done/2014/10/11/000000);
2. 每個作業有2個不同的后綴名的記錄:jhist和xml
~~~
hadoop fs -ls /history/done/2014/10/11/000000
-rwxrwx--- 1 spark supergroup 22572 2014-10-11 15:23 /history/done/2014/10/11/000000/job_1413011730351_0002-1413012208648-spark-select+id%2C+name+from+city%28Stage%2D1%29-1413012224777-1-0-SUCCEEDED-root.spark-1413012216261.jhist
-rwxrwx--- 1 spark supergroup 160149 2014-10-11 15:23 /history/done/2014/10/11/000000/job_1413011730351_0002_conf.xml
~~~
# web端查看
訪問 `http://192.168.33.12:8088/`

訪問 `http://192.168.33.12:9870`,注意,這里是9870,不是50070了:


## 試用
把這個文件放到文件系統的/下
~~~
hdfs dfs -put anaconda-ks.cfg /
~~~
從本地上傳一個文本文件到hdfs的/wordcount/input目錄下
~~~
[HADOOP@hdp-node-01 ~]$ HADOOP fs -mkdir -p /wordcount/input
[HADOOP@hdp-node-01 ~]$ HADOOP fs -put /home/HADOOP/somewords.txt /wordcount/input
~~~
查看集群狀態
~~~
hdfs dfsadmin –report
~~~
查看HDFS中的目錄信息
~~~
hadoop fs –ls /
~~~
從HDFS下載文件
~~~
hadoop fs -get /yarn-site.xml
~~~
# 本地庫
lib/native/
文件夾下,是和平臺相關的
本地編譯的話,要注意這里
# 例子
~~~
cd /root/hadoop2/share/hadoop/mapreduce
~~~
然后我們計算下圓周率
~~~
hadoop jar hadoop-mapreduce-examples-2.6.4.jar pi 4 8
~~~
任務

- 基礎
- 編譯和安裝
- classpath到底是什么?
- 編譯運行
- 安裝
- sdkman多版本
- jabba多版本
- java字節碼查看
- 數據類型
- 簡介
- 整形
- char和int
- 變量和常量
- 大數值運算
- 基本類型包裝類
- Math類
- 內存劃分
- 位運算符
- 方法相關
- 方法重載
- 可變參數
- 方法引用
- 面向對象
- 定義
- 繼承和覆蓋
- 接口和抽象類
- 接口定義增強
- 內建函數式接口
- 多態
- 泛型
- final和static
- 內部類
- 包
- 修飾符
- 異常
- 枚舉類
- 代碼塊
- 對象克隆
- BeanUtils
- java基礎類
- scanner類
- Random類
- System類
- Runtime類
- Comparable接口
- Comparator接口
- MessageFormat類
- NumberFormat
- 數組相關
- 數組
- Arrays
- string相關
- String
- StringBuffer
- StringBuilder
- 正則
- 日期類
- Locale類
- Date
- DateFormat
- SimpleDateFormat
- Calendar
- 新時間日期API
- 簡介
- LocalDate,LocalTime,LocalDateTime
- Instant時間點
- 帶時區的日期,時間處理
- 時間間隔
- 日期時間校正器
- TimeUnit
- 用yyyy
- 集合
- 集合和迭代器
- ArrayList集合
- List
- Set
- 判斷集合唯一
- Map和Entry
- stack類
- Collections集合工具類
- Stream數據流
- foreach不能修改內部元素
- of方法
- IO
- File類
- 字節流stream
- 字符流Reader
- IO流分類
- 轉換流
- 緩沖流
- 流的操作規律
- properties
- 序列化流與反序列化流
- 打印流
- System類對IO支持
- commons-IO
- IO流總結
- NIO
- 異步與非阻塞
- IO通信
- Unix的IO模型
- epoll對于文件描述符操作模式
- 用戶空間和內核空間
- NIO與普通IO的主要區別
- Paths,Path,Files
- Buffer
- Channel
- Selector
- Pipe
- Charset
- NIO代碼
- 多線程
- 創建線程
- 線程常用方法
- 線程池相關
- 線程池概念
- ThreadPoolExecutor
- Runnable和Callable
- 常用的幾種線程池
- 線程安全
- 線程同步的幾種方法
- synchronized
- 死鎖
- lock接口
- ThreadLoad
- ReentrantLock
- 讀寫鎖
- 鎖的相關概念
- volatile
- 釋放鎖和不釋放鎖的操作
- 等待喚醒機制
- 線程狀態
- 守護線程和普通線程
- Lamda表達式
- 反射相關
- 類加載器
- 反射
- 注解
- junit注解
- 動態代理
- 網絡編程相關
- 簡介
- UDP
- TCP
- 多線程socket上傳圖片
- NIO
- JDBC相關
- JDBC
- 預處理
- 批處理
- 事務
- properties配置文件
- DBUtils
- DBCP連接池
- C3P0連接池
- 獲得MySQL自動生成的主鍵
- Optional類
- Jigsaw模塊化
- 日志相關
- JDK日志
- log4j
- logback
- xml
- tomcat
- maven
- 簡介
- 倉庫
- 目錄結構
- 常用命令
- 生命周期
- idea配置
- jar包沖突
- 依賴范圍
- 私服
- 插件
- git-commit-id-plugin
- maven-assembly-plugin
- maven-resources-plugin
- maven-compiler-plugin
- versions-maven-plugin
- maven-source-plugin
- tomcat-maven-plugin
- 多環境
- 自定義插件
- stream
- swing
- json
- jackson
- optional
- junit
- gradle
- servlet
- 配置
- ServletContext
- 生命周期
- HttpServlet
- request
- response
- 亂碼
- session和cookie
- cookie
- session
- jsp
- 簡介
- 注釋
- 方法,成員變量
- 指令
- 動作標簽
- 隱式對象
- EL
- JSTL
- javaBean
- listener監聽器
- Filter過濾器
- 圖片驗證碼
- HttpUrlConnection
- 國際化
- 文件上傳
- 文件下載
- spring
- 簡介
- Bean
- 獲取和實例化
- 屬性注入
- 自動裝配
- 繼承和依賴
- 作用域
- 使用外部屬性文件
- spel
- 前后置處理器
- 生命周期
- 掃描規則
- 整合多個配置文件
- 注解
- 簡介
- 注解分層
- 類注入
- 分層和作用域
- 初始化方法和銷毀方法
- 屬性
- 泛型注入
- Configuration配置文件
- aop
- aop的實現
- 動態代理實現
- cglib代理實現
- aop名詞
- 簡介
- aop-xml
- aop-注解
- 代理方式選擇
- jdbc
- 簡介
- JDBCTemplate
- 事務
- 整合
- junit整合
- hibernate
- 簡介
- hibernate.properties
- 實體對象三種狀態
- 檢索方式
- 簡介
- 導航對象圖檢索
- OID檢索
- HQL
- Criteria(QBC)
- Query
- 緩存
- 事務管理
- 關系映射
- 注解
- 優化
- MyBatis
- 簡介
- 入門程序
- Mapper動態代理開發
- 原始Dao開發
- Mapper接口開發
- SqlMapConfig.xml
- map映射文件
- 輸出返回map
- 輸入參數
- pojo包裝類
- 多個輸入參數
- resultMap
- 動態sql
- 關聯
- 一對一
- 一對多
- 多對多
- 整合spring
- CURD
- 占位符和sql拼接以及參數處理
- 緩存
- 延遲加載
- 注解開發
- springMVC
- 簡介
- RequestMapping
- 參數綁定
- 常用注解
- 響應
- 文件上傳
- 異常處理
- 攔截器
- springBoot
- 配置
- 熱更新
- java配置
- springboot配置
- yaml語法
- 運行
- Actuator 監控
- 多環境配置切換
- 日志
- 日志簡介
- logback和access
- 日志文件配置屬性
- 開機自啟
- aop
- 整合
- 整合Redis
- 整合Spring Data JPA
- 基本查詢
- 復雜查詢
- 多數據源的支持
- Repository分析
- JpaSpeci?cationExecutor
- 整合Junit
- 整合mybatis
- 常用注解
- 基本操作
- 通用mapper
- 動態sql
- 關聯映射
- 使用xml
- spring容器
- 整合druid
- 整合郵件
- 整合fastjson
- 整合swagger
- 整合JDBC
- 整合spingboot-cache
- 請求
- restful
- 攔截器
- 常用注解
- 參數校驗
- 自定義filter
- websocket
- 響應
- 異常錯誤處理
- 文件下載
- 常用注解
- 頁面
- Thymeleaf組件
- 基本對象
- 內嵌對象
- 上傳文件
- 單元測試
- 模擬請求測試
- 集成測試
- 源碼解析
- 自動配置原理
- 啟動流程分析
- 源碼相關鏈接
- Servlet,Filter,Listener
- springcloud
- 配置
- 父pom
- 創建子工程
- Eureka
- Hystrix
- Ribbon
- Feign
- Zuul
- kotlin
- 基本數據類型
- 函數
- 區間
- 區塊鏈
- 簡介
- linux
- ulimit修改
- 防止syn攻擊
- centos7部署bbr
- debain9開啟bbr
- mysql
- 隔離性
- sql執行加載順序
- 7種join
- explain
- 索引失效和優化
- 表連接優化
- orderby的filesort問題
- 慢查詢
- show profile
- 全局查詢日志
- 死鎖解決
- sql
- 主從
- IDEA
- mac快捷鍵
- 美化界面
- 斷點調試
- 重構
- springboot-devtools熱部署
- IDEA進行JAR打包
- 導入jar包
- ProjectStructure
- toString添加json模板
- 配置maven
- Lombok插件
- rest client
- 文檔顯示
- sftp文件同步
- 書簽
- 代碼查看和搜索
- postfix
- live template
- git
- 文件頭注釋
- JRebel
- 離線模式
- xRebel
- github
- 連接mysql
- 選項沒有Java class的解決方法
- 擴展
- 項目配置和web部署
- 前端開發
- json和Inject language
- idea內存和cpu變高
- 相關設置
- 設計模式
- 單例模式
- 簡介
- 責任鏈
- JUC
- 原子類
- 原子類簡介
- 基本類型原子類
- 數組類型原子類
- 引用類型原子類
- JVM
- JVM規范內存解析
- 對象的創建和結構
- 垃圾回收
- 內存分配策略
- 備注
- 虛擬機工具
- 內存模型
- 同步八種操作
- 內存區域大小參數設置
- happens-before
- web service
- tomcat
- HTTPS
- nginx
- 變量
- 運算符
- 模塊
- Rewrite規則
- Netty
- netty為什么沒用AIO
- 基本組件
- 源碼解讀
- 簡單的socket例子
- 準備netty
- netty服務端啟動
- 案例一:發送字符串
- 案例二:發送對象
- websocket
- ActiveMQ
- JMS
- 安裝
- 生產者-消費者代碼
- 整合springboot
- kafka
- 簡介
- 安裝
- 圖形化界面
- 生產過程分析
- 保存消息分析
- 消費過程分析
- 命令行
- 生產者
- 消費者
- 攔截器interceptor
- partition
- kafka為什么快
- kafka streams
- kafka與flume整合
- RabbitMQ
- AMQP
- 整體架構
- RabbitMQ安裝
- rpm方式安裝
- 命令行和管控頁面
- 消息生產與消費
- 整合springboot
- 依賴和配置
- 簡單測試
- 多方測試
- 對象支持
- Topic Exchange模式
- Fanout Exchange訂閱
- 消息確認
- java client
- RabbitAdmin和RabbitTemplate
- 兩者簡介
- RabbitmqAdmin
- RabbitTemplate
- SimpleMessageListenerContainer
- MessageListenerAdapter
- MessageConverter
- 詳解
- Jackson2JsonMessageConverter
- ContentTypeDelegatingMessageConverter
- lucene
- 簡介
- 入門程序
- luke查看索引
- 分析器
- 索引庫維護
- elasticsearch
- 配置
- 插件
- head插件
- ik分詞插件
- 常用術語
- Mapping映射
- 數據類型
- 屬性方法
- Dynamic Mapping
- Index Template 索引模板
- 管理映射
- 建立映射
- 索引操作
- 單模式下CURD
- mget多個文檔
- 批量操作
- 版本控制
- 基本查詢
- Filter過濾
- 組合查詢
- 分析器
- redis
- String
- list
- hash
- set
- sortedset
- 發布訂閱
- 事務
- 連接池
- 管道
- 分布式可重入鎖
- 配置文件翻譯
- 持久化
- RDB
- AOF
- 總結
- Lettuce
- zookeeper
- zookeeper簡介
- 集群部署
- Observer模式
- 核心工作機制
- zk命令行操作
- zk客戶端API
- 感知服務動態上下線
- 分布式共享鎖
- 原理
- zab協議
- 兩階段提交協議
- 三階段提交協議
- Paxos協議
- ZAB協議
- hadoop
- 簡介
- hadoop安裝
- 集群安裝
- 單機安裝
- linux編譯hadoop
- 添加新節點
- 退役舊節點
- 集群間數據拷貝
- 歸檔
- 快照管理
- 回收站
- 檢查hdfs健康狀態
- 安全模式
- hdfs簡介
- hdfs命令行操作
- 常見問題匯總
- hdfs客戶端操作
- mapreduce工作機制
- 案例-單詞統計
- 局部聚合Combiner
- combiner流程
- combiner案例
- 自定義排序
- 自定義Bean對象
- 排序的分類
- 案例-按總量排序需求
- 一次性完成統計和排序
- 分區
- 分區簡介
- 案例-結果分區
- 多表合并
- reducer端合并
- map端合并(分布式緩存)
- 分組
- groupingComparator
- 案例-求topN
- 全局計數器
- 合并小文件
- 小文件的弊端
- CombineTextInputFormat機制
- 自定義InputFormat
- 自定義outputFormat
- 多job串聯
- 倒排索引
- 共同好友
- 串聯
- 數據壓縮
- InputFormat接口實現類
- yarn簡介
- 推測執行算法
- 本地提交到yarn
- 框架運算全流程
- 數據傾斜問題
- mapreduce的優化方案
- HA機制
- 優化
- Hive
- 安裝
- shell參數
- 數據類型
- 集合類型
- 數據庫
- DDL操作
- 創建表
- 修改表
- 分區表
- 分桶表
- DML操作
- load
- insert
- select
- export,import
- Truncate
- 注意
- 嚴格模式
- 函數
- 內置運算符
- 內置函數
- 自定義函數
- Transfrom實現
- having和where不同
- 壓縮
- 存儲
- 存儲和壓縮結合使用
- explain詳解
- 調優
- Fetch抓取
- 本地模式
- 表的優化
- GroupBy
- count(Distinct)去重統計
- 行列過濾
- 動態分區調整
- 數據傾斜
- 并行執行
- JVM重用
- 推測執行
- reduce內存和個數
- sql查詢結果作為變量(shell)
- youtube
- flume
- 簡介
- 安裝
- 常用組件
- 攔截器
- 案例
- 監聽端口到控制臺
- 采集目錄到HDFS
- 采集文件到HDFS
- 多個agent串聯
- 日志采集和匯總
- 單flume多channel,sink
- 自定義攔截器
- 高可用配置
- 使用注意
- 監控Ganglia
- sqoop
- 安裝
- 常用命令
- 數據導入
- 準備數據
- 導入數據到HDFS
- 導入關系表到HIVE
- 導入表數據子集
- 增量導入
- 數據導出
- 打包腳本
- 作業
- 原理
- azkaban
- 簡介
- 安裝
- 案例
- 簡介
- command類型單一job
- command類型多job工作流flow
- HDFS操作任務
- mapreduce任務
- hive腳本任務
- oozie
- 安裝
- hbase
- 簡介
- 系統架構
- 物理存儲
- 尋址機制
- 讀寫過程
- 安裝
- 命令行
- 基本CURD
- java api
- CURD
- CAS
- 過濾器查詢
- 建表高級屬性
- 與mapreduce結合
- 與sqoop結合
- 協處理器
- 參數配置優化
- 數據備份和恢復
- 節點管理
- 案例-點擊流
- 簡介
- HUE
- 安裝
- storm
- 簡介
- 安裝
- 集群啟動及任務過程分析
- 單詞統計
- 單詞統計(接入kafka)
- 并行度和分組
- 啟動流程分析
- ACK容錯機制
- ACK簡介
- BaseRichBolt簡單使用
- BaseBasicBolt簡單使用
- Ack工作機制
- 本地目錄樹
- zookeeper目錄樹
- 通信機制
- 案例
- 日志告警
- 工具
- YAPI
- chrome無法手動拖動安裝插件
- 時間和空間復雜度
- jenkins
- 定位cpu 100%
- 常用腳本工具
- OOM問題定位
- scala
- 編譯
- 基本語法
- 函數
- 數組常用方法
- 集合
- 并行集合
- 類
- 模式匹配
- 異常
- tuple元祖
- actor并發編程
- 柯里化
- 隱式轉換
- 泛型
- 迭代器
- 流stream
- 視圖view
- 控制抽象
- 注解
- spark
- 企業架構
- 安裝
- api開發
- mycat
- Groovy
- 基礎