## hadoop
> 是一個分布式開源框架,支持成千上萬個節點,每個節點依靠本地的計算和存儲。在應用層面提供高可用,將硬件錯誤看成一個常態。
#### 模塊
- `hdfs`:`hadoop distributed file system`,分布式文件系統,海量數據存儲
- `yarn`:集群資源調度框架
- `mapreduce`:分布式計算框架
#### hdfs
- 分塊存儲,每個塊稱為`block`;設計的分塊不能太大,太大會負載不均衡,hadoop2.x默認的分塊大小為`128M`,如果一個文件不足`128M`也會單獨成塊,塊的大小就是存儲的文件大小
- hdfs中默認塊的存儲采用備份機制,默認的備份個數是3個;配置`dfs.replication`,備份的地位相同,沒有主次之分;
相同的數據塊備份一定存在不同的節點上;