簡介 · JAVA · 看云

[TOC] # HDFS模擬實現 ![](https://box.kancloud.cn/f1d77fbb106ce2da119aaf5770505937_819x468.png) # yarn模擬實現思路 ![](https://box.kancloud.cn/13b1d1785b238d48b2d303e48acfe829_995x500.png) # 三大組件 ## 解決海量數據的存儲問題分布式文件系統（HDFS） 1. 具有分布式的集群結構我們把這樣實際存儲數據的節點叫做 datanode 2. 具有一個統一對外提供查詢存儲搜索機器節點對外跟客戶端統一打交道對內跟實際存儲數據的節點打交道 3. 具有備份的機制解決了機器掛掉時候數據丟失的問題 4. 具有統一的API 對客戶端來說不用操心你集群內部的事情只要我調用你的API，我就可以進行文件的讀取存儲甚至是搜索甚至我們希望可以提供一個分布式文件系統的引用 fs= new FileSystem() fs.add .copy .rm 與其他文件系統不同的是,HDFS一個典型的數據塊大小是128M(HDFS在2.7版本默認的64M升到128M),HDFS中的每個文件都會按照128MB切分成不同的數據塊,每個數據塊會按照設置的副本策略分布到不同的Datanode. HDFS數據塊遠大于其他文件系統,這主要針對大規模的流式數據訪問而做的優化.更大的數據塊意味著更多文件順序讀寫和更小的數據塊管理開銷 ## 解決分布式數據計算(處理)問題分布式的編程模型（MapReduce）思想分而治之：先局部再總體 map(映射) reduce(聚合) 整天上作為一個編程模型：需要給用戶提供一個友好便捷的使用規范比如：你要繼承什么東西配置什么怎么去調用怎么去執行 1. 繼承我們的一個mapper 實現自己的業務邏輯 2. 繼承我們的一個reduce 實現自己的業務邏輯 3. 最好可以提供可供用戶進行相關配置的類或者配置文件作為一個分布式計算框架最好我們還提供一個程序的總管（MrAppmater）用來管理這種分布式計算框架的內部問題：啟動銜接等等 ## 解決了分布式系統的資源管理問題分布式資源管理（yarn）為了更好的管理我們集群的資源最好設計成分布式的架構 1. 需要一個統一對外提供服務的節點（某一機器或者機器上的一個進程一個服務）叫做資源管理者 ResourceManager 2. 需要在集群中的每臺機器上有一個角色用來進行每臺機器資源的管理匯報叫做節點管理者 nodemanager # HADOOP生態圈以及各組成部分的簡介 **各組件簡介** 重點組件： * HDFS：分布式文件系統 * MAPREDUCE：分布式運算程序開發框架 * HIVE：基于大數據技術（文件系統+運算框架）的SQL數據倉庫工具 * HBASE：基于HADOOP的分布式海量數據庫 * ZOOKEEPER：分布式協調服務基礎組件 * Mahout：基于mapreduce/spark/flink等分布式運算框架的機器學習算法庫 * Oozie：工作流調度框架 * Sqoop：數據導入導出工具 * Flume：日志數據采集框架 # 項目架構 ![](https://box.kancloud.cn/fb009f696205aaf1593d60dbc2445364_756x501.png)