簡介 · 大數據

[TOC] # 什么是hadoop 1. HADOOP是apache旗下的一套開源軟件平臺 2. HADOOP提供的功能：利用服務器集群，根據用戶的自定義業務邏輯，對海量數據進行分布式處理 3. HADOOP的核心組件有 A. HDFS（分布式文件系統） B. YARN（運算資源調度系統） C. MAPREDUCE（分布式運算編程框架） 4. 廣義上來說，HADOOP通常是指一個更廣泛的概念——HADOOP生態圈 # HADOOP產生背景 1. HADOOP最早起源于Nutch。Nutch的設計目標是構建一個大型的全網搜索引擎，包括網頁抓取、索引、查詢等功能，但隨著抓取網頁數量的增加，遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。 2. 2003年、2004年谷歌發表的兩篇論文為該問題提供了可行的解決方案。分布式文件系統（GFS），可用于處理海量網頁的存儲分布式計算框架MAPREDUCE，可用于處理海量網頁的索引計算問題。 3. Nutch的開發人員完成了相應的開源實現HDFS和MAPREDUCE，并從Nutch中剝離成為獨立項目HADOOP，到2008年1月，HADOOP成為Apache頂級項目，迎來了它的快速發展期。 # HADOOP在大數據,云計算中的位置和關系 1. 云計算是分布式計算、并行計算、網格計算、多核計算、網絡存儲、虛擬化、負載均衡等傳統計算機技術和互聯網技術融合發展的產物。借助IaaS(基礎設施即服務)、PaaS(平臺即服務)、SaaS（軟件即服務）等業務模式，把強大的計算能力提供給終端用戶。 2. 現階段，云計算的兩大底層支撐技術為“虛擬化”和“大數據技術” 3. 而HADOOP則是云計算的PaaS層的解決方案之一，并不等同于PaaS，更不等同于云計算本身。 # 國內外HADOOP應用案例介紹 1. HADOOP應用于數據服務基礎平臺建設 ![](https://box.kancloud.cn/c0345abb1248a0539c9ab2843a17bd58_1462x1144.png) 2. HADOOP用于用戶畫像 ![](https://box.kancloud.cn/79b99c489fc72f1c6760f0c9c6cace99_2164x896.png) 3. HADOOP用于網站點擊流日志數據挖掘金融行業：個人征信分析證券行業：投資模型分析交通行業：車輛、路況監控分析電信行業：用戶上網行為分析 ...... 總之：hadoop并不會跟某種具體的行業或者某個具體的業務掛鉤，它只是一種用來做海量數據分析處理的工具 ![](https://box.kancloud.cn/d29132e12ea8e837873cd9d6c1a21779_2200x1298.png) # HDFS模擬實現 ![](https://box.kancloud.cn/ef30db8377a4a0fbe6f8d8398b6b82a8_821x464.png) # yarn模擬實現思路 ![](https://box.kancloud.cn/0f929c556c65773a1be9b5361c81b1c1_738x379.png) # 三大組件 ## 解決海量數據的存儲問題分布式文件系統（HDFS） 1. 具有分布式的集群結構我們把這樣實際存儲數據的節點叫做 datanode 2. 具有一個統一對外提供查詢存儲搜索機器節點對外跟客戶端統一打交道對內跟實際存儲數據的節點打交道 3. 具有備份的機制解決了機器掛掉時候數據丟失的問題 4. 具有統一的API 對客戶端來說不用操心你集群內部的事情只要我調用你的API，我就可以進行文件的讀取存儲甚至是搜索甚至我們希望可以提供一個分布式文件系統的引用 fs= new FileSystem() fs.add .copy .rm ## 解決分布式數據計算（處理）問題分布式的編程模型（MapReduce）思想分而治之：先局部再總體 map(映射) reduce(聚合) 整天上作為一個編程模型：需要給用戶提供一個友好便捷的使用規范比如：你要繼承什么東西配置什么怎么去調用怎么去執行 1. 繼承我們的一個mapper 實現自己的業務邏輯 2. 繼承我們的一個reduce 實現自己的業務邏輯 3. 最好可以提供可供用戶進行相關配置的類或者配置文件作為一個分布式計算框架最好我們還提供一個程序的總管（MrAppmater）用來管理這種分布式計算框架的內部問題：啟動銜接等等 ## 解決了分布式系統的資源管理問題分布式資源管理（yarn）為了更好的管理我們集群的資源最好設計成分布式的架構 1. 需要一個統一對外提供服務的節點（某一機器或者機器上的一個進程一個服務）叫做資源管理者 ResourceManager 2. 需要在集群中的每臺機器上有一個角色用來進行每臺機器資源的管理匯報叫做節點管理者 nodemanager # HADOOP生態圈以及各組成部分的簡介 ![](https://box.kancloud.cn/5ed5fbbd2b33361f0146970dfa457918_1734x1182.png) **各組件簡介** 重點組件： * HDFS：分布式文件系統 * MAPREDUCE：分布式運算程序開發框架 * HIVE：基于大數據技術（文件系統+運算框架）的SQL數據倉庫工具 * HBASE：基于HADOOP的分布式海量數據庫 * ZOOKEEPER：分布式協調服務基礎組件 * Mahout：基于mapreduce/spark/flink等分布式運算框架的機器學習算法庫 * Oozie：工作流調度框架 * Sqoop：數據導入導出工具 * Flume：日志數據采集框架 # 項目架構 ![](https://box.kancloud.cn/ed1c68db0fc45948e4f2c5640564e37e_1488x996.png)