<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                合規國際互聯網加速 OSASE為企業客戶提供高速穩定SD-WAN國際加速解決方案。 廣告
                [TOC] # 什么是hadoop 1. HADOOP是apache旗下的一套開源軟件平臺 2. HADOOP提供的功能:利用服務器集群,根據用戶的自定義業務邏輯,對海量數據進行分布式處理 3. HADOOP的核心組件有 A. HDFS(分布式文件系統) B. YARN(運算資源調度系統) C. MAPREDUCE(分布式運算編程框架) 4. 廣義上來說,HADOOP通常是指一個更廣泛的概念——HADOOP生態圈 # HADOOP產生背景 1. HADOOP最早起源于Nutch。Nutch的設計目標是構建一個大型的全網搜索引擎,包括網頁抓取、索引、查詢等功能,但隨著抓取網頁數量的增加,遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。 2. 2003年、2004年谷歌發表的兩篇論文為該問題提供了可行的解決方案。 分布式文件系統(GFS),可用于處理海量網頁的存儲 分布式計算框架MAPREDUCE,可用于處理海量網頁的索引計算問題。 3. Nutch的開發人員完成了相應的開源實現HDFS和MAPREDUCE,并從Nutch中剝離成為獨立項目HADOOP,到2008年1月,HADOOP成為Apache頂級項目,迎來了它的快速發展期。 # HADOOP在大數據,云計算中的位置和關系 1. 云計算是分布式計算、并行計算、網格計算、多核計算、網絡存儲、虛擬化、負載均衡等傳統計算機技術和互聯網技術融合發展的產物。借助IaaS(基礎設施即服務)、PaaS(平臺即服務)、SaaS(軟件即服務)等業務模式,把強大的計算能力提供給終端用戶。 2. 現階段,云計算的兩大底層支撐技術為“虛擬化”和“大數據技術” 3. 而HADOOP則是云計算的PaaS層的解決方案之一,并不等同于PaaS,更不等同于云計算本身。 # 國內外HADOOP應用案例介紹 1. HADOOP應用于數據服務基礎平臺建設 ![](https://box.kancloud.cn/c0345abb1248a0539c9ab2843a17bd58_1462x1144.png) 2. HADOOP用于用戶畫像 ![](https://box.kancloud.cn/79b99c489fc72f1c6760f0c9c6cace99_2164x896.png) 3. HADOOP用于網站點擊流日志數據挖掘 金融行業: 個人征信分析 證券行業: 投資模型分析 交通行業: 車輛、路況監控分析 電信行業:用戶上網行為分析 ...... 總之:hadoop并不會跟某種具體的行業或者某個具體的業務掛鉤,它只是一種用來做海量數據分析處理的工具 ![](https://box.kancloud.cn/d29132e12ea8e837873cd9d6c1a21779_2200x1298.png) # HDFS模擬實現 ![](https://box.kancloud.cn/ef30db8377a4a0fbe6f8d8398b6b82a8_821x464.png) # yarn模擬實現思路 ![](https://box.kancloud.cn/0f929c556c65773a1be9b5361c81b1c1_738x379.png) # 三大組件 ## 解決海量數據的存儲問題 分布式文件系統(HDFS) 1. 具有分布式的集群結構 我們把這樣實際存儲數據的節點叫做 datanode 2. 具有一個統一對外提供查詢 存儲 搜索 機器節點 對外跟客戶端統一打交道 對內跟實際存儲數據的節點打交道 3. 具有備份的機制 解決了機器掛掉時候數據丟失的問題 4. 具有統一的API 對客戶端來說不用操心你集群內部的事情 只要我調用你的API, 我就可以進行文件的讀取 存儲 甚至是搜索 甚至我們希望可以提供一個分布式文件系統的引用 fs= new FileSystem() fs.add .copy .rm ## 解決分布式數據計算(處理)問題 分布式的編程模型 (MapReduce) 思想 分而治之:先局部 再總體 map(映射) reduce(聚合) 整天上作為一個編程模型:需要給用戶提供一個友好 便捷的使用規范 比如:你要繼承什么東西 配置什么 怎么去調用 怎么去執行 1. 繼承我們的一個mapper 實現自己的業務邏輯 2. 繼承我們的一個reduce 實現自己的業務邏輯 3. 最好可以提供可供用戶進行相關配置的類 或者配置文件 作為一個分布式計算框架 最好我們還提供一個程序的總管(MrAppmater) 用來管理這種分布式計算框架的內部問題:啟動 銜接 等等 ## 解決了分布式系統的資源管理問題 分布式資源管理(yarn) 為了更好的管理我們集群的資源 最好設計成分布式的架構 1. 需要一個統一對外提供服務的節點(某一機器 或者機器上的一個進程 一個服務) 叫做資源管理者 ResourceManager 2. 需要在集群中的每臺機器上有一個角色 用來進行每臺機器資源的管理 匯報 叫做節點管理者 nodemanager # HADOOP生態圈以及各組成部分的簡介 ![](https://box.kancloud.cn/5ed5fbbd2b33361f0146970dfa457918_1734x1182.png) **各組件簡介** 重點組件: * HDFS:分布式文件系統 * MAPREDUCE:分布式運算程序開發框架 * HIVE:基于大數據技術(文件系統+運算框架)的SQL數據倉庫工具 * HBASE:基于HADOOP的分布式海量數據庫 * ZOOKEEPER:分布式協調服務基礎組件 * Mahout:基于mapreduce/spark/flink等分布式運算框架的機器學習算法庫 * Oozie:工作流調度框架 * Sqoop:數據導入導出工具 * Flume:日志數據采集框架 # 項目架構 ![](https://box.kancloud.cn/ed1c68db0fc45948e4f2c5640564e37e_1488x996.png)
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看