第七章 MapReduce · Hadoop

MapReduce概述：參考文獻：https://blog.csdn.net/markcheney/article/details/53998796 前言： MapReduce是一個高性能的批處理分布式計算框架，用于對海量數據進行并行分析和處理。與傳統方法相比較，MapReduce更傾向于蠻力去解決問題，通過簡單、粗暴、有效的方式去處理海量的數據。通過對數據的輸入、拆分與組合（核心），將任務分配到多個節點服務器上，進行分布式計算，這樣可以有效地提高數據管理的安全性，同時也能夠很好地范圍被管理的數據。 mapreduce概念+實例 ![](https://box.kancloud.cn/9f108208b93a5e84cc9b47c5cf5e1abb_735x301.jpg) mapreduce核心就是map+shuffle+reducer，首先通過讀取文件，進行分片，通過map獲取文件的key-value映射關系，用作reducer的輸入，在作為reducer輸入之前，要先對map的key進行一個shuffle，也就是排個序，然后將排完序的key-value作為reducer的輸入進行reduce操作，當然一個mapreduce任務可以不要有reduce，只用一個map，接下來就來講解一個mapreduce界的“hello world”。