MapReduce概述:
參考文獻:https://blog.csdn.net/markcheney/article/details/53998796
前言:
MapReduce是一個高性能的批處理分布式計算框架,用于對海量數據進行并行分析和處理。與傳統方法相比較,MapReduce更傾向于蠻力去解決問題,通過簡單、粗暴、有效的方式去處理海量的數據。通過對數據的輸入、拆分與組合(核心),將任務分配到多個節點服務器上,進行分布式計算,這樣可以有效地提高數據管理的安全性,同時也能夠很好地范圍被管理的數據。
mapreduce概念+實例

mapreduce核心就是map+shuffle+reducer,首先通過讀取文件,進行分片,通過map獲取文件的key-value映射關系,用作reducer的輸入,在作為reducer輸入之前,要先對map的key進行一個shuffle,也就是排個序,然后將排完序的key-value作為reducer的輸入進行reduce操作,當然一個mapreduce任務可以不要有reduce,只用一個map,接下來就來講解一個mapreduce界的“hello world”。
- 空白目錄
- 第一章 Linux虛擬機安裝
- 第二章 SSH配置
- 第三章 jdk配置
- 第四章 Hadoop配置-單機
- 第五章 Hadoop配置-集群
- 第六章 HDFS
- 第七章 MapReduce
- 7.1 MapReduce(上)
- 7.2 MapReduce(下)
- 7.3 MapReduce實驗1 去重
- 7.4 MapReduce實驗2 單例排序
- 7.5 MapReduce實驗3 TopK
- 7.6 MapReduce實驗4 倒排索引
- 第八章 Hive
- Hive安裝
- 數據定義
- 數據操作
- 第九章 HBase
- 第十章 SaCa RealRec數據科學平臺
- 第十一章 Spark Core
- 第十二章 Spark Streaming
- 第十章 Spark測試題