## 本章導讀
所謂海量數據處理,是指基于海量數據的存儲、處理、和操作。正因為數據量太大,所以導致要么無法在較短時間內迅速解決,要么無法一次性裝入內存。
事實上,針對時間問題,可以采用巧妙的算法搭配合適的數據結構(如布隆過濾器、哈希、位圖、堆、數據庫、倒排索引、Trie樹)來解決;而對于空間問題,可以采取分而治之(哈希映射)的方法,也就是說,把規模大的數據轉化為規模小的,從而各個擊破。
此外,針對常說的單機及集群問題,通俗來講,單機就是指處理裝載數據的機器有限(只要考慮CPU、內存、和硬盤之間的數據交互),而集群的意思是指機器有多臺,適合分布式處理或并行計算,更多考慮節點與節點之間的數據交互。
一般說來,處理海量數據問題,有以下十種典型方法:
* 1.哈希分治;
* 2.simhash算法;
* 3.外排序;
* 4.MapReduce;
* 5.多層劃分;
* 6.位圖;
* 7.布隆過濾器;
* 8.Trie樹;
* 9.數據庫;
* 10.倒排索引。
受理論之限,本章將摒棄絕大部分的細節,只談方法和模式論,注重用最通俗、最直白的語言闡述相關問題。最后,有一點必須強調的是,全章行文是基于面試題的分析基礎之上的,具體實踐過程中,還得視具體情況具體分析,且各個場景下需要考慮的細節也遠比本章所描述的任何一種解決方案復雜得多。
- 關于
- 第一部分 數據結構
- 第一章 字符串
- 1.0 本章導讀
- 1.1 旋轉字符串
- 1.2 字符串包含
- 1.3 字符串轉換成整數
- 1.4 回文判斷
- 1.5 最長回文子串
- 1.6 字符串的全排列
- 1.10 本章習題
- 第二章 數組
- 2.0 本章導讀
- 2.1 尋找最小的 k 個數
- 2.2 尋找和為定值的兩個數
- 2.3 尋找和為定值的多個數
- 2.4 最大連續子數組和
- 2.5 跳臺階
- 2.6 奇偶排序
- 2.7 荷蘭國旗
- 2.8 矩陣相乘
- 2.9 完美洗牌
- 2.15 本章習題
- 第三章 樹
- 3.0 本章導讀
- 3.1 紅黑樹
- 3.2 B樹
- 3.3 最近公共祖先LCA
- 3.10 本章習題
- 第二部分 算法心得
- 第四章 查找匹配
- 4.1 有序數組的查找
- 4.2 行列遞增矩陣的查找
- 4.3 出現次數超過一半的數字
- 第五章 動態規劃
- 5.0 本章導讀
- 5.1 最大連續乘積子串
- 5.2 字符串編輯距離
- 5.3 格子取數
- 5.4 交替字符串
- 5.10 本章習題
- 第三部分 綜合演練
- 第六章 海量數據處理
- 6.0 本章導讀
- 6.1 關聯式容器
- 6.2 分而治之
- 6.3 simhash算法
- 6.4 外排序
- 6.5 MapReduce
- 6.6 多層劃分
- 6.7 Bitmap
- 6.8 Bloom filter
- 6.9 Trie樹
- 6.10 數據庫
- 6.11 倒排索引
- 6.15 本章習題
- 第七章 機器學習
- 7.1 K 近鄰算法
- 7.2 支持向量機
- 附錄 更多題型
- 附錄A 語言基礎
- 附錄B 概率統計
- 附錄C 智力邏輯
- 附錄D 系統設計
- 附錄E 操作系統
- 附錄F 網絡協議