6.0 本章導讀 · 編程之法：面試和算法心得

## 本章導讀所謂海量數據處理，是指基于海量數據的存儲、處理、和操作。正因為數據量太大，所以導致要么無法在較短時間內迅速解決，要么無法一次性裝入內存。事實上，針對時間問題，可以采用巧妙的算法搭配合適的數據結構（如布隆過濾器、哈希、位圖、堆、數據庫、倒排索引、Trie樹）來解決；而對于空間問題，可以采取分而治之（哈希映射）的方法，也就是說，把規模大的數據轉化為規模小的，從而各個擊破。此外，針對常說的單機及集群問題，通俗來講，單機就是指處理裝載數據的機器有限（只要考慮CPU、內存、和硬盤之間的數據交互），而集群的意思是指機器有多臺，適合分布式處理或并行計算，更多考慮節點與節點之間的數據交互。一般說來，處理海量數據問題，有以下十種典型方法： * 1.哈希分治； * 2.simhash算法； * 3.外排序； * 4.MapReduce； * 5.多層劃分； * 6.位圖； * 7.布隆過濾器； * 8.Trie樹； * 9.數據庫； * 10.倒排索引。受理論之限，本章將摒棄絕大部分的細節，只談方法和模式論，注重用最通俗、最直白的語言闡述相關問題。最后，有一點必須強調的是，全章行文是基于面試題的分析基礎之上的，具體實踐過程中，還得視具體情況具體分析，且各個場景下需要考慮的細節也遠比本章所描述的任何一種解決方案復雜得多。