數據倉庫是什么？ · Hadoop2.x

**數據倉庫**是一個面向主題的、集成的、非易失的且隨時間變化的數據集合。 ![](https://img.kancloud.cn/6a/fb/6afb75595db6043d9d385e22ac255507_748x564.png) 1. **面向主題：** （1）主題（Subject）是在較高層次上將企業信息系統中的數據進行綜合、歸類和分析利用的一個抽象概念；（2）每一個主題基本對應一個宏觀的分析領域；（3）在邏輯意義上，它是對應企業中某一宏觀分析領域所涉及的分析對象。例如"銷售分析"就是一個分析領域，因此這個數據倉庫應用的主題就是"銷售分析"。 2. **集成：** * 集成性是指數據倉庫中數據必須是一致的 * 數據倉庫的數據是從原有的分散的多個數據庫、數據文件和數據段中抽取來的 * 數據來源可能既有內部數據又有外部數據 * 集成方法 * 統一：消除不一致的現象。比如不同數據源表示性別的代碼可能是F/M、0/1、A/B導致數據不一致 * 綜合：對原有數據進行綜合和計算 3. **非易失** * 數據倉庫中的數據是經過抽取而形成的分析型數據，數據一旦進入到數據倉庫中，數據就不應該再有改變 * 不具有原始性 * 主要供企業決策分析之用 * 執行的主要是查詢操作，一般情況下不執行更新操作 * 一個穩定的數據環境也有利于數據分析操作和決策的制訂 4. **隨時間變化：** * 數據倉庫以維的形式對數據進行組織，時間維是數據倉庫中很重要的一個維度 * 不斷增加新的數據內容 * 不斷刪去舊的數據內容 * 更新與時間有關的綜合數據 5. **粒度：** 粒度是指數據的細節或匯總程度，細節程度越高，粒度級別越低。例如，單個事務是低粒度級別，而全部一個月事務的匯總就是高粒度級別。 粒度之所以是數據倉庫環境的關鍵設計問題，是因為它極大地影響數據倉庫的數據量和可以進行的查詢類型。粒度級別越低，數據量越大，查詢的細節程度越高，查詢范圍越廣泛，反之亦然。 例：下面的系統中提取的主題： ``` 采購子系統：訂單（訂單號，供應商號，總金額，日期）訂單細則（訂單號，商品號，類別，單價，數量）供應商（供應商號，供應商名，地址，電話）銷售子系統：顧客（顧客號，姓名，性別，年齡，文化程度，地址，電話）銷售（員工號，顧客號，商品號，數量，單價，日期）庫存管理子系統：領料單（領料單號，領料人，商品號，數量，日期）進料單（進料單號，訂單號，進料人，收料人，日期）庫存（商品號，庫房號，庫存量，日期）庫房（庫房號，倉庫管理員，地點，庫存商品描述）人事管理子系統：員工（員工號，姓名，性別，年齡，文化程度，部門號）部門（部門號，部門名稱，部門主管，電話）主題一: 顧客固有信息: 顧客號，姓名，性別，年齡，文化程度，地址，電話購物信息: 顧客號, 商品號, 單價, 數量, 金額, 日期... 主題二: 供應商固有信息: 供應商號，供應商名，地址，電話供應商品信息: 訂單號，供應商號，總金額，日期主題三: 商品固有信息: 商品號, 商品名, 類別, 顏色, 尺寸, 大小, 型號.... 采購信息: 商品號, 供應商號, 日期, 采購價格, 采購量庫存信息: 商品號, 庫房號，庫存量，日期銷售信息: 顧客號，商品號，數量，單價，日期主題四: 訂單固有信息: 訂單號, 員工號，顧客號，商品號，數量，單價，日期員工信息: 員工號，姓名，性別，年齡，文化程度，部門號顧客信息: 顧客號，姓名，性別，年齡，文化程度，地址，電話商品信息: 商品號, 商品名, 類別, 顏色, 尺寸, 大小, 型號 .... ```