附錄_數據分析詞典 · 數據分析師

**一、互聯網常用名詞解釋** **1、PV（Page View）頁面瀏覽量** 指某段時間內訪問網站或某一頁面的用戶的總數量，通常用來衡量一篇文章或一次活動帶來的流量效果，也是評價網站日常流量數據的重要指標。PV可重復累計，以用戶訪問網站作為統計依據，用戶每刷新一次即重新計算一次。 **2、UV（Unique Visitor）獨立訪客** 指來到網站或頁面的用戶總數，這個用戶是獨立的，同一用戶不同時段訪問網站只算作一個獨立訪客，不會重復累計，通常以PC端的Cookie數量作為統計依據。 **3、Visit 訪問** 指用戶通過外部鏈接來到網站，從用戶來到網站到用戶在瀏覽器中關閉頁面，這一過程算作一次訪問。Visit可重復累計，比如我打開一個網站又關閉，再重新打開，這就算作兩次訪問。 **4、Home Page 主頁** 指一個網站起主目錄功能的頁面，也是網站起點。通常是網站首頁。 **5、Landing Page 著陸頁** 指用戶從外部鏈接來到網站，直接跳轉到的第一個頁面。比如朋友給我發了一個介紹爆款T恤的淘寶鏈接，我點開會直接跳轉到介紹T恤的那個頁面，而不是淘寶網眾多其他頁面之一，這個介紹T恤的頁面可以算作是著陸頁。 **6、Bounce Rate 跳出率** 指用戶通過鏈接來到網站，在當前頁面沒有任何交互就離開網站的行為，這就算作此頁面增加了一個“跳出”，跳出率一般針對網站的某個頁面而言。跳出率=在這個頁面跳出的用戶數/PV **7、退出率** 一般針對某個頁面而言。指用戶訪問某網站的某個頁面之后，從瀏覽器中將與此網站相關的所有頁面全部關閉，就算此頁面增加了一個“退出“。退出率=在這個頁面退出的用戶數/PV **8、Click 點擊** 一般針對付費廣告而言，指用戶點擊某個鏈接、頁面、banner的次數，可重復累計。比如我在PC端看到一則新聞鏈接點進去看了一會就關了，過了一會又點進去看了一遍，這就算我為這篇新聞貢獻兩次點擊。 **9、avr.time 平均停留時長** 指某個頁面被用戶訪問，在頁面停留時長的平均值，通常用來衡量一個頁面內容的質量。 avr.time=訪客數量/用戶總停留時長 **10、CTR 點擊率** 指某個廣告、Banner、URL被點擊的次數和被瀏覽的總次數的比值。一般用來考核廣告投放的引流效果。 CTR=點擊數（click）/被用戶看到的次數 **11、Conversion rate 轉化率** 指用戶完成設定的轉化環節的次數和總會話人數的百分比，通常用來評價一個轉化環節的好壞，如果轉化率較低則急需優化該轉化環節。轉化率=轉化會話數/總會話數 **12、漏斗** 通常指產生目標轉化前的明確流程，比如在淘寶購物，從點擊商品鏈接到查看詳情頁，再到查看顧客評價、領取商家優惠券，再到填寫地址、付款，每個環節都有可能流失用戶，這就要求商家必須做好每一個轉化環節，漏斗是評價轉化環節優劣的指標。 **13、投資回報率（ROI：Return On Investment ）** 反映投入和產出的關系，衡量我這個投資值不值得，能給到我多少價值的東西（非單單的利潤），這個是站在投資的角度或長遠生意上看的。其計算公式為：投資回報率（ROI）=年利潤或年均利潤/投資總額×100%，通常用于評估企業對于某項活動的價值，ROI高表示該項目價值高。 **14、重復購買率** 指消費者在網站中的重復購買次數。 **15、Referrer 引薦流量** 通常指將用戶引導至目標頁面的URL（超鏈接）。在百度統計中，引薦流量叫做“外部鏈接”。 **16、流失分析（Churn Analysis/Attrition Analysis）** 描述哪些顧客可能停止使用公司的產品/業務，以及識別哪些顧客的流失會帶來最大損失。流失分析的結果用于為可能要流失的顧客準備新的優惠。 **17、顧客細分&畫像（Customer Segmentation & Profiling）** 根據現有的顧客數據，將特征、行為相似的顧客歸類分組。描述和比較各組。 **18、顧客的生命周期價值 (Lifetime Value, LTV)** 顧客在他/她的一生中為一個公司產生的預期折算利潤。 **19、購物籃分析（Market Basket Analysis）** 識別在交易中經常同時出現的商品組合或服務組合，例如經常被一起購買的產品。此類分析的結果被用于推薦附加商品，為陳列商品的決策提供依據等。 **20、實時決策（Real Time Decisioning, RTD）** 幫助企業做出實時（近乎無延遲）的最優銷售/營銷決策。比如，實時決策系統（打分系統）可以通過多種商業規則或模型，在顧客與公司互動的瞬間，對顧客進行評分和排名。 **21、留存/顧客留存（Retention / Customer Retention)** 指建立后能夠長期維持的客戶關系的百分比。 **22、社交網絡分析（Social Network Analysis, SNA）** 描繪并測量人與人、組與組、機構與機構、電腦與電腦、URL與URL、以及其他種類相連的信息/知識實體之間的關系與流動。這些人或組是網絡中的節點，而它們之間的連線表示關系或流動。SNA為分析人際關系提供了一種方法，既是數學的又是視覺的。 **23、生存分析（Survival Analysis）** 估測一名顧客繼續使用某業務的時間，或在后續時段流失的可能性。此類信息能讓企業判斷所要預測時段的顧客留存，并引入合適的忠誠度政策。 **二、統計學名詞解釋** **1、絕對數和相對數** 絕對數：是反應客觀現象總體在一定時間、一定地點下的總規模、總水平的綜合性指標，也是數據分析中常用的指標。比如年GDP，總人口等等。相對數：是指兩個有聯系的指標計算而得出的數值，它是反應客觀現象之間的數量聯系緊密程度的綜合指標。相對數一般以倍數、百分數等表示。相對數的計算公式：相對數=比較值（比數）/基礎值（基數） **2、百分比和百分點** 百分比：是相對數中的一種，他表示一個數是另一個數的百分之幾，也成為百分率或百分數。百分比的分母是100，也就是用1%作為度量單位，因此便于比較。百分點：是指不同時期以百分數的形式表示的相對指標的變動幅度，1%等于1個百分點。 **3、頻數和頻率** 頻數：一個數據在整體中出現的次數。頻率：某一事件發生的次數與總的事件數之比。頻率通常用比例或百分數表示。 **4、比例與比率** 比例：是指在總體中各數據占總體的比重，通常反映總體的構成和比例，即部分與整體之間的關系。比率：是樣本(或總體)中各不同類別數據之間的比值，由于比率不是部分與整體之間的對比關系，因而比值可能大于1。 **5、倍數和番數** 倍數：用一個數據除以另一個數據獲得，倍數一般用來表示上升、增長幅度，一般不表示減少幅度。番數：指原來數量的2的n次方。 **6、同比和環比** 同比：指的是與歷史同時期的數據相比較而獲得的比值，反應事物發展的相對性。環比：指與上一個統計時期的值進行對比獲得的值，主要反映事物的逐期發展的情況。 **7、變量** 變量來源于數學，是計算機語言中能儲存計算結果或能表示值抽象概念。變量可以通過變量名訪問。 **8、連續變量** 在統計學中，變量按變量值是否連續可分為連續變量與離散變量兩種。在一定區間內可以任意取值的變量叫連續變量，其數值是連續不斷的，相鄰兩個數值可作無限分割，即可取無限個數值。如:年齡、體重等變量。 **9、離散變量** 離散變量的各變量值之間都是以整數斷開的，如人數、工廠數、機器臺數等，都只能按整數計算。離散變量的數值只能用計數的方法取得。 **10、定性變量** 又名分類變量：觀測的個體只能歸屬于幾種互不相容類別中的一種時，一般是用非數字來表達其類別，這樣的觀測數據稱為定性變量。可以理解成可以分類別的變量，如學歷、性別、婚否等。 **11、均值** 即平均值，平均數是表示一組數據集中趨勢的量數，是指在一組數據中所有數據之和再除以這組數據的個數。 **12、中位數** 對于有限的數集，可以通過把所有觀察值高低排序后找出正中間的一個作為中位數。如果觀察值有偶數個，通常取最中間的兩個數值的平均數作為中位數。 **13、缺失值** 它指的是現有數據集中某個或某些屬性的值是不完全的。 **14、缺失率** 某屬性的缺失率=數據集中某屬性的缺失值個數/數據集總行數。 **15、異常值** 指一組測定值中與平均值的偏差超過兩倍標準差的測定值，與平均值的偏差超過三倍標準差的測定值，稱為高度異常的異常值。 **16、方差** 是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望（即均值）之間的偏離程度。統計中的方差（樣本方差）是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中，研究方差即偏離程度有著重要意義。方差是衡量源數據和期望值相差的度量值。 **17、標準差** 中文環境中又常稱均方差，是離均差平方的算術平均數的平方根，用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。平均數相同的兩組數據，標準差未必相同。 **18、皮爾森相關系數** 皮爾森相關系數是用來反映兩個變量線性相關程度的統計量。相關系數用r表示，其中n為樣本量，分別為兩個變量的觀測值和均值。r描述的是兩個變量間線性相關強弱的程度。r的絕對值越大表明相關性越強。 **19、相關系數** 相關系數是最早由統計學家卡爾·皮爾遜設計的統計指標，是研究變量之間線性相關程度的量，一般用字母r表示。由于研究對象的不同，相關系數有多種定義方式，較為常用的是皮爾森相關系數。 **20、特征值** 特征值是線性代數中的一個重要概念。在數學、物理學、化學、計算機等領域有著廣泛的應用。設A是向量空間的一個線性變換，如果空間中某一非零向量通過A變換后所得到的向量和X僅差一個常數因子，即AX=kX，則稱k為A的特征值，X稱為A的屬于特征值k的特征向量或特征矢量。 **三、數據分析名詞解釋** **聚合(Aggregation)：**搜索、合并、顯示數據的過程。 **算法(Algorithms)：**可以完成某種數據分析的數學公式。 **分析法(Analytics)：**用于發現數據的內在涵義。 **異常檢測(Anomaly detection)：**在數據集中搜索與預期模式或行為不匹配的數據項。除了“Anomalies”,用來表示異常的詞有以下幾種：outliers,exceptions,surprises,contaminants.他們通常可提供關鍵的可執行信息。 **匿名化(Anonymization)：**使數據匿名，即移除所有與個人隱私相關的數據。 **分析型客戶關系管理（Analytical CRM/aCRM）：**用于支持決策，改善公司跟顧客的互動或提高互動的價值。針對有關顧客的知識，和如何與顧客有效接觸的知識，進行收集、分析、應用。 **行為分析法(Behavioural Analytics)：**這種分析法是根據用戶的行為如“怎么做”，“為什么這么做”，以及“做了什么”來得出結論，而不是僅僅針對人物和時間的一門分析學科，它著眼于數據中的人性化模式。 **批量處理（Batch processing）：**盡管從大型計算機時代開始，批量處理就已經出現了。由于處理大型數據集，批量處理對大數據具有額外的意義。批量數據處理是處理一段時間內收集的大量數據的有效方式。 **商業智能（Business Intelligence）:**分析數據、展示信息以幫助企業的執行者、管理層、其他人員進行更有根據的商業決策的應用、設施、工具、過程。 **分類分析(Classification analysis)：**從數據中獲得重要的相關性信息的系統化過程;這類數據也被稱為元數據(meta data),是描述數據的數據。 **云計算(Cloud computing)：**構建在網絡上的分布式計算系統，數據是存儲于機房外的（即云端）。 **集群計算（Cluster computing）：**這是一個使用多個服務器集合資源的“集群”的計算術語。要想更技術性的話，就會涉及到節點，集群管理層，負載平衡和并行處理等概念。 **聚類分析(Clustering analysis)：**它是將相似的對象聚合在一起，每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在于分析數據間的差異和相似性。 **冷數據存儲(Cold data storage)：**在低功耗服務器上存儲那些幾乎不被使用的舊數據。但這些數據檢索起來將會很耗時。 **對比分析(Comparative analysis)：**在非常大的數據集中進行模式匹配時，進行一步步的對比和計算過程得到分析結果。 **相關性分析(Correlation analysis)：**是一種數據分析方法，用于分析變量之間是否存在正相關，或者負相關。 **儀表板(Dashboard)：**使用算法分析數據，并將結果用圖表方式顯示于儀表板中。 **數據聚合工具(Data aggregation tools)：**將分散于眾多數據源的數據轉化成一個全新數據源的過程。 **數據分析師(Data analyst)：**從事數據分析、建模、清理、處理的專業人員。 **數據庫(Database)：**一個以某種特定的技術來存儲數據集合的倉庫。 **數據湖（Data lake）：**數據湖是原始格式的企業級數據的大型存儲庫。與此同時我們可以涉及數據倉庫，它在概念上是相似的，也是企業級數據的存儲庫，但在清理、與其他來源集成之后是以結構化格式。數據倉庫通常用于常規數據（但不是專有的）。數據湖使得訪問企業級數據更加容易，你需要明確你要尋找什么，以及如何處理它并明智地試用它。 **暗數據（Dark Data）：**基本上指的是，由企業收集和處理的，但并不用于任何意義性目的的數據，因此它是“暗”的，可能永遠不會被分析。它可以是社交網絡反饋，呼叫中心日志，會議筆記等等。有很多人估計，所有企業數據中的 60-90％可能是“暗數據”，但誰又真正知道呢？ **數據挖掘（Data mining)：**數據挖掘是通過使用復雜的模式識別技術，從而找到有意義的模式，并得出大量數據的見解。 **數據中心(Data centre)：**一個實體地點，放置了用來存儲數據的服務器。 **數據清洗(Data cleansing)：**對數據進行重新審查和校驗的過程，目的在于刪除重復信息、糾正存在的錯誤，并提供數據一致性。 **數據質量（Data Quality）：**有關確保數據可靠性和實用價值的過程和技術。高質量的數據應該忠實體現其背后的事務進程，并能滿足在運營、決策、規劃中的預期用途。 **數據訂閱(Data feed)：**一種數據流，例如Twitter訂閱和RSS。 **數據集市(Data Mart)：**進行數據集買賣的在線交易場所。 **數據建模(Data modelling)：**使用數據建模技術來分析數據對象，以此洞悉數據的內在涵義。 **數據集(Data set)：**大量數據的集合。 **數據虛擬化(Data virtualization)：**數據整合的過程，以此獲得更多的數據信息，這個過程通常會引入其他技術，例如數據庫，應用程序，文件系統，網頁技術，大數據技術等等。 **判別分析(Discriminant analysis)：**將數據分類，按不同的分類方式，可將數據分配到不同的群組，類別或者目錄。是一種統計分析法，可以對數據中某些群組或集群的已知信息進行分析，并從中獲取分類規則。 **分布式文件系統(Distributed File System)：**提供簡化的，高可用的方式來存儲、分析、處理數據的系統。 **文件存貯數據庫(Document Store Databases)：**又稱為文檔數據庫，為存儲、管理、恢復文檔數據而專門設計的數據庫，這類文檔數據也稱為半結構化數據。 **探索性分析(Exploratory analysis)：**在沒有標準的流程或方法的情況下從數據中發掘模式。是一種發掘數據和數據集主要特性的一種方法。 **提取-轉換-加載(ETL:Extract,Transform and Load)：**是一種用于數據庫或者數據倉庫的處理過程，天善學院有國內唯一的最全的ETL學習課程。即從各種不同的數據源提取(E)數據，并轉換(T)成能滿足業務需要的數據，最后將其加載(L)到數據庫。 **游戲化(Gamification)：**在其他非游戲領域中運用游戲的思維和機制，這種方法可以以一種十分友好的方式進行數據的創建和偵測，非常有效。 **圖形數據庫(Graph Databases)：**運用圖形結構(例如，一組有限的有序對，或者某種實體)來存儲數據，這種圖形存儲結構包括邊緣、屬性和節點。它提供了相鄰節點間的自由索引功能，也就是說，數據庫中每個元素間都與其他相鄰元素直接關聯。 **網格計算(Grid computing)：**將許多分布在不同地點的計算機連接在一起，用以處理某個特定問題，通常是通過云將計算機相連在一起。 **Hadoop：**一個開源的分布式系統基礎框架，可用于開發分布式程序，進行大數據的運算與存儲。 **Hadoop數據庫(HBase)：**一個開源的、非關系型、分布式數據庫，與Hadoop框架共同使用。 **HDFS：**Hadoop分布式文件系統(Hadoop Distributed File System)；是一個被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統。 **高性能計算(HPC:High-Performance-Computing)：**使用超級計算機來解決極其復雜的計算問題。 **內存數據庫(IMDB:In-memory)：**一種數據庫管理系統，與普通數據庫管理系統不同之處在于，它用主存來存儲數據，而非硬盤。其特點在于能高速地進行數據的處理和存取。 **物聯網（IoT）：**最新的流行語是物聯網（IOT）。IOT通過互聯網將嵌入式對象（傳感器，可穿戴設備，汽車，冰箱等）中的計算設備進行互連，并且能夠發送以及接收數據。IOT生成大量數據，提供了大量大數據分析的機會。 **鍵值數據庫(Key-Value Databases)：**數據的存儲方式是使用一個特定的鍵，指向一個特定的數據記錄，這種方式使得數據的查找更加方便快捷。鍵值數據庫中所存的數據通常為編程語言中基本數據類型的數據。 **負載均衡(Load balancing)：**將工作量分配到多臺電腦或服務器上，以獲得最優結果和最大的系統利用率。 **位置信息(Location data)：**GPS信息，即地理位置信息。 **日志文件(Log file)：**由計算機系統自動生成的文件，記錄系統的運行過程。 **M2M數據(Machine 2 Machine data)：**兩臺或多臺機器間交流與傳輸的內容。 **機器數據(Machine data)：**由傳感器或算法在機器上產生的數據。 **機器學習(Machine learning)：**人工智能的一部分，指的是機器能夠從它們所完成的任務中進行自我學習，通過長期的累積實現自我改進。 **Map Reduce：**是處理大規模數據的一種軟件框架(Map:映射，Reduce:歸納)。 **大規模并行處理(MPP:Massivel yParallel Processing)：**同時使用多個處理器(或多臺計算機)處理同一個計算任務。 **元數據(Meta data)：**被稱為描述數據的數據，即描述數據數據屬性(數據是什么)的信息。 **多維數據庫(Multi-Dimensional Databases)：**用于優化數據聯機分析處理(OLAP)程序，優化數據倉庫的一種數據庫。 **多值數據庫(MultiValue Databases)：**是一種非關系型數據庫(NoSQL),一種特殊的多維數據庫：能處理3個維度的數據。主要針對非常長的字符串，能夠完美地處理HTML和XML中的字串。 **自然語言處理(Natural Language Processing)：**是計算機科學的一個分支領域，它研究如何實現計算機與人類語言之間的交互。 **網絡分析(Network analysis)：**分析網絡或圖論中節點間的關系，即分析網絡中節點間的連接和強度關系。 **NewSQL：**一個優雅的、定義良好的數據庫系統，比SQL更易學習和使用，比NoSQL更晚提出的新型數據庫。 **NoSQL：**顧名思義，就是“不使用SQL”的數據庫。這類數據庫泛指傳統關系型數據庫以外的其他類型的數據庫。這類數據庫有更強的一致性，能處理超大規模和高并發的數據 **對象數據庫(Object Databases)：**(也稱為面象對象數據庫)以對象的形式存儲數據，用于面向對象編程。它不同于關系型數據庫和圖形數據庫，大部分對象數據庫都提供一種查詢語言，允許使用聲明式編程(declarative programming)訪問對象。 **基于對象圖像分析(Object-based Image Analysis)：**數字圖像分析方法是對每一個像素的數據進行分析，而基于對象的圖像分析方法則只分析相關像素的數據，這些相關像素被稱為對象或圖像對象。 **操作型數據庫(Operational Databases)：**這類數據庫可以完成一個組織機構的常規操作，對商業運營非常重要，一般使用在線事務處理，允許用戶訪問、收集、檢索公司內部的具體信息。 **優化分析(Optimization analysis)：**在產品設計周期依靠算法來實現的優化過程，在這一過程中，公司可以設計各種各樣的產品并測試這些產品是否滿足預設值。 **本體論(Ontology）：**表示知識本體，用于定義一個領域中的概念集及概念之間的關系的一種哲學思想。(譯者注:數據被提高到哲學的高度，被賦予了世界本體的意義，成為一個獨立的客觀數據世界) **異常值檢測(Outlier detection)：**異常值是指嚴重偏離一個數據集或一個數據組合總平均值的對象，該對象與數據集中的其他它相去甚遠，因此，異常值的出現意味著系統發生問題，需要對此另加分析。 **聯機分析處理（On-Line Analytical Processing，OLAP）：**能讓用戶輕松制作、瀏覽報告的工具，這些報告總結相關數據，并從多角度分析。 **模式識別(Pattern Recognition)：**通過算法來識別數據中的模式，并對同一數據源中的新數據作出預測 **平臺即服務(PaaS:Platform-as-a-Service)：**為云計算解決方案提供所有必需的基礎平臺的一種服務。 **預測分析(Predictive analysis)：**大數據分析方法中最有價值的一種分析方法，這種方法有助于預測個人未來(近期)的行為，例如某人很可能會買某些商品，可能會訪問某些網站，做某些事情或者產生某種行為。通過使用各種不同的數據集，例如歷史數據，事務數據，社交數據，或者客戶的個人信息數據，來識別風險和機遇。 **公共數據(Public data)：**由公共基金創建的公共信息或公共數據集。 **數字化自我(Quantified Self)：**使用應用程序跟蹤用戶一天的一舉一動，從而更好地理解其相關的行為。 **R：**是一種編程語言，在統計計算方面很出色。如果你不知道 R，你就稱不上是數據科學家。R 是數據科學中最受歡迎的語言之一。 **再識別(Re-identification)：**將多個數據集合并在一起，從匿名化的數據中識別出個人信息。 **回歸分析(Regression analysis)：**確定兩個變量間的依賴關系。這種方法假設兩個變量之間存在單向的因果關系(譯者注：自變量，因變量，二者不可互換)。 **實時數據(Real-time data)：**指在幾毫秒內被創建、處理、存儲、分析并顯示的數據。 **推薦引擎(Recommendation engine)：**推薦引擎算法根據用戶之前的購買行為或其他購買行為向用戶推薦某種產品。 **路徑分析(Routing analysis)：**–針對某種運輸方法通過使用多種不同的變量分析從而找到一條最優路徑，以達到降低燃料費用，提高效率的目的。 **半結構化數據(Semi-structured data)：**半結構化數據并不具有結構化數據嚴格的存儲結構，但它可以使用標簽或其他形式的標記方式以保證數據的層次結構。 **結構化數據(Structured data)：**可以組織成行列結構，可識別的數據。這類數據通常是一條記錄，或者一個文件，或者是被正確標記過的數據中的某一個字段，并且可以被精確地定位到。 **情感分析(Sentiment Analysis)：**通過算法分析出人們是如何看待某些話題。 **信號分析(Signal analysis)：**指通過度量隨時間或空間變化的物理量來分析產品的性能。特別是使用傳感器數據。 **相似性搜索(Similarity searches)：**在數據庫中查詢最相似的對象，這里所說的數據對象可以是任意類型的數據。 **仿真分析(Simulation analysis)：**仿真是指模擬真實環境中進程或系統的操作。仿真分析可以在仿真時考慮多種不同的變量，確保產品性能達到最優。 **軟件即服務(SaaS:Software-as-a-Service)：**基于Web的通過瀏覽器使用的一種應用軟件。 **空間分析(Spatial analysis)：**空間分析法分析地理信息或拓撲信息這類空間數據，從中得出分布在地理空間中的數據的模式和規律。 **SQL：**在關系型數據庫中，用于檢索數據的一種編程語言。 **流處理（Stream processing）：**流處理旨在對有“連續”要求的實時和流數據進行處理。結合流分析，即在流內不間斷地計算數學或統計分析的能力。流處理解決方案旨在對高流量進行實時處理。 **時序分析(Time series analysis)：**分析在重復測量時間里獲得的定義良好的數據。分析的數據必須是良好定義的，并且要取自相同時間間隔的連續時間點。 **拓撲數據分析(Topological Data Analysis)：**拓撲數據分析主要關注三點：復合數據模型、集群的識別、以及數據的統計學意義。 **交易數據(Transactional data)：**隨時間變化的動態數據 **透明性(Transparency)：**–消費者想要知道他們的數據有什么作用、被作何處理，而組織機構則把這些信息都透明化了。 **文本挖掘（Text Mining）：**對包含自然語言的數據的分析。對源數據中詞語和短語進行統計計算，以便用數學術語表達文本結構，之后用傳統數據挖掘技術分析文本結構。 **非結構化數據(Un-structured data)：**非結構化數據一般被認為是大量純文本數據，其中還可能包含日期，數字和實例。 **價值(Value)：**(譯者注：大數據4V特點之一)所有可用的數據，能為組織機構、社會、消費者創造出巨大的價值。這意味著各大企業及整個產業都將從大數據中獲益。 **可變性(Variability)：**也就是說，數據的含義總是在（快速）變化的。例如，一個詞在相同的推文中可以有完全不同的意思。 **多樣(Variety)：**(譯者注：大數據4V特點之一)數據總是以各種不同的形式呈現，如結構化數據，半結構化數據，非結構化數據，甚至還有復雜結構化數據 **高速(Velocity)：**(譯者注：大數據4V特點之一)在大數據時代，數據的創建、存儲、分析、虛擬化都要求被高速處理。 **真實性(Veracity)：**組織機構需要確保數據的真實性，才能保證數據分析的正確性。因此，真實性(Veracity)是指數據的正確性。 **可視化(Visualization)：**只有正確的可視化，原始數據才可被投入使用。這里的“可視化”并非普通的圖型或餅圖，可視化指是的復雜的圖表，圖表中包含大量的數據信息，但可以被很容易地理解和閱讀。 **大量(Volume)：**(譯者注：大數據4V特點之一)指數據量，范圍從Megabytes至Brontobytes。 **天氣數據(Weather data)：**是一種重要的開放公共數據來源，如果與其他數據來源合成在一起，可以為相關組織機構提供深入分析的依據。 **網絡挖掘/網絡數據挖掘（Web Mining / Web Data Mining)：**使用數據挖掘技術從互聯網站點、文檔或服務中自動發現和提取信息。 **XML數據庫(XML Databases)：**XML數據庫是一種以XML格式存儲數據的數據庫。XML數據庫通常與面向文檔型數據庫相關聯，開發人員可以對XML數據庫的數據進行查詢，導出以及按指定的格式序列化。