第1章更多：不是隨機樣本，而是全體數據 · 《大數據時代》筆記

### **一、在小數據時代，需要用最少的數據獲得最多的信息** 人類社會絕大部分時間都是在數據匱乏中度過的。在這種情況下，統計學為得到正確的結論做了很大的貢獻。而統計學中的重要概念是隨機樣本。統計學家們已經證明，采樣分析的隨機性越強，采樣分析的精確性就越高，與樣本數量的增加關系并不大。當樣本數量達到一定程度后，從每個新的個體上得到的信息會越來越少，就好比經濟學中的邊際效應遞減定律一樣。 >[info] 在微觀經濟學中，邊際效應指的是每增加（或減少）一個商品或服務，它對收益增加（或減少）的效應。經濟學通常認為，隨著商品或服務的增加，邊際效應將會逐步減少，成為邊際效應遞減定律。而隨機采樣能否取得重大成功，依賴于采樣的 “**絕對隨機性**” 。但實現“絕對隨機性”是非常困難的。一旦采樣過程存在任何 “**偏見**” ，分析結果可能就相去甚遠。隨機采樣另一個問題是，其主要在宏觀領域的分析上更有效果，一旦深入到更深層次，或者細分領域，隨機采樣就不可取了。比如一份隨機采樣的調查結果是關于 10000 個人對總統選舉的投票意向，如果隨機性足夠高，可能會有 3% 的誤差。但如果細分到“東北部富裕女性”，調查人數可能就遠遠低于 10000 人，這個調查結果和實際的誤差范圍可能就遠遠高于 3% 了。 ### **二、在大數據時代，“樣本” = “總體”** 如果我們能夠獲得全量數據，那隨機采樣本身就不存在意義了。因為有時候我們也并不能滿足正態分布中庸平凡的景象。生活真諦很可能就隱藏在細節之中，采樣分析法可能會遺漏這些細節。而全量數據的獲取，需要足夠的存儲和處理能力，需要先進的分析技術，需要廉價的數據收集方法。大數據的本質并不是數據量絕對值的大小，而是指**不用隨機采樣分析方法，而是采用可獲取到的所有數據進行分析的方法**。從這個意義上將，大數據強調的不是數據，而是方法論。《大數據時代》這本書中舉了一個日本相撲的例子，我覺得很好。在日本相撲界，消極比賽是一個受到譴責和極力禁止的行為，但似乎又屢禁不止。芝加哥大學經濟學家史蒂夫·列維（《魔鬼經濟學》的作者）通過對 11 年以來 64000+ 場比賽記錄的分析發現，消極比賽現象通常出現在不太重要的比賽之中，而這些比賽其實對相撲賽事實際上倒也沒產生多大危害。但為何會出現這種情況呢？進一步分析才發現，這其實是相撲界的一種 “潛規則”。相撲比賽有一個規則，選手需要在15場賽事中大部分場次取得勝利才能保證地位和收入。這種規則會自然的帶來利益不對稱的問題：一名7勝7負的選手和一名8勝6負的選手對決，究竟誰更需要一場勝利呢？顯然是前者，勝負對后者其實影響很小。于是在這樣的一場比賽中，后者往往會通過消極比賽的方式輸掉。這其實是一個 “禮物” ，在講究人情，聯系緊密的相撲界，與人為善就是與己為善，就是給自己一條后路。這個分析在對數據的進一步挖掘中也得到證實，就是當他們再次相遇時，先前失利的選手擁有比對方更高的勝率，這就是 “回報”。在這個案例中，如果通過隨機采樣而非全量數據的分析方法，是較難發現這個深層次問題的。同時，數據庫中 64000+ 場比賽記錄的大小還不如一張普通的數碼照片，也說明大數據強調的是用全量數據分析代替隨機樣本，而非數據量本身的大小。用《大數據時代》原文的一段話結束本章的學習。 >[info] 我們總是習慣把統計抽樣看作文明得以建立的牢固基石，就如同幾何學定理和萬有引力定律一樣。但是統計抽樣其實只是為了在技術受限的特定時期，解決當時存在的一些特定問題而產生的，其歷史尚不足一百年。如今，技術環境已經有了很大的改善。在大數據時代進行抽樣分析就像是在汽車時代起碼一樣。在某些特定的情況下，我們依然可以使用樣本分析發，但這不再是我們分析數據的主要方式。慢慢的，我們會完全拋棄樣本分析 > :-: ![](https://box.kancloud.cn/2ecc9a93ae0f38f8dbbfa5277a529c79_1506x1204.png =420x400)