### **一、在小數據時代,需要用最少的數據獲得最多的信息**
人類社會絕大部分時間都是在數據匱乏中度過的。在這種情況下,統計學為得到正確的結論做了很大的貢獻。而統計學中的重要概念是隨機樣本。
統計學家們已經證明,采樣分析的隨機性越強,采樣分析的精確性就越高,與樣本數量的增加關系并不大。當樣本數量達到一定程度后,從每個新的個體上得到的信息會越來越少,就好比經濟學中的邊際效應遞減定律一樣。
>[info] 在微觀經濟學中,邊際效應指的是每增加(或減少)一個商品或服務,它對收益增加(或減少)的效應。經濟學通常認為,隨著商品或服務的增加,邊際效應將會逐步減少,成為邊際效應遞減定律。
而隨機采樣能否取得重大成功,依賴于采樣的 “**絕對隨機性**” 。但實現“絕對隨機性”是非常困難的。一旦采樣過程存在任何 “**偏見**” ,分析結果可能就相去甚遠。
隨機采樣另一個問題是,其主要在宏觀領域的分析上更有效果,一旦深入到更深層次,或者細分領域,隨機采樣就不可取了。比如一份隨機采樣的調查結果是關于 10000 個人對總統選舉的投票意向,如果隨機性足夠高,可能會有 3% 的誤差。但如果細分到“東北部富裕女性”,調查人數可能就遠遠低于 10000 人,這個調查結果和實際的誤差范圍可能就遠遠高于 3% 了。
### **二、在大數據時代,“樣本” = “總體”**
如果我們能夠獲得全量數據,那隨機采樣本身就不存在意義了。因為有時候我們也并不能滿足正態分布中庸平凡的景象。生活真諦很可能就隱藏在細節之中,采樣分析法可能會遺漏這些細節。
而全量數據的獲取,需要足夠的存儲和處理能力,需要先進的分析技術,需要廉價的數據收集方法。
大數據的本質并不是數據量絕對值的大小,而是指**不用隨機采樣分析方法,而是采用可獲取到的所有數據進行分析的方法**。從這個意義上將,大數據強調的不是數據,而是方法論。
《大數據時代》這本書中舉了一個日本相撲的例子,我覺得很好。
在日本相撲界,消極比賽是一個受到譴責和極力禁止的行為,但似乎又屢禁不止。芝加哥大學經濟學家史蒂夫·列維(《魔鬼經濟學》的作者)通過對 11 年以來 64000+ 場比賽記錄的分析發現,消極比賽現象通常出現在不太重要的比賽之中,而這些比賽其實對相撲賽事實際上倒也沒產生多大危害。但為何會出現這種情況呢?
進一步分析才發現,這其實是相撲界的一種 “潛規則”。相撲比賽有一個規則,選手需要在15場賽事中大部分場次取得勝利才能保證地位和收入。這種規則會自然的帶來利益不對稱的問題:一名7勝7負的選手和一名8勝6負的選手對決,究竟誰更需要一場勝利呢?顯然是前者,勝負對后者其實影響很小。于是在這樣的一場比賽中,后者往往會通過消極比賽的方式輸掉。這其實是一個 “禮物” ,在講究人情,聯系緊密的相撲界,與人為善就是與己為善,就是給自己一條后路。
這個分析在對數據的進一步挖掘中也得到證實,就是當他們再次相遇時,先前失利的選手擁有比對方更高的勝率,這就是 “回報”。
在這個案例中,如果通過隨機采樣而非全量數據的分析方法,是較難發現這個深層次問題的。同時,數據庫中 64000+ 場比賽記錄的大小還不如一張普通的數碼照片,也說明大數據強調的是用全量數據分析代替隨機樣本,而非數據量本身的大小。
用《大數據時代》原文的一段話結束本章的學習。
>[info] 我們總是習慣把統計抽樣看作文明得以建立的牢固基石,就如同幾何學定理和萬有引力定律一樣。但是統計抽樣其實只是為了在技術受限的特定時期,解決當時存在的一些特定問題而產生的,其歷史尚不足一百年。如今,技術環境已經有了很大的改善。在大數據時代進行抽樣分析就像是在汽車時代起碼一樣。在某些特定的情況下,我們依然可以使用樣本分析發,但這不再是我們分析數據的主要方式。慢慢的,我們會完全拋棄樣本分析
>
:-: 