<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                企業??AI智能體構建引擎,智能編排和調試,一鍵部署,支持知識庫和私有化部署方案 廣告
                ### **一、在小數據時代,需要用最少的數據獲得最多的信息** 人類社會絕大部分時間都是在數據匱乏中度過的。在這種情況下,統計學為得到正確的結論做了很大的貢獻。而統計學中的重要概念是隨機樣本。 統計學家們已經證明,采樣分析的隨機性越強,采樣分析的精確性就越高,與樣本數量的增加關系并不大。當樣本數量達到一定程度后,從每個新的個體上得到的信息會越來越少,就好比經濟學中的邊際效應遞減定律一樣。 >[info] 在微觀經濟學中,邊際效應指的是每增加(或減少)一個商品或服務,它對收益增加(或減少)的效應。經濟學通常認為,隨著商品或服務的增加,邊際效應將會逐步減少,成為邊際效應遞減定律。 而隨機采樣能否取得重大成功,依賴于采樣的 “**絕對隨機性**” 。但實現“絕對隨機性”是非常困難的。一旦采樣過程存在任何 “**偏見**” ,分析結果可能就相去甚遠。 隨機采樣另一個問題是,其主要在宏觀領域的分析上更有效果,一旦深入到更深層次,或者細分領域,隨機采樣就不可取了。比如一份隨機采樣的調查結果是關于 10000 個人對總統選舉的投票意向,如果隨機性足夠高,可能會有 3% 的誤差。但如果細分到“東北部富裕女性”,調查人數可能就遠遠低于 10000 人,這個調查結果和實際的誤差范圍可能就遠遠高于 3% 了。 ### **二、在大數據時代,“樣本” = “總體”** 如果我們能夠獲得全量數據,那隨機采樣本身就不存在意義了。因為有時候我們也并不能滿足正態分布中庸平凡的景象。生活真諦很可能就隱藏在細節之中,采樣分析法可能會遺漏這些細節。 而全量數據的獲取,需要足夠的存儲和處理能力,需要先進的分析技術,需要廉價的數據收集方法。 大數據的本質并不是數據量絕對值的大小,而是指**不用隨機采樣分析方法,而是采用可獲取到的所有數據進行分析的方法**。從這個意義上將,大數據強調的不是數據,而是方法論。 《大數據時代》這本書中舉了一個日本相撲的例子,我覺得很好。 在日本相撲界,消極比賽是一個受到譴責和極力禁止的行為,但似乎又屢禁不止。芝加哥大學經濟學家史蒂夫·列維(《魔鬼經濟學》的作者)通過對 11 年以來 64000+ 場比賽記錄的分析發現,消極比賽現象通常出現在不太重要的比賽之中,而這些比賽其實對相撲賽事實際上倒也沒產生多大危害。但為何會出現這種情況呢? 進一步分析才發現,這其實是相撲界的一種 “潛規則”。相撲比賽有一個規則,選手需要在15場賽事中大部分場次取得勝利才能保證地位和收入。這種規則會自然的帶來利益不對稱的問題:一名7勝7負的選手和一名8勝6負的選手對決,究竟誰更需要一場勝利呢?顯然是前者,勝負對后者其實影響很小。于是在這樣的一場比賽中,后者往往會通過消極比賽的方式輸掉。這其實是一個 “禮物” ,在講究人情,聯系緊密的相撲界,與人為善就是與己為善,就是給自己一條后路。 這個分析在對數據的進一步挖掘中也得到證實,就是當他們再次相遇時,先前失利的選手擁有比對方更高的勝率,這就是 “回報”。 在這個案例中,如果通過隨機采樣而非全量數據的分析方法,是較難發現這個深層次問題的。同時,數據庫中 64000+ 場比賽記錄的大小還不如一張普通的數碼照片,也說明大數據強調的是用全量數據分析代替隨機樣本,而非數據量本身的大小。 用《大數據時代》原文的一段話結束本章的學習。 >[info] 我們總是習慣把統計抽樣看作文明得以建立的牢固基石,就如同幾何學定理和萬有引力定律一樣。但是統計抽樣其實只是為了在技術受限的特定時期,解決當時存在的一些特定問題而產生的,其歷史尚不足一百年。如今,技術環境已經有了很大的改善。在大數據時代進行抽樣分析就像是在汽車時代起碼一樣。在某些特定的情況下,我們依然可以使用樣本分析發,但這不再是我們分析數據的主要方式。慢慢的,我們會完全拋棄樣本分析 > :-: ![](https://box.kancloud.cn/2ecc9a93ae0f38f8dbbfa5277a529c79_1506x1204.png =420x400)
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看