什么是統計（為什么它在機器學習中很重要）？ · Machine Learning Mastery 博客文章翻譯

# 什么是統計（為什么它在機器學習中很重要）？ > 原文： [https://machinelearningmastery.com/what-is-statistics/](https://machinelearningmastery.com/what-is-statistics/) 統計信息是一組工具，可用于獲取有關數據的重要問題的答案。您可以使用描述性統計方法將原始觀察轉換為您可以理解和共享的信息。您可以使用推論統計方法從小數據樣本到整個域進行推理。在這篇文章中，您將清楚地發現為什么統計數據在一般情況下以及機器學習以及通常可用的方法類型中都很重要。閱讀這篇文章后，你會知道： * 統計通常被認為是應用機器學習領域的先決條件。 * 我們需要統計數據來幫助將觀測結果轉化為信息并回答有關觀測樣本的問題。 * 統計數據是一組數百年來開發的工具，用于總結數據并根據觀察樣本量化域的屬性。讓我們開始吧。 ![A Gentle Introduction to Statistics](img/b0e9734a5001a5cdecd649edb782013f.jpg) 統計數據的溫和介紹 [Mike Sutherland](https://www.flickr.com/photos/156015048@N08/35241004781/) 的照片，保留一些權利。 ## 統計是必需的先決條件機器學習和統計是兩個緊密相關的研究領域。因此，統計學家將機器學習稱為“_應用統計_”或“_統計學習_”，而不是以計算機科學為中心的名稱。假設讀者具有統計學背景，機器學習幾乎普遍呈現給初學者。我們可以通過一些櫻桃選擇的例子來具體化。從一本名為“ _Applied Predictive Modeling_ ”的流行應用機器學習書的開頭看一下這句話： > ......讀者應具備一些基本統計知識，包括方差，相關性，簡單線性回歸和基本假設檢驗（例如p值和檢驗統計）。 - 第vii頁， [Applied Predictive Modeling](https://amzn.to/2InAS0T) ，2013 這是流行的“_統計學習簡介_”一書中的另一個例子： > 我們希望讀者至少有一門基礎課程。 - 第9頁， [R](https://amzn.to/2Gvhkqz) ，2013年“應用統計學習導論”。即使統計學不是先決條件，也需要一些原始的先驗知識，這可以從廣泛閱讀的“_編程集體智慧_”中引用： > ......本書不假設您對[...]或統計數據有任何先驗知識。 [...]但掌握一些三角學和基本統計??知識將有助于您理解算法。 - 第xiii頁，[編程集體智慧：構建智能Web 2.0應用程序](https://amzn.to/2GIN9jc)，2007。為了能夠理解機器學習，需要對統計學有一些基本的了解。要了解為什么會這樣，我們必須首先理解為什么我們首先需要統計領域。 ## 為何學習統計？僅原始觀察是數據，但它們不是信息或知識。數據提出了一些問題，例如： * 什么是最常見或預期的觀察？ * 觀察的限制是什么？ * 數據是什么樣的？雖然它們看似簡單，但必須回答這些問題才能將原始觀察結果轉化為我們可以使用和分享的信息。除了原始數據，我們可以設計實驗以收集觀察結果。從這些實驗結果中我們可能會有更復雜的問題，例如： * 哪些變量最相關？ * 兩個實驗之間的結果有什么不同？ * 數據中的差異是真實的還是噪聲的結果？這類問題很重要。結果對項目，利益相關者和有效決策至關重要。需要統計方法來找到我們對數據的問題的答案。我們可以看到，為了理解用于訓練機器學習模型的數據并解釋測試不同機器學習模型的結果，需要統計方法。這只是冰山一角，因為預測建模項目中的每一步都需要使用統計方法。 ## 什么是統計？統計學是數學的一個子領域。它指的是一組處理數據和使用數據來回答問題的方法。 > 統計學是關于令人費解的問題的數字猜想的藝術。 [...]這些方法是由尋求問題答案的人們開發了數百年。 - 第xiii頁，[統計](https://amzn.to/2pUA0tU)，第四版，2007年。這是因為該領域包含一系列用于處理數據的方法，對于初學者而言，這些方法看起來很大且無定形。很難看到屬于統計的方法和屬于其他研究領域的方法之間的界限。通常，技術既可以是統計學的經典方法，也可以是用于特征選擇或建模的現代算法。雖然統計學的工作知識不需要深入的理論知識，但統計學和概率之間關系的一些重要且易于理解的定理可以提供有價值的基礎。兩個例子包括大數定律和中心極限定理;第一個有助于理解為什么更大的樣本通常更好，第二個為我們如何比較樣本之間的預期值（例如平均值）提供了基礎。當談到我們在實踐中使用的統計工具時，將統計領域劃分為兩大類方法可能會有所幫助：用于匯總數據的描述性統計和用于從數據樣本中得出結論的推論統計。 > 統計數據允許研究人員從大量人員那里收集信息或數據，然后總結他們的典型經驗。 [...]統計數據也用于得出關于群體之間一般差異的結論。 [...]統計數據也可用于查看兩個變量的得分是否相關并進行預測。頁面ix-x，[統計英文統計](https://amzn.to/2Gv0A2V)，第三版，2010。 ### 描述性統計 [描述性統計](https://en.wikipedia.org/wiki/Descriptive_statistics)是指將原始觀察匯總為我們可以理解和分享的信息的方法。通常，我們將描述性統計視為計算數據樣本的統計值，以便總結數據樣本的屬性，例如共同的預期值（例如平均值或中位數）和數據的傳播（例如，方差或標準差）。描述性統計還可以包括可用于可視化數據樣本的圖形方法。圖表和圖形可以對觀察的形狀或分布以及變量如何相互關聯提供有用的定性理解。 ### 推論統計 [推論統計](https://en.wikipedia.org/wiki/Statistical_inference)是一種奇特的名稱，用于幫助從較小的一組獲得的觀察結果（稱為樣本）中量化域或種群的屬性。通常，我們將推論統計視為人口分布中的數量估計，例如預期值或傳播量。可以使用更復雜的統計推斷工具來量化在給定假設的情況下觀察數據樣本的可能性。這些通常被稱為統計假設檢驗的工具，其中測試的基本假設稱為零假設。考慮到我們可能假設的假設范圍以及我們可能對數據施加的約束以增加測試結果的正確性或可能性，推論統計方法有很多例子。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 ### 圖書 * [Applied Predictive Modeling](https://amzn.to/2InAS0T) ，2013 * [R](https://amzn.to/2Gvhkqz) ，2013年“統計學習與應用簡介”。 * [編程集體智慧：構建智能Web 2.0應用程序](https://amzn.to/2GIN9jc)，2007。 * [統計](https://amzn.to/2pUA0tU)，第四版，2007年。 * [所有統計：統計推斷的簡明課程](https://amzn.to/2H224Tp)，2004。 * [普通英語統計](https://amzn.to/2Gv0A2V)，第三版，2010年。 ### 用品 * [維基百科統計](https://en.wikipedia.org/wiki/Statistics) * [門戶網站：維基百科的統計數據](https://en.wikipedia.org/wiki/Portal:Statistics) * [維基百科上的統計文章清單](https://en.wikipedia.org/wiki/List_of_statistics_articles) * [維基百科上的數學統計](https://en.wikipedia.org/wiki/Mathematical_statistics) * [維基百科的統計歷史](https://en.wikipedia.org/wiki/History_of_statistics) * [維基百科上的描述性統計](https://en.wikipedia.org/wiki/Descriptive_statistics) * [維基百科上的統計推斷](https://en.wikipedia.org/wiki/Statistical_inference) ## 摘要在這篇文章中，您清楚地發現了為什么統計數據在一般情況下以及機器學習中的重要性，以及通常可用的方法類型。具體來說，你學到了： * 統計通常被認為是應用機器學習領域的先決條件。 * 我們需要統計數據來幫助將觀測結果轉化為信息并回答有關觀測樣本的問題。 * 統計數據是一組數百年來開發的工具，用于總結數據并根據觀察樣本量化域的屬性。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。