應用統計學與機器學習的密切關系 · Machine Learning Mastery 博客文章翻譯

# 應用統計學與機器學習的密切關系 > 原文： [https://machinelearningmastery.com/relationship-between-applied-statistics-and-machine-learning/](https://machinelearningmastery.com/relationship-between-applied-statistics-and-machine-learning/) 機器學習從業者具有算法傳統，并且注重結果和模型技能，而不是其他關注點，例如模型可解釋性。統計學家在應用統計和統計學習的名義下處理大致相同類型的建模問題。從數學背景來看，他們更關注模型的行為和預測的可解釋性。兩種解決同一問題的方法之間的密切關系意味著兩個領域都有很多可以相互學習的東西。統計學家需要考慮在經典的“_兩種文化_”論文中提出的算法方法。機器學習從業者也必須注意，保持開放的心態，并從應用統計學中學習術語和相關方法。在這篇文章中，您將發現機器學習和統計學習是兩個密切相關但對同一問題的不同觀點。閱讀這篇文章后，你會知道： * “_機器學習_”和“_預測建模_”是關于建模數據的計算機科學觀點，側重于算法方法和模型技能。 * “_統計_”和“_統計學習_”是建模數據的數學視角，側重于數據模型和擬合優度。 * 機器學習從業者必須保持開放的思維并利用方法，并從應用統計和統計學習的密切相關領域中理解術語。讓我們開始吧。 ![The Close Relationship Between Applied Statistics and Machine Learning](img/422319beae94bd0c240c880a40f6a4f2.jpg) 應用統計與機器學習之間的密切關系 [James Loesch](https://www.flickr.com/photos/jal33/39234165402/) 的照片，保留一些權利。 ## 機器學習機器學習是人工智能的一個子領域，與更廣泛的計算機科學領域有關。在開發機器學習模型以進行預測時，重點關注算法，代碼和結果。機器學習比開發模型更廣泛，以便進行預測，正如Tom Mitchell在1997年經典教科書中的定義所示。 > 機器學習領域涉及如何構建自動改進經驗的計算機程序的問題。 - 第xv頁，[機器學習](https://amzn.to/2pXYSA6)，1997年。在這里，我們可以看到，從研究的角度來看，機器學習實際上是用計算機程序學習的研究。事實上，這些學習程序中的一些對于預測建模問題很有用，而實際上有些已經從其他領域借用，例如統計學。線性回歸就是一個很好的例子。它是一種超過一個世紀的方法，來自（當時：新生）統計領域，用于將線或平面擬合到實值數據。從機器學習的角度來看，我們將其視為一個學習權重（系數）的系統，以響應來自域的示例。在人工智能和機器學習領域已經開發了許多方法，有時由統計學家開發，這些方法對于預測建模的任務非常有用。一個很好的例子是分類和回歸樹，它們與統計學中的經典方法沒有相似之處。 ## 預測建模從業者的機器學習的有用部分可以稱為預測建模。這顯然忽略了統計和機器學習之間的區別。它還消除了統計學（理解數據）和機器學習（理解軟件學習）這些更廣泛的目標，并且只顧其名稱所暗示的問題，開發模型進行預測。 > 術語預測建模可能會引起諸如機器學習，模式識別和數據挖掘之類的關聯。實際上，這些關聯是恰當的，這些術語所暗示的方法是預測建模過程的一個組成部分。但預測建模不僅僅包括用于揭示數據中模式的工具和技術。預測建模的實踐定義了開發模型的過程，我們可以通過這種方式理解和量化模型對未來未見數據的預測準確性。 - 第vii頁， [Applied Predictive Modeling](https://amzn.to/2InAS0T) ，2013 預測建模提供激光聚焦于開發模型，目的是在某些模型技能測量方面獲得最佳結果。這種務實的方法通常意味著以最高技能或最小錯誤的形式獲得的結果是以犧牲幾乎所有其他方式為代價的。我們稱之為流程，機器學習或預測建模并不重要。從某種意義上說，它是營銷和群體識別。獲得成果和提供價值更重要的是從業者。 ## 統計學習使用數據集和開發預測模型的過程也是統計學中的一項任務。傳統上統計學家可能將該活動稱為應用統計。統計學是數學的一個子領域，這種遺產提供了一個定義明確，精心挑選的方法的焦點。需要不僅要了解選擇特定模型的原因，還要了解具體預測的方式和原因。從這個角度來看，模型技能通常很重要，但不如模型的可解釋性重要。盡管如此，現代統計學家已將新視角作為應用統計學的子領域，稱為“_統計學習_”。它可能是“_預測建模_”的統計等效，其中模型技能很重要，但也許更加強調仔細選擇和引入學習模型。 > 統計學習是指用于建模和理解復雜數據集的一組工具。它是最近開發的統計學領域，與計算機科學，特別是機器學習的并行發展相結合。 - 第7頁， [2013年R中的應用統計學習導論](https://amzn.to/2Gvhkqz)。我們可以看到統計數據中的字段和子字段之間存在大量的想法。機器學習從業者必須了解機器學習和基于統計的問題方法。鑒于在兩個領域中使用不同的術語，這一點尤為重要。在他的統計學課程中， [Rob Tibshirani](http://statweb.stanford.edu/~tibs/) ，一位也參與機器學習的統計學家，提供[詞匯表](http://statweb.stanford.edu/~tibs/stat315a/glossary.pdf)，將統計學中的術語映射到機器學習中的術語，轉載如下。 ![Glossary Mapping Terms in Statistics to Terms in Machine Learning](img/407d9ee7f0f370a44fb88539398c171c.jpg) 詞匯表將統計學中的術語映射到機器學習中的術語這凸顯了機器學習從業者更加需要專注于預測建模，并對方法，思想和術語持開放態度，無論原點如何。這可能適用于生物信息學和計量經濟學等現代領域，但更適用于緊密相關且歷史悠久的統計領域。 ## 兩種文化最近，現在或許還是現在，應用統計學家們看不起機器學習領域和任何成本預測模型的實踐。這兩個領域都提供了巨大的價值，但也許與預測建模相同的一般問題的微妙不同風格。從機器學習的計算機科學角度（例如上面提到的決策樹和人工神經網絡，最近重新標記的深度學習）建立了真實和有價值的貢獻，以命名兩個眾所周知的例子。正如機器學習從業者必須密切關注應用統計學和統計學習一樣，統計學家必須密切關注機器學習。在 [Leo Breiman](https://en.wikipedia.org/wiki/Leo_Breiman) 的題為“[統計模型：兩種文化](http://projecteuclid.org/euclid.ss/1009213726)”的2001年（也許是著名的）論文中清楚地表達了這一呼吁。在其中，他將統計學家的“_數據建模文化_”與機器學習所屬的所有其他領域的“_算法建模文化_”進行了對比。他強調這些文化是思考將輸入映射到輸出的相同問題的方法，其中統計方法是關注擬合優度測試，算法方法側重于預測準確性。他認為統計領域將因忽略算法方法而失去相關性和方法的脆弱性。他稱之為“_數據模型_”的經典方法，“從業者選擇并關注模型行為（例如邏輯回歸）而不是可能的數據和過程的重點微妙但重要的轉變”生成了它。這可能被描述（可能不公平），因為專注于使數據適合模型，而不是選擇或調整模型以適應數據。 > 統計界一直致力于幾乎獨家使用數據模型。這種承諾導致了無關緊要的理論，可疑的結論，并使統計人員無法處理大量有趣的當前問題。 [...]如果我們作為一個領域的目標是使用數據來解決問題，那么我們需要擺脫對數據模型的獨占依賴，并采用更多樣化的工具集。這是一篇重要的論文，[仍然](http://brenocon.com/blog/2008/12/statistics-vs-machine-learning-fight/) [相關](https://stats.stackexchange.com/questions/6/the-two-cultures-statistics-vs-machine-learning)并且超過15年后閱讀量很大。統計學家的“_統計學習_”等子字段的出現表明正在取得進展。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 * [統計建模：兩種文化](http://projecteuclid.org/euclid.ss/1009213726)，2001。 * [統計與機器學習，戰斗！](http://brenocon.com/blog/2008/12/statistics-vs-machine-learning-fight/) ，2008年。 * [兩種文化：統計與機器學習？在交叉驗證](https://stats.stackexchange.com/questions/6/the-two-cultures-statistics-vs-machine-learning) * [術語表：機器學習與統計學](http://statweb.stanford.edu/~tibs/stat315a/glossary.pdf)，現代應用統計學：統計學習的要素。 ## 摘要在這篇文章中，您發現機器學習和統計學習是兩個密切相關但對同一問題的不同觀點。具體來說，你學到了： * “_機器學習_”和“_預測建模_”是關于建模數據的計算機科學觀點，側重于算法方法和模型技能。 * “_統計_”和“_統計學習_”是建模數據的數學視角，側重于數據模型和擬合優度。 * 機器學習從業者必須保持開放的思維并利用方法，并從應用統計和統計學習的密切相關領域中理解術語。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。