如何在機器學習中談論數據（統計學和計算機科學術語） · Machine Learning Mastery 博客文章翻譯

# 如何在機器學習中談論數據（統計學和計算機科學術語） > 原文： [https://machinelearningmastery.com/data-terminology-in-machine-learning/](https://machinelearningmastery.com/data-terminology-in-machine-learning/) 數據在機器學習中起著重要作用。在談論數據時，理解并使用正確的術語非常重要。在這篇文章中，您將發現如何描述和討論機器學習中的數據。閱讀本文后，您將了解機器學習中用于描述數據的術語和術語。這將極大地幫助您理解機器學習算法。 ![How To Talk About Data in Machine Learning](img/33289945e04bb0a22a9b1d59238808c0.jpg) 如何在機器學習中討論數據照片來自 [PROWilliam J Sisti](https://www.flickr.com/photos/willsisti/4037893776) ，保留一些權利。讓我們開始吧。 ## 你知道的數據您如何看待數據？想象一下電子表格，比如Microsoft Excel。您有列，行和單元格。 ![Data Terminology in Data in Machine Learning](img/773d27b9c7bd475cb58139cd3b3b0310.jpg) 機器學習中數據的數據術語 * **列**：列描述單一類型的數據。例如，您可以擁有一列權重或高度或價格。一列中的所有數據將具有相同的比例并且具有相對于彼此的含義。 * **Row** ：一行描述單個實體或觀察，列描述有關該實體或觀察的屬性。您擁有的行越多，您擁有的問題域中的示例就越多。 * **Cell** ：單元格是行和列中的單個值。它可以是實數值（1.5），整數（2）或類別（“紅色”）。這就是您可能考慮數據，列，行和單元格的方式。通常，我們可以調用這種類型的數據：表格數據。這種形式的數據很容易在機器學習中工作。 ## 機器學習中已知的數據機器學習有不同的風格，可以提供不同的視野。例如，有統計視角和計算機科學視角。接下來，我們將查看用于引用數據的不同術語。 ### 統計學習視角統計視角在機器學習算法試圖學習的假設函數（f）的上下文中構建數據。也就是說，給定一些輸入變量（輸入），預測的輸出變量（輸出）是多少。輸出= f（輸入）作為輸入的那些列稱為輸入變量。而您可能并不總是擁有的數據列以及您希望將來為新輸入數據預測的數據列稱為輸出變量。它也被稱為響應變量。輸出變量= f（輸入變量） ![Statistical Learning Perspective](img/c1bed14b14ea2775cd9c4b9ff7163fc6.jpg) 統計學習視角通常，您有多個輸入變量。在這種情況下，輸入變量組被稱為輸入向量。輸出變量= f（輸入向量）如果您在過去做過一些統計數據，您可能會知道另一個更傳統的術語。例如，統計文本可以將輸入變量稱為獨立變量，將輸出變量稱為因變量。這是因為在預測問題的措辭中，輸出是相關的或是輸入或獨立變量的函數。因變量= f（自變量）使用機器學習算法的方程式和描述中的簡寫來描述數據。統計視角中使用的標準簡寫是將輸入變量稱為大寫“x”（X），將輸出變量稱為大寫“y”（Y）。 Y = f（X）當您有多個輸入變量時，可以使用整數取消引用它們以指示它們在輸入向量中的排序，例如前三列中數據的X1，X2和X3。 ### 計算機科學視角從統計角度來看，數據的計算機科學術語有很多重疊。我們將研究關鍵的差異。行通常描述實體（如人）或關于實體的觀察。因此，行的列通常被稱為觀察的屬性。在對問題進行建模并進行預測時，我們可以參考輸入屬性和輸出屬性。輸出屬性=程序（輸入屬性） ![Computer Science Perspective](img/c55a2e7bdc5f74b02cc7b2ad6703ddc7.jpg) 計算機科學視角列的另一個名稱是功能，用于與屬性相同的原因，其中功能描述了觀察的某些屬性。在處理必須從原始數據中提取特征以構建觀察的數據時，這種情況更為常見。這方面的例子包括模擬數據，如圖像，音頻和視頻。 output = program（輸入功能）另一種計算機科學術語是對于一行數據或作為實例的觀察。這是因為行可以被認為是問題域觀察到或生成的單個示例或單個數據實例。預測=程序（實例） ### 模型和算法有一個最后的澄清說明是重要的，它是在算法和模型之間。這可能會令人困惑，因為算法和模型都可以互換使用。我喜歡的一個觀點是將模型視為從數據中學習的特定表示，將算法視為學習它的過程。 model = algorithm（data）例如，決策樹或一組系數是模型，C5.0和最小二乘線性回歸是學習那些相應模型的算法。 ## 摘要在這篇文章中，您發現了用于描述機器學習中數據的關鍵術語。 * 您開始對表格數據進行標準理解，如電子表格中的列，行和單元格所示。 * 您學習了輸入和輸出變量的統計術語，可分別表示為X和Y. * 您學習了屬性，特征和實例的計算機科學術語。 * 最后，您了解到模型和算法的討論可以分為學習表示和學習過程。您對此帖子或機器學習中使用的數據術語有任何疑問嗎？發表評論并提出您的問題，我會盡力回答。