如何為 scikit-learn 機器學習準備數據 · PythonBasics 中文系列教程

# 如何為 scikit-learn 機器學習準備數據 > 原文： [https://pythonbasics.org/how-to-prepare-your-data-for-machine-learning-with-scikit-learn/](https://pythonbasics.org/how-to-prepare-your-data-for-machine-learning-with-scikit-learn/) 如何通過 Scikit-Learn 準備要學習的數據。如果要使用 scikit-learn 實現學習算法，則要做的第一件事就是準備數據。這將向您決定使用的學習算法展示問題的結構。唯一的障礙是需要一種不同的算法來啟動有關要處理數據的不同假設，這有時可能需要進行不同的轉換。在準備數據以使用 scikit-learn 進行學習時，有四個經過驗證的步驟。它們包括： 1. 重新縮放數據 2. 數據標準化 3. 規范化數據 4. 將數據轉換為二元 ## 數據準備 ### 重新縮放數據重新縮放數據的屬性，特別是當數據的屬性由不同的比例組成時，這使多種學習算法可以從數據的重新縮放過程中受益，以確保數據以相同的比例出現。此過程可稱為標稱化，其屬性的重標范圍為 0 和 1。它確保存在構成梯度下降核心的優化算法-學習算法的檢查。 ```py import pandas import scipy import numpy from sklearn.preprocessing import MinMaxScaler # data values X = [ [110, 200], [120, 800], [310, 400], [140, 900], [510, 200], [653, 400] ,[310, 880] ] # transofrm data scaler = MinMaxScaler(feature_range=(0, 1)) rescaledX = scaler.fit_transform(X) # summarize transformed data numpy.set_printoptions(precision=2) print(rescaledX[0:6,:]) ``` 重新縮放的值將在 0 到 1 之間： ```py [[0\. 0\. ] [0.02 0.86] [0.37 0.29] [0.06 1\. ] [0.74 0\. ] [1\. 0.29]] ``` 在考慮中性網絡權重，回歸以及所有涉及距離測量的算法（例如 K 最近鄰）的算法中，它也很有價值。 ### 標準化數據此技術在使用高斯分布的屬性轉換中有效。高斯分布使用平均值為 0 且標準偏差設置為 1 的情況。邏輯回歸，線性回歸和線性判別分析最適合以高斯分布為輸入變量，從而更好地利用了重新定標的數據。 ```py # Standardize data (0 mean, 1 stdev) from sklearn.preprocessing import StandardScaler import pandas import numpy # data values X = [ [110, 200], [120, 800], [310, 400], [140, 900], [510, 200], [653, 400] ,[310, 880] ] # scaler scaler = StandardScaler().fit(X) rescaledX = scaler.transform(X) # summarize transformed data numpy.set_printoptions(precision=3) print(rescaledX[0:6,:]) ``` 標定值： ```py [[-1.02 -1.178] [-0.968 0.901] [ 0.013 -0.485] [-0.865 1.247] [ 1.045 -1.178] [ 1.783 -0.485]] ``` ### 規范化數據為了規范 Scikit 學習中的數據，它涉及將每個觀察值重新縮放為 1 的長度-線性代數的單位形式。使用 Scikit-learn 在 Python 中標準化數據時，最好使用 Normalizer 類軟件。 ```py # Normalize values from sklearn.preprocessing import Normalizer import pandas import numpy # data values X = [ [110, 200], [120, 800], [310, 400], [140, 900], [510, 200], [653, 400] ,[310, 880] ] # normalize values scaler = Normalizer().fit(X) normalizedX = scaler.transform(X) # summarize transformed data numpy.set_printoptions(precision=2) print(normalizedX[0:6,:]) ``` 規范化的值是： ```py [[0.48 0.88] [0.15 0.99] [0.61 0.79] [0.15 0.99] [0.93 0.37] [0.85 0.52]] ``` 規模可變的稀疏數據集特別受益于使用距離度量（例如 K 最近鄰）的算法預處理。一個典型的例子是中性網絡。用數據制作二元 ### 二元數據轉換可以通過將二元閾值標記為小于或等于 0 的 1 來實現。在具有清晰值的概率中很有用。 ```py # Binary values from sklearn.preprocessing import Binarizer import pandas import numpy # data values X = [ [110, 200], [120, 800], [310, 400], [140, 900], [510, 200], [653, 400] ,[310, 880] ] # binarize data binarizer = Binarizer(threshold=500).fit(X) binaryX = binarizer.transform(X) # summarize transformed data numpy.set_printoptions(precision=1) print(binaryX[0:6,:]) ``` 閾值非常重要，因為它將決定哪些值變為零或一。 ```py [[0 0] [0 1] [0 0] [0 1] [1 0] [1 0]] ``` 另外，在為特征工程添加特征方面，它具有巨大的意義。到目前為止，您必須熟悉使用 Scikit-learn 進行機器學習的數據準備所涉及的步驟。請記住，涉及的四個步驟是： 1. 重新縮放數據 2. 數據標準化 3. 規范化數據 4. 使數據二元化。 [下載示例和練習](https://gum.co/MnRYU)