如何在Python中從頭開始實現重采樣方法 · Machine Learning Mastery 博客文章翻譯

# 如何在Python中從頭開始實現重采樣方法 > 原文： [https://machinelearningmastery.com/implement-resampling-methods-scratch-python/](https://machinelearningmastery.com/implement-resampling-methods-scratch-python/) 預測建模的目標是創建能夠對新數據進行良好預測的模型。我們在訓練時無法訪問這些新數據，因此我們必須使用統計方法來估計模型在新數據上的表現。這類方法稱為重采樣方法，因為它們重新采樣您可用的訓練數據。在本教程中，您將了解如何在Python中從頭開始實現重采樣方法。完成本教程后，您將了解： * 如何實施訓練并測試您的數據分割。 * 如何實現數據的k折交叉驗證拆分。讓我們開始吧。 * **2017年1月更新**：將cross_validation_split（）中的fold_size計算更改為始終為整數。修復了Python 3的問題。 * **更新May / 2018** ：修正了錯誤的LOOCV。 * **更新Aug / 2018** ：經過測試和更新，可與Python 3.6配合使用。 ![How to Implement Resampling Methods From Scratch In Python](img/a65fa70aa5d4e102c4493609da25fa36.jpg) 如何在Python中實現重新取樣方法照片由 [Andrew Lynch](https://www.flickr.com/photos/newandrew/8478102656/) ，保留一些權利。 ## 描述重新采樣方法的目標是充分利用您的訓練數據，以便準確地估計模型在新的未見數據上的表現。然后可以使用準確的表現估計來幫助您選擇要使用的模型參數集或要選擇的模型。選擇模型后，您可以在整個訓練數據集上訓練最終模型，并開始使用它來進行預測。您可以使用兩種常見的重采樣方法： * 訓練和測試分割您的數據。 * k折交叉驗證。在本教程中，我們將介紹使用each和when使用一種方法而不是另一種方法。 ## 教程本教程分為3個部分： 1. 訓練和測試分裂。 2. k-fold交叉驗證拆分。 3. 如何選擇重采樣方法。這些步驟將為您處理重新采樣數據集以估計新數據的算法表現提供所需的基礎。 ### 1.訓練和測試分裂訓練和測試分割是最簡單的重采樣方法。因此，它是最廣泛使用的。訓練和測試拆分涉及將數據集分成兩部分： * 訓練數據集。 * 測試數據集。訓練數據集由機器學習算法用于訓練模型。保留測試數據集并用于評估模型的表現。分配給每個數據集的行是隨機選擇的。這是為了確保模型的訓練和評估是客觀的。如果比較多個算法或比較相同算法的多個配置，則應使用相同的訓練和數據集的測試分割。這是為了確保表現的比較是一致的或是蘋果對蘋果。我們可以通過在分割數據之前以相同的方式為隨機數生成器播種，或者通過保持數據集的相同分割以供多個算法使用來實現此目的。我們可以在單個函數中實現數據集的訓練和測試分割。下面是一個名為 **train_test_split（）**的函數，用于將數據集拆分為訓練并進行測試拆分。它接受兩個參數，即要作為列表列表拆分的數據集和可選的拆分百分比。使用默認分割百分比0.6或60％。這將為訓練數據集分配60％的數據集，并將剩余的40％留給測試數據集。訓練/測試的60/40是數據的良好默認分割。該函數首先根據提供的數據集計算訓練集所需的行數。制作原始數據集的副本。從復制的數據集中選擇并刪除隨機行，并將其添加到訓練數據集，直到訓練數據集包含目標行數。然后，將保留在數據集副本中的行作為測試數據集返回。隨機模型中的 **randrange（）**函數用于生成0到列表大小范圍內的隨機整數。 ```py from random import randrange # Split a dataset into a train and test set def train_test_split(dataset, split=0.60): train = list() train_size = split * len(dataset) dataset_copy = list(dataset) while len(train) < train_size: index = randrange(len(dataset_copy)) train.append(dataset_copy.pop(index)) return train, dataset_copy ``` 我們可以使用10行的人為數據集來測試這個函數，每個行都有一個列。下面列出了完整的示例。 ```py from random import seed from random import randrange # Split a dataset into a train and test set def train_test_split(dataset, split=0.60): train = list() train_size = split * len(dataset) dataset_copy = list(dataset) while len(train) < train_size: index = randrange(len(dataset_copy)) train.append(dataset_copy.pop(index)) return train, dataset_copy # test train/test split seed(1) dataset = [[1], [2], [3], [4], [5], [6], [7], [8], [9], [10]] train, test = train_test_split(dataset) print(train) print(test) ``` 該示例在拆分訓練數據集之前修復隨機種子。這是為了確保每次執行代碼時都進行完全相同的數據分割。如果我們想多次使用相同的拆分來評估和比較不同算法的表現，這很方便。運行該示例將生成以下輸出。打印訓練和測試集中的數據，顯示6/10或60％的記錄分配給訓練數據集，4/10或40％的記錄分配給測試集。 ```py [[3], [2], [7], [1], [8], [9]] [[4], [5], [6], [10]] ``` ### 2\. k-fold交叉驗證拆分使用訓練和測試分割方法的局限性在于您獲得了算法表現的噪聲估計。 k折交叉驗證方法（也稱為交叉驗證）是一種重采樣方法，可提供更準確的算法表現估計。它通過首先將數據分成k組來完成此操作。然后訓練該算法并評估k次，并通過取平均表現得分來總結表現。每組數據稱為折疊，因此名稱為k-fold交叉驗證。它的工作原理是首先在k-1組數據上訓練算法，然后在第k個保持組上作為測試集進行評估。重復這一過程，使得k組中的每一組都有機會被伸出并用作測試裝置。因此，k的值應該可以被訓練數據集中的行數整除，以確保每個k組具有相同的行數。您應該為k選擇一個值，該值將數據拆分為具有足夠行的組，每個組仍然代表原始數據集。對于較小的數據集，使用的良好默認值是k = 3，對于較大的數據集，k = 10。檢查折疊尺寸是否具有代表性的快速方法是計算匯總統計量，例如平均值和標準差，并查看值與整個數據集的相同統計量的差異。我們可以重復我們在上一節中學習的內容，在實現k-fold交叉驗證時創建一個列和測試分割。我們必須返回k-folds或k組數據，而不是兩組。下面是一個名為 **cross_validation_split（）**的函數，它實現了數據的交叉驗證拆分。和以前一樣，我們創建了一個數據集的副本，從中可以繪制隨機選擇的行。我們計算每個折疊的大小，作為數據集的大小除以所需的折疊數。 ```py fold size = total rows / total folds ``` 如果數據集沒有干凈地除以折疊數，則可能會有一些剩余行，并且它們不會在拆分中使用。然后，我們創建一個具有所需大小的行列表，并將它們添加到折疊列表中，然后在最后返回。 ```py from random import randrange # Split a dataset into k folds def cross_validation_split(dataset, folds=3): dataset_split = list() dataset_copy = list(dataset) fold_size = int(len(dataset) / folds) for i in range(folds): fold = list() while len(fold) < fold_size: index = randrange(len(dataset_copy)) fold.append(dataset_copy.pop(index)) dataset_split.append(fold) return dataset_split ``` 我們可以在與上面相同的小型人工數據集上測試這種重采樣方法。每行只有一個列值，但我們可以想象這可能如何擴展到標準機器學習數據集。 The complete example is listed below. 和以前一樣，我們為隨機數生成器修復種子，以確保每次執行代碼時在相同的折疊中使用相同的行。 k值為4用于演示目的。我們可以預期，將10行劃分為4行將導致每行2行，剩余2將不會用于拆分。 ```py from random import seed from random import randrange # Split a dataset into k folds def cross_validation_split(dataset, folds=3): dataset_split = list() dataset_copy = list(dataset) fold_size = int(len(dataset) / folds) for i in range(folds): fold = list() while len(fold) < fold_size: index = randrange(len(dataset_copy)) fold.append(dataset_copy.pop(index)) dataset_split.append(fold) return dataset_split # test cross validation split seed(1) dataset = [[1], [2], [3], [4], [5], [6], [7], [8], [9], [10]] folds = cross_validation_split(dataset, 4) print(folds) ``` 運行該示例將生成以下輸出。打印折疊列表，顯示確實如預期的那樣每個折疊有兩行。 ```py [[[3], [2]], [[7], [1]], [[8], [9]], [[10], [6]]] ``` ### 3.如何選擇重采樣方法用于估計機器學習算法在新數據上的表現的黃金標準是k倍交叉驗證。當配置良好時，與其他方法（如訓練和測試分割）相比，k折交叉驗證可提供穩健的表現估計。交叉驗證的缺點是運行起來可能非常耗時，需要訓練和評估k個不同的模型。如果您有一個非常大的數據集，或者您正在評估需要很長時間訓練的模型，則會出現問題。訓練和測試分割重采樣方法是最廣泛使用的。這是因為它易于理解和實現，并且因為它可以快速估算算法表現。只構建和評估單個模型。盡管訓練和測試分割方法可以對新數據的模型表現進行噪聲或不可靠估計，但如果您擁有非常大的數據集，則這不會成為問題。大型數據集是數十萬或數百萬條記錄中的數據集，大到足以將其分成兩半，導致兩個數據集具有幾乎相同的統計屬性。在這種情況下，可能幾乎不需要使用k折交叉驗證作為算法的評估，并且訓練和測試分裂可能同樣可靠。 ## 擴展在本教程中，我們研究了兩種最常見的重采樣方法。您可能需要調查和實現其他方法作為本教程的擴展。例如： * **重復訓練和測試**。這是使用訓練和測試分割的地方，但過程重復多次。 * **LOOCV或Leave One Out Cross Validation** 。這是k折交叉驗證的一種形式，其中k的值固定為n（訓練樣本的數量）。 * **分層**。在分類問題中，這是每組中類值的平衡被迫與原始數據集匹配的地方。你實施了擴展嗎？在下面的評論中分享您的經歷。 ## 評論在本教程中，您了解了如何從頭開始在Python中實現重采樣方法。具體來說，你學到了： * 如何實施訓練和測試分割方法。 * 如何實現k-fold交叉驗證方法。 * 何時使用每種方法。您對重新采樣方法或此帖有任何疑問嗎？在評論中提出您的問題，我會盡力回答。