如何識別數據中的異常值 · Machine Learning Mastery 博客文章翻譯

# 如何識別數據中的異常值 > 原文： [https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/](https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/) Bojan Miletic在使用機器學習算法時詢問了有關數據集中異常值檢測的問題。這篇文章是對他的問題的回答。如果您對機器學習有疑問，請注冊時事通訊并回復電子郵件或使用[聯系表格](http://machinelearningmastery.com/contact/ "Contact")并詢問，我會回答您的問題，甚至可能將其變成博客文章。 ## 離群值許多機器學習算法對輸入數據中屬性值的范圍和分布敏感。輸入數據中的異常值可能會扭曲和誤導機器學習算法的訓練過程，從而導致更長的訓練時間，更不準確的模型以及最終的較差結果。 ![Outlier](https://img.kancloud.cn/13/37/13374688b09e234836be53f6149eed7c_300x225.jpg) 異常攝影： [Robert S. Donovan](http://www.flickr.com/photos/booleansplit/8482641188/sizes/l/) ，保留一些權利即使在針對訓練數據準備預測模型之前，異常值也可能導致誤導性表示，進而導致對收集數據的誤導性解釋。異常值可以在描述性統計中偏離屬性值的摘要分布，如平均值和標準差，以及直方圖和散點圖等圖形，壓縮數據體。最后，異常值可以表示與問題相關的數據實例的示例，例如欺詐檢測和計算機安全性中的異常。 ## 異常值建模異常值是極端值，遠遠超出其他觀察值。例如，在正態分布中，異常值可以是分布尾部的值。識別異常值的過程在數據挖掘和機器學習中有許多名稱，例如異常值挖掘，異常值建模和新穎性檢測以及異常檢測。在他的書[異常分析](http://www.amazon.com/dp/1461463955?tag=inspiredalgor-20)（聯盟鏈接）中，Aggarwal提供了一個有用的離群檢測方法分類，如下： * **極值分析**：確定數據底層分布的統計尾部。例如，統計方法，如單變量數據的z分數。 * **概率和統計模型**：從數據的概率模型中確定不太可能的實例。例如，使用期望最大化優化的高斯混合模型。 * **線性模型**：使用線性相關將數據建模到較低維度的投影方法。例如，主成分分析和具有大殘差的數據可能是異常值。 * **基于鄰近度的模型**：與群集，密度或最近鄰分析確定的數據質量隔離的數據實例。 * **信息理論模型**：異常值被檢測為數據實例，增加了數據集的復雜性（最小代碼長度）。 * **高維異常值檢測**：搜索子空間中異常值的方法可以在更高維度（維數的詛咒）中分解基于距離的度量。 Aggarwal評論說，異常模型的可解釋性至關重要。對于特定數據實例為何或不是異常值的決策，需要上下文或基本原理。在他對[數據挖掘和知識發現手冊](http://www.amazon.com/dp/0387098224?tag=inspiredalgor-20)（會員鏈接）的貢獻篇章中，Irad Ben-Gal提出了異常模型的分類，如單變量或多變量，參數和非參數。這是基于已知數據來構造方法的有用方法。例如： * 您是否考慮過一個或多個屬性中的異常值（單變量或多變量方法）？ * 您能否假設一個統計分布，從中采集或不采樣（參數或非參數）？ ## 入門有許多方法和很多研究都用于異常檢測。首先進行一些假設和設計實驗，您可以清楚地觀察這些假設對某些表現或準確度測量的影響。我建議通過極值分析，接近方法和投影方法的步進過程。 ### 極值分析您無需了解高級統計方法即可查找，分析和過濾數據中的異常值。通過極值分析開始簡單。 * 專注于單變量方法 * 使用散點圖，直方圖和框和胡須圖可視化數據并查找極值 * 假設分布（高斯分布）并尋找與平均值相比超過2或3個標準差的值或從第一個或第三個四分位數開始的1.5倍的值 * 從訓練數據集中篩選出異常值候選者并評估您的模型表現 ### 接近方法一旦探索了更簡單的極值方法，請考慮轉向基于鄰近度的方法。 * 使用聚類方法識別數據中的自然聚類（例如k均值算法） * 識別并標記聚類質心 * 識別與集群質心具有固定距離或百分比距離的數據實例 * 從訓練數據集中篩選出異常值候選者并評估您的模型表現 ### 投影方法投影方法應用起來相對簡單，并且可以快速突出顯示無關的值。 * 使用投影方法將數據匯總為兩個維度（例如PCA，SOM或Sammon的映射） * 可視化映射并手動識別異常值 * 使用來自投影值或碼本向量的鄰近度量來識別異常值 * 從訓練數據集中篩選出異常值候選者并評估您的模型表現 ### 方法魯棒于異常值另一種策略是轉向對異常值具有魯棒性的模型。有強大的回歸形式可以最小化中位數最小二乘誤差而不是均值（所謂的穩健回歸），但計算量更大。還有一些方法，如決策樹，對異常值很強。您可以檢查一些對異常值有效的方法。如果存在顯著的模型準確性優勢，則可能有機會對訓練數據中的異常值進行建模和過濾。 ## 資源有很多網頁討論異常值檢測，但我建議閱讀一本關于這個主題的好書，更具權威性。即使查看機器學習和數據挖掘的入門書籍也不會對您有用。有關統計學家對異常值的經典處理，請查看： * [Rousseeuw和Leroy于2003年發布的魯棒回歸和異常檢測](http://www.amazon.com/dp/0471488550?tag=inspiredalgor-20)（會員鏈接） * [Barnett和Lewis于1994年出版的統計數據](http://www.amazon.com/dp/0471930946?tag=inspiredalgor-20)（會員鏈接）中的異常值 * [異常值的識別](http://www.amazon.com/dp/041221900X?tag=inspiredalgor-20)（會員鏈接）霍金斯出版于1980年的專著有關數據挖掘社區對異常值的現代處理，請參閱： * [異常分析](http://www.amazon.com/dp/1461463955?tag=inspiredalgor-20)（會員鏈接）由Aggarwal于2013年出版 * 第7章，Irad Ben-Gal在[數據挖掘與知識發現手冊](http://www.amazon.com/dp/0387098224?tag=inspiredalgor-20)（會員鏈接）中編輯，由Maimon和Rokach編輯，于2010年出版