<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ??碼云GVP開源項目 12k star Uniapp+ElementUI 功能強大 支持多語言、二開方便! 廣告
                # 如何識別數據中的異常值 > 原文: [https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/](https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/) Bojan Miletic在使用機器學習算法時詢問了有關數據集中異常值檢測的問題。這篇文章是對他的問題的回答。 如果您對機器學習有疑問,請注冊時事通訊并回復電子郵件或使用[聯系表格](http://machinelearningmastery.com/contact/ "Contact")并詢問,我會回答您的問題,甚至可能將其變成博客文章。 ## 離群值 許多機器學習算法對輸入數據中屬性值的范圍和分布敏感。輸入數據中的異常值可能會扭曲和誤導機器學習算法的訓練過程,從而導致更長的訓練時間,更不準確的模型以及最終的較差結果。 ![Outlier](https://img.kancloud.cn/13/37/13374688b09e234836be53f6149eed7c_300x225.jpg) 異常 攝影: [Robert S. Donovan](http://www.flickr.com/photos/booleansplit/8482641188/sizes/l/) ,保留一些權利 即使在針對訓練數據準備預測模型之前,異常值也可能導致誤導性表示,進而導致對收集數據的誤導性解釋。異常值可以在描述性統計中偏離屬性值的摘要分布,如平均值和標準差,以及直方圖和散點圖等圖形,壓縮數據體。 最后,異常值可以表示與問題相關的數據實例的示例,例如欺詐檢測和計算機安全性中的異常。 ## 異常值建模 異常值是極端值,遠遠超出其他觀察值。例如,在正態分布中,異常值可以是分布尾部的值。 識別異常值的過程在數據挖掘和機器學習中有許多名稱,例如異常值挖掘,異常值建模和新穎性檢測以及異常檢測。 在他的書[異常分析](http://www.amazon.com/dp/1461463955?tag=inspiredalgor-20)(聯盟鏈接)中,Aggarwal提供了一個有用的離群檢測方法分類,如下: * **極值分析**:確定數據底層分布的統計尾部。例如,統計方法,如單變量數據的z分數。 * **概率和統計模型**:從數據的概率模型中確定不太可能的實例。例如,使用期望最大化優化的高斯混合模型。 * **線性模型**:使用線性相關將數據建模到較低維度的投影方法。例如,主成分分析和具有大殘差的數據可能是異常值。 * **基于鄰近度的模型**:與群集,密度或最近鄰分析確定的數據質量隔離的數據實例。 * **信息理論模型**:異常值被檢測為數據實例,增加了數據集的復雜性(最小代碼長度)。 * **高維異常值檢測**:搜索子空間中異常值的方法可以在更高維度(維數的詛咒)中分解基于距離的度量。 Aggarwal評論說,異常模型的可解釋性至關重要。對于特定數據實例為何或不是異常值的決策,需要上下文或基本原理。 在他對[數據挖掘和知識發現手冊](http://www.amazon.com/dp/0387098224?tag=inspiredalgor-20)(會員鏈接)的貢獻篇章中,Irad Ben-Gal提出了異常模型的分類,如單變量或多變量,參數和非參數。這是基于已知數據來構造方法的有用方法。例如: * 您是否考慮過一個或多個屬性中的異常值(單變量或多變量方法)? * 您能否假設一個統計分布,從中采集或不采樣(參數或非參數)? ## 入門 有許多方法和很多研究都用于異常檢測。首先進行一些假設和設計實驗,您可以清楚地觀察這些假設對某些表現或準確度測量的影響。 我建議通過極值分析,接近方法和投影方法的步進過程。 ### 極值分析 您無需了解高級統計方法即可查找,分析和過濾數據中的異常值。通過極值分析開始簡單。 * 專注于單變量方法 * 使用散點圖,直方圖和框和胡須圖可視化數據并查找極值 * 假設分布(高斯分布)并尋找與平均值相比超過2或3個標準差的值或從第一個或第三個四分位數開始的1.5倍的值 * 從訓練數據集中篩選出異常值候選者并評估您的模型表現 ### 接近方法 一旦探索了更簡單的極值方法,請考慮轉向基于鄰近度的方法。 * 使用聚類方法識別數據中的自然聚類(例如k均值算法) * 識別并標記聚類質心 * 識別與集群質心具有固定距離或百分比距離的數據實例 * 從訓練數據集中篩選出異常值候選者并評估您的模型表現 ### 投影方法 投影方法應用起來相對簡單,并且可以快速突出顯示無關的值。 * 使用投影方法將數據匯總為兩個維度(例如PCA,SOM或Sammon的映射) * 可視化映射并手動識別異常值 * 使用來自投影值或碼本向量的鄰近度量來識別異常值 * 從訓練數據集中篩選出異常值候選者并評估您的模型表現 ### 方法魯棒于異常值 另一種策略是轉向對異常值具有魯棒性的模型。有強大的回歸形式可以最小化中位數最小二乘誤差而不是均值(所謂的穩健回歸),但計算量更大。還有一些方法,如決策樹,對異常值很強。 您可以檢查一些對異常值有效的方法。如果存在顯著的模型準確性優勢,則可能有機會對訓練數據中的異常值進行建模和過濾。 ## 資源 有很多網頁討論異常值檢測,但我建議閱讀一本關于這個主題的好書,更具權威性。即使查看機器學習和數據挖掘的入門書籍也不會對您有用。有關統計學家對異常值的經典處理,請查看: * [Rousseeuw和Leroy于2003年發布的魯棒回歸和異常檢測](http://www.amazon.com/dp/0471488550?tag=inspiredalgor-20)(會員鏈接) * [Barnett和Lewis于1994年出版的統計數據](http://www.amazon.com/dp/0471930946?tag=inspiredalgor-20)(會員鏈接)中的異常值 * [異常值的識別](http://www.amazon.com/dp/041221900X?tag=inspiredalgor-20)(會員鏈接)霍金斯出版于1980年的專著 有關數據挖掘社區對異常值的現代處理,請參閱: * [異常分析](http://www.amazon.com/dp/1461463955?tag=inspiredalgor-20)(會員鏈接)由Aggarwal于2013年出版 * 第7章,Irad Ben-Gal在[數據挖掘與知識發現手冊](http://www.amazon.com/dp/0387098224?tag=inspiredalgor-20)(會員鏈接)中編輯,由Maimon和Rokach編輯,于2010年出版
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看