<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                合規國際互聯網加速 OSASE為企業客戶提供高速穩定SD-WAN國際加速解決方案。 廣告
                # 用ROC曲線評估和比較分類器表現 > 原文: [https://machinelearningmastery.com/assessing-comparing-classifier-performance-roc-curves-2/](https://machinelearningmastery.com/assessing-comparing-classifier-performance-roc-curves-2/) 最常報告的分類器表現測量是準確度:獲得的正確分類的百分比。 該度量具有易于理解的優點,并且使不同分類器的表現比較微不足道,但它忽略了在誠實地評估分類器的表現時應該考慮的許多因素。 ## 什么是分類器表現? 分類器表現不僅僅是正確分類的數量。 為了興趣,考慮篩查相對罕見的病癥如宮頸癌的問題,其患病率約為10%([實際統計](http://www.cancerresearchuk.org/cancer-info/cancerstats/types/cervix/incidence/uk-cervical-cancer-incidence-statistics))。如果一個懶惰的巴氏涂片篩選器將每個幻燈片歸類為“正常”,那么它們的準確度將達到90%。非常令人印象深刻!但是,這個數字完全忽略了這樣一個事實,即10%確實患有這種疾病的女性根本沒有被診斷出來。 ### 一些表現指標 在之前的博客文章中,我們討論了可用于評估分類器的一些其他表現指標。回顧: 大多數分類器產生分數,然后對其進行閾值處理以確定分類。如果分類器產生的分數在0.0(絕對為負)和1.0(絕對為正)之間,則通常將0.5以上的任何分數視為正數。 但是,應用于數據集的任何閾值(其中PP是陽性群體,NP是陰性群體)將產生真陽性(TP),假陽性(FP),真陰性(TN)和假陰性(FN) (圖1)。我們需要一種考慮所有這些數字的方法。 [![ROC Curve Explaination](https://img.kancloud.cn/bc/41/bc41be7fdf87af1696df3ee949dc7080_300x214.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/11/ROC1.png) 圖1.重疊數據集將始終生成誤報和否定以及真正的正數和負數 獲得所有這些度量的數字后,就可以計算出一些有用的指標。 * **準確度** =(1 - 誤差)=(TP + TN)/(PP + NP)= Pr(C),正確分類的概率。 * **靈敏度** = TP /(TP + FN)= TP / PP =測試在患病個體群體中檢測疾病的能力。 * **特異性** = TN /(TN + FP)= TN / NP =測試在無病人群中正確排除疾病的能力。 讓我們為一些合理的現實世界數字計算這些指標。如果我們有100,000名患者,其中200名(20%)實際上患有癌癥,我們可能會看到以下測試結果(表1): [![Table of sample data](https://img.kancloud.cn/e0/9b/e09b69522a384f1019e302ebc8d09599_564x136.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/11/Table.png) 表1.巴氏涂片篩查的“合理”值的診斷測試表現的圖示 對于這些數據: * **靈敏度** = TP /(TP + FN)= 160 /(160 + 40)= 80.0% **特異性** = TN /(TN + FP)= 69,860 /(69,860 + 29,940)= 70.0% 換句話說,我們的測試將正確識別80%患有該疾病的人,但30%的健康人將錯誤地測試陽性。通過僅考慮測試的靈敏度(或準確度),可能丟失重要信息。 通過考慮我們錯誤的結果以及正確的結果,我們可以更深入地了解分類器的表現。 克服必須選擇截止的問題的一種方法是以0.0的閾值開始,以便每種情況都被認為是正的。我們正確地對所有陽性病例進行分類,并錯誤地將所有陰性病例分類。然后,我們將閾值移動到介于0.0和1.0之間的每個值,逐漸減少誤報的數量并增加真陽性的數量。 然后可以針對所使用的每個閾值針對FP(1-特異性)繪制TP(靈敏度)。結果圖稱為接收器工作特性(ROC)曲線(圖2)。 ROC曲線被開發用于20世紀50年代雷達回波中的信號檢測,并且已經應用??于廣泛的問題。 [![Example ROC Curves](https://img.kancloud.cn/dd/ad/ddad24a19dabde9e12806a9751bb0d65_300x293.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/11/ROC2.png) 圖2\. ROC曲線的示例 對于完美的分類器,ROC曲線將沿Y軸向上,然后沿X軸向上。沒有力量的分類器將位于對角線上,而大多數分類器位于兩者之間。 > ROC分析提供了用于選擇可能的最優模型并且獨立于(并且在指定之前)成本上下文或類分布的情況下丟棄次優模型的工具 - [維基百科有關接收器操作特性的文章](http://en.wikipedia.org/wiki/Receiver_operating_characteristic) ## 使用ROC曲線 ### 閾值選擇 很明顯,ROC曲線可用于選擇最大化真陽性的分類器的閾值,同時最小化誤報。 然而,不同類型的問題具有不同的最佳分類器閾值。例如,對于癌癥篩查測試,我們可能準備忍受相對較高的假陽性率以獲得高真陽性,最重要的是識別可能的癌癥患者。 然而,對于治療后的隨訪測試,可能更需要不同的閾值,因為我們希望最大限度地減少假陰性,我們不想告訴患者他們是否清楚,如果事實并非如此。 ### 績效評估 ROC曲線還使我們能夠評估分類器在整個操作范圍內的表現。最廣泛使用的衡量指標是曲線下面積(AUC)。從圖2中可以看出,沒有功率,基本上是隨機猜測的分類器的AUC是0.5,因為曲線跟隨對角線。神秘存在的AUC,完美的分類器,是1.0。大多數分類器的AUC介于這兩個值之間。 AUC小于0.5可能表明發生了一些有趣的事情。非常低的AUC可能表明問題已被錯誤地設置,分類器在數據中找到一個基本上與預期相反的關系。在這種情況下,檢查整個ROC曲線可能會給出一些線索:正面和負面是否有錯誤的標簽? ### 分類器比較 AUC可用于比較兩個或更多分類器的表現。可以選擇單個閾值并且比較該分類器在該點的表現,或者可以通過考慮AUC來比較整體表現。 大多數已發表的報告以絕對值比較AUC:“_分類器1的AUC為0.85,分類器2的AUC為0.79,因此分類器1顯然更好_”。然而,可以計算AUC的差異是否具有統計學意義。有關詳細信息,請參閱Hanley&amp; McNeil(1982)的論文如下。 ## ROC曲線分析教程 * [使用SigmaPlot軟件生成ROC曲線的教程](http://www.sigmaplot.com/products/sigmaplot/ROC_Curves_Analysis.pdf)(PDF) * [TheRMUoHP生物統計資源頻道](https://www.youtube.com/watch?v=_2zN2a3MgmU)的SPSS YouTube教程 * [pROC包的文檔](http://cran.r-project.org/web/packages/pROC/pROC.pdf)(PDF) &lt;iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/_2zN2a3MgmU?feature=oembed" width="500"&gt;&lt;/iframe&gt; ## 何時使用ROC曲線分析 在這篇文章中,我使用了一個生物醫學的例子,ROC曲線被廣泛用于生物醫學科學。然而,該技術適用于為每種情況產生分數的任何分類器,而不是二元決策。 神經網絡和許多統計算法是適當分類器的示例,而諸如決策樹之類的方法則不太適合。只有兩種可能結果的算法(例如此處使用的癌癥/無癌癥例子)最適合這種方法。 可以將任何種類的數據輸入適當的分類器中進行ROC曲線分析。 ## 進一步閱讀 * 關于使用ROC曲線的經典論文,陳舊但仍然非常相關:Hanley,J。A.和B. J. McNeil(1982)。 “[接收器工作特性(ROC)曲線下面積的含義和用途](http://www.med.mcgill.ca/epidemiology/Hanley/software/Hanley_McNeil_Radiology_82.pdf)。”放射學143(1):29-36。 * 還有一篇很好的,最新的評論文章,主要關注醫學診斷:Hajian-Tilaki K.“[接收器操作特性(ROC)曲線分析,用于醫療診斷測試評估](http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3755824/)”。 Caspian Journal of Internal Medicine 2013; 4(2):627-635。 * 僅僅是為了證明在金融應用中使用ROC曲線:Petro Lisowsky(2010)“[尋求庇護:使用財務報表信息](http://www.researchgate.net/publication/228281204_Seeking_Shelter_Empirically_Modeling_Tax_Shelters_Using_Financial_Statement_Information/file/60b7d51ffaecc015a2.pdf)”對稅收避難所進行實證建模。會計評論:2010年9月,卷。 85,第5期,第1693-1720頁。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看