<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                企業??AI智能體構建引擎,智能編排和調試,一鍵部署,支持知識庫和私有化部署方案 廣告
                ## 10.1 置信區間 到目前為止,我們在這本書中的重點是估計統計數據的具體值。例如,假設我們想估計 nhanes 數據集中成年人的平均體重。我們可以從數據集中提取一個樣本并估計平均值: ```r # take a sample from adults in NHANES and summarize their weight sampSize <- 250 NHANES_sample <- sample_n(NHANES_adult, sampSize) sample_summary <- NHANES_sample %>% summarize( meanWeight = mean(Weight), sdWeight = sd(Weight) ) pander(sample_summary) ``` <colgroup><col style="width: 18%"> <col style="width: 13%"></colgroup> | 平均重量 | S 重量 | | --- | --- | | 82.77 美元 | 22.27 條 | 在這個樣本中,平均重量是 82.77 千克。我們將其稱為 _ 點估計 _,因為它為我們提供了一個描述差異的單一數字。然而,我們從前面對抽樣誤差的討論中知道,這個估計有一些不確定性,用標準誤差來描述。您還應該記住,標準誤差由兩個部分決定:總體標準偏差(分子)和樣本大小的平方根(分母)。總體標準偏差是一個未知但固定的參數,不在我們的控制范圍內,而樣本量 _ 在我們的控制范圍內。因此,我們可以通過增加樣本量來降低估計的不確定性——達到整個群體規模的極限,此時完全沒有不確定性,因為我們可以直接從整個群體的數據中計算群體參數。_ 您可能還記得之前我們引入了 _ 置信區間 _ 的概念,這是一種描述統計估計不確定性的方法。請記住,置信區間描述了一個平均包含給定概率的真實總體參數的區間;例如,95%置信區間是一個將捕獲 95%時間的真實總體參數的區間。請再次注意,這不是關于填充參數的語句;任何特定的置信區間都包含或不包含真參數。正如信任區間的發明者 Jerzy Neyman 所說: > “參數是一個未知常數,不能對其值作出概率陳述。”(J Neyman 1937) 平均值的置信區間計算如下: ![](https://img.kancloud.cn/a1/32/a132eb0056d375ef0260305edc90648a_298x17.jpg) 其中臨界值由估計值的抽樣分布確定。那么,重要的問題是抽樣分布是什么。 ### 10.1.1 使用正態分布的置信區間 如果我們知道總體標準差,那么我們可以用正態分布來計算置信區間。我們通常不這樣做,但對于我們的 nhanes 數據集示例,我們這樣做(重量為 21.3)。 假設我們要計算平均值的 95%置信區間。臨界值將是標準正態分布的值,它捕獲了 95%的分布;這些僅僅是分布的 2.5%和 97.5%,我們可以使用 r 中的`qnorm()`函數計算得出![](https://img.kancloud.cn/67/49/6749615b1314e20b35bdb877a91e7e98_45x13.jpg)。因此,平均值(![](https://img.kancloud.cn/44/11/4411464857feb67b527a2553a41b4a3c_16x15.jpg))的置信區間為: ![](https://img.kancloud.cn/1d/af/1daf5e505d4bb2a25fd7fe45a2edef4f_161x16.jpg) 利用樣本(82.77)的估計平均值和已知的總體標準差,我們可以計算出[80.13,85.41]的置信區間。 ### 10.1.2 使用 t 分布的置信區間 如上所述,如果我們知道總體標準差,那么我們可以使用正態分布來計算我們的置信區間。但是,一般情況下,我們不會——在這種情況下,_t_ 分布更適合作為采樣分布。記住,t 分布比正態分布略寬,特別是對于較小的樣本,這意味著置信區間將比我們使用正態分布時的置信區間略寬。這包含了當我們基于小樣本得出結論時產生的額外不確定性。 我們可以用類似于上述正態分布的方法計算 95%的置信區間,但臨界值是由 _t_ 分布的 2.5%和 97.5%確定的,我們可以用 r 中的`qt()`函數計算,因此平均值(![](https://img.kancloud.cn/44/11/4411464857feb67b527a2553a41b4a3c_16x15.jpg))的 ence 間隔為: ![](https://img.kancloud.cn/1c/4f/1c4f8a22f2dcf48afccd2e2f7e4a00fd_158x18.jpg) 其中![](https://img.kancloud.cn/0b/5b/0b5bb5c01c595292a30bae40eb29d7c0_27x15.jpg)是臨界 t 值。對于 nhanes 權重示例(樣本大小為 250),置信區間為: ```r # compute confidence intervals for weight in NHANES data sample_summary <- sample_summary %>% mutate( cutoff_lower = qt(0.025, sampSize), cutoff_upper = qt(0.975, sampSize), CI_lower = meanWeight + cutoff_lower * sdWeight / sqrt(sampSize), CI_upper = meanWeight + cutoff_upper * sdWeight / sqrt(sampSize) ) pander(sample_summary) ``` <colgroup><col style="width: 17%"> <col style="width: 14%"> <col style="width: 19%"> <col style="width: 19%"> <col style="width: 14%"> <col style="width: 14%"></colgroup> | meanWeight | sdWeight | 切斷閥 | 上切斷 | Ci_ 下 | Ci_ 上部 | | --- | --- | --- | --- | --- | --- | | 82.77 | 22.27 | -1.97 條 | 1.97 條 | 80 | 85.54 美元 | 請記住,這并不能告訴我們關于真實總體值在這個區間內的概率,因為它是一個固定參數(我們知道它是 81.77,因為在這種情況下我們有整個總體),并且它或者不在這個特定區間內(i 在這種情況下,確實如此)。相反,它告訴我們,從長遠來看,如果我們使用這個過程計算置信區間,95%的置信區間將捕獲真正的總體參數。 ### 10.1.3 置信區間和樣本量 由于標準誤差隨樣本量的減小而減小,平均置信區間應隨著樣本量的增大而變窄,從而為我們的估計提供了越來越嚴格的界限。圖[10.1](#fig:CISampSize)顯示了置信區間將如何作為權重示例的樣本大小函數而變化的示例。從圖中可以明顯看出,隨著樣本量的增加,置信區間變得越來越緊,但是增加樣本會產生遞減的回報,這與置信區間項的分母與樣本量的平方根成正比的事實相一致。E. ![An example of the effect of sample size on the width of the confidence interval for the mean.](https://img.kancloud.cn/66/47/6647b12f2f785e0f8263e3304d491b99_384x384.png) 圖 10.1 樣本量對平均值置信區間寬度影響的示例。 ### 10.1.4 使用引導程序計算置信區間 在某些情況下,我們不能假定正態性,或者我們不知道統計的抽樣分布。在這些情況下,我們可以使用引導程序(我們在[8](#resampling-and-simulation)章中介紹了它)。作為提醒,引導程序需要重復地用替換項對數據 _ 進行重采樣,然后使用這些樣本上計算的統計分布作為統計分布的抽樣代理。_ 早些時候,我們使用手工編寫的代碼運行引導程序,但是 R 包含一個名為`boot`的包,我們可以使用它運行引導程序并計算置信區間。讓我們用它來計算 nhanes 樣本中權重的置信區間。 ```r # compute bootstrap confidence intervals on NHANES weight data meanWeight <- function(df, foo) { return(mean(df[foo, ]$Weight)) } bs <- boot(NHANES_sample, meanWeight, 1000) # use the percentile bootstrap bootci <- boot.ci(bs, type = "perc") print("Bootstrap confidence intervals:") ``` ```r ## [1] "Bootstrap confidence intervals:" ``` ```r tibble( lower = bootci$perc[4], upper = bootci$perc[5] ) %>% pander() ``` <colgroup><col style="width: 11%"> <col style="width: 11%"></colgroup> | 降低 | 上面的 | | --- | --- | | 第 80.12 條 | 85.71 美元 | 這些值與使用上面的 t 分布得到的值相當接近,盡管不完全相同。 ### 10.1.5 置信區間與假設檢驗的關系 置信區間與假設檢驗有著密切的關系。尤其是,如果置信區間不包括無效假設,那么相關的統計檢驗將具有統計學意義。例如,如果您使用![](https://img.kancloud.cn/46/c0/46c01e385788ea8e97a8ea63fdbc8d70_68x13.jpg)測試樣本的平均值是否大于零,您可以簡單地檢查是否在平均值的 95%置信區間內包含零。 如果我們想比較兩個條件的平均值,事情會變得更棘手(Schenker 和紳士 2001)。有幾個情況是清楚的。首先,如果每個均值都包含在另一個均值的置信區間內,那么在所選置信水平上肯定沒有顯著差異。其次,如果置信區間之間沒有重疊,那么在所選水平上肯定存在顯著差異;事實上,該測試基本上是 _ 保守 _,因此實際誤差率將低于所選水平。但是,如果置信區間彼此重疊,但不包含另一組的平均值,情況會怎樣呢?在這種情況下,答案取決于兩個變量的相對可變性,沒有一般的答案。一般來說,我們應該避免對重疊的置信區間使用“視覺測試”,因為它通常會導致較高的假陰性(II 型)錯誤率。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看