<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ??一站式輕松地調用各大LLM模型接口,支持GPT4、智譜、豆包、星火、月之暗面及文生圖、文生視頻 廣告
                # 如何在Python中計算數據的5位數摘要 > 原文: [https://machinelearningmastery.com/how-to-calculate-the-5-number-summary-for-your-data-in-python/](https://machinelearningmastery.com/how-to-calculate-the-5-number-summary-for-your-data-in-python/) 數據匯總提供了一種方便的方法來描述數據樣本中的所有值,只需幾個統計值。 平均值和標準差用于匯總具有高斯分布的數據,但如果您的數據樣本具有非高斯分布,則可能沒有意義,甚至可能具有誤導性。 在本教程中,您將發現用于描述數據樣本分布的五個數字摘要,而不假設特定的數據分布。 完成本教程后,您將了解: * 數據匯總(例如計算均值和標準差)僅對高斯分布有意義。 * 五個數字摘要可用于描述具有任何分布的數據樣本。 * 如何計算Python中的五位數摘要。 讓我們開始吧。 ![How to Calculate the 5-Number Summary for Your Data in Python](img/db9b0efb2136a8324488a6f902d7c46f.jpg) 如何在Python中計算數據的5位數摘要 照片由 [Masterbutler](https://www.flickr.com/photos/alwbutler/7456018222/) ,保留一些權利。 ## 教程概述 本教程分為4個部分;他們是: 1. 非參數數據摘要 2. 五位數總結 3. 如何計算五位數匯總 4. 使用五位數摘要 ## 非參數數據摘要 數據匯總技術提供了一種使用一些關鍵測量來描述數據分布的方法。 最常見的數據匯總示例是計算具有高斯分布的數據的均值和標準差。僅使用這兩個參數,您就可以理解并重新創建數據的分布。數據摘要可以壓縮幾十或幾百萬個別觀察。 問題是,您不能輕易計算出沒有高斯分布的數據的均值和標準差。從技術上講,您可以計算這些數量,但它們并未總結數據分布;事實上,他們可能會產生誤導。 對于沒有高斯分布的數據,您可以使用五個數字摘要匯總數據樣本。 ## 五位數總結 五個數字摘要或簡稱為5個數字的摘要是非參數數據摘要技術。 它有時被稱為Tukey 5號碼摘要,因為它是由John Tukey推薦的。它可用于描述具有任何分布的數據的數據樣本的分布。 > 作為一般用途的標準摘要,5號摘要提供了正確的詳細信息量。 - 第37頁,[理解穩健和探索性數據分析](https://amzn.to/2Gp2sNW),2000。 五位數摘要涉及5個匯總統計量的計算:即: * **中位數**:樣本中的中間值,也稱為第50個百分位數或第2個四分位數。 * **第一四分位數**:第25個百分點。 * **第三四分位數**:第75個百分點。 * **最小**:樣本中的最小觀察值。 * **最大值**:樣本中最大的觀察值。 四分位數是一個點上的觀察值,有助于將有序數據樣本分成四個大小相等的部分。中位數或第二四分位數將有序數據樣本分成兩部分,第一和第三四分位數將這些半部分分成四部分。 百分位數是在有助于將有序數據樣本分成100個相等大小的部分的點處的觀察值。四分位數通常也表示為百分位數。 四分位數和百分位數值都是排名統計的示例,可以在具有任何分布的數據樣本上計算。它們用于快速總結分布中有多少數據落后于給定觀察值。例如,一半的觀??察結果落在分布的中位數之前和之前。 注意,四分位數也在[框和須狀圖](https://en.wikipedia.org/wiki/Box_plot)中計算,這是一種非參數方法,用于圖形化地總結數據樣本的分布。 ## 如何計算五位數匯總 計算五位數摘要包括查找每個四分位數的觀測值以及數據樣本的最小和最大觀測值。 如果四分位數的有序數據樣本中沒有特定值,例如,如果有偶數個觀察值并且我們試圖找到中位數,那么我們可以計算兩個最接近的值的平均值,例如兩個中間價值觀。 我們可以使用[百分位()](https://docs.scipy.org/doc/numpy-dev/reference/generated/numpy.percentile.html) NumPy函數在Python中計算任意百分位數值。我們可以使用此函數來計算第1,第2(中位數)和第3四分位數值。該函數采用觀察數組和浮點值來指定要在0到100范圍內計算的百分位數。它還可以采用百分位數值列表來計算多個百分位數;例如: ```py quartiles = percentile(data, [25, 50, 75]) ``` 默認情況下,如果需要,函數將計算觀察值之間的線性插值(平均值),例如在計算具有偶數值的樣本的中值的情況下。 NumPy函數min()和max()可用于返回數據樣本中的最小值和最大值;例如: ```py data_min, data_max = data.min(), data.max() ``` 我們可以把所有這些放在一起。 下面的示例生成從0到1之間的均勻分布繪制的數據樣本,并使用五個數字摘要對其進行匯總。 ```py # calculate a 5-number summary from numpy import percentile from numpy.random import rand # generate data sample data = rand(1000) # calculate quartiles quartiles = percentile(data, [25, 50, 75]) # calculate min/max data_min, data_max = data.min(), data.max() # print 5-number summary print('Min: %.3f' % data_min) print('Q1: %.3f' % quartiles[0]) print('Median: %.3f' % quartiles[1]) print('Q3: %.3f' % quartiles[2]) print('Max: %.3f' % data_max) ``` 運行該示例將生成數據樣本并計算五個數字摘要以描述樣本分布。 我們可以看到觀察的傳播接近我們的預期,第50百分位數為0.27,第50百分位數為0.53,第75百分位數為0.76,接近理想值分別為0.25,0.50和0.75。 ```py Min: 0.000 Q1: 0.277 Median: 0.532 Q3: 0.766 Max: 1.000 ``` ## 使用五位數摘要 可以針對具有任何分布的數據樣本計算五個數字摘要。 這包括具有已知分布的數據,例如高斯分布或類高斯分布。 我建議總是計算五個數字的摘要,并且只能繼續分發特定的摘要,例如高斯的均值和標準差,以便您可以識別數據所屬的分布。 ## 擴展 本節列出了一些擴展您可能希望探索的教程的想法。 * 在機器學習項目中描述三個示例,其中可以計算五個數字摘要。 * 生成具有高斯分布的數據樣本并計算五個數字摘要。 * 編寫一個函數來計算任何數據樣本的5個數字摘要。 如果你探索任何這些擴展,我很想知道。 ## 進一步閱讀 如果您希望深入了解,本節將提供有關該主題的更多資源。 ### 圖書 * [理解穩健和探索性數據分析](https://amzn.to/2Gp2sNW),2000。 ### API * [numpy.percentile()API](https://docs.scipy.org/doc/numpy-dev/reference/generated/numpy.percentile.html) * [numpy.ndarray.min()API](https://docs.scipy.org/doc/numpy-dev/reference/generated/numpy.ndarray.min.html) * [numpy.ndarray.max()API](https://docs.scipy.org/doc/numpy-dev/reference/generated/numpy.ndarray.max.html) ### 用品 * [維基百科上的五個數字摘要](https://en.wikipedia.org/wiki/Five-number_summary) * [維基百科上的四分之一](https://en.wikipedia.org/wiki/Quartile) * [維基百科上的百分位數](https://en.wikipedia.org/wiki/Percentile) ## 摘要 在本教程中,您發現了五個數字摘要,用于描述數據樣本的分布,而不假設特定的數據分布。 具體來說,你學到了: * 數據匯總(例如計算均值和標準差)僅對高斯分布有意義。 * 五個數字摘要可用于描述具有任何分布的數據樣本。 * 如何計算Python中的五位數摘要。 你有任何問題嗎? 在下面的評論中提出您的問題,我會盡力回答。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看