百分位數與四分位數計算機
輸入
| 資料數列 | 4, 8, 15, 16, 23, 42 |
|---|---|
| 百分位數 | 75 |
結果
| 第 p 百分位的數值 | 21.25 |
|---|---|
| Q1(第 25 百分位) | 9.75 |
| Q2(中位數) | 15.5 |
| Q3(第 75 百分位) | 21.25 |
| IQR(四分位距) | 11.5 |
百分位數與四分位數計算機
輸入逗號分隔的資料,計算任意百分位數、Q1/Q2/Q3 四分位數及四分位距(IQR)。採線性插值法,與 Excel PERCENTILE.INC 結果相同。
輸入
結果
四分位數
百分位數是資料集中的一個數值,表示有特定百分比的觀測值落在此數值以下。第 75 百分位即 75% 的資料落於其下。四分位數是三個特殊百分位——Q1(第 25 百分位)、Q2(第 50 百分位)、Q3(第 75 百分位)——將排序後的資料分成四個等份。本計算機可針對逗號分隔的數列,計算任意百分位及三個四分位數,並同時輸出四分位距(IQR)。
線性插值法
計算百分位數的方法有多種,各軟體的預設慣例不盡相同。本計算機採用「含端點線性插值法」,即 R 語言的 Method 7,與 Excel 的 PERCENTILE.INC 函數及 Python numpy.percentile 的預設方法相同。
計算步驟如下:
- 將 n 個數值由小到大排序。
- 計算索引位置:
position= (n − 1) × p / 100。 - 令
lo= ⌊position⌋、hi= ⌈position⌉,小數部分frac= position − lo,則百分位數 =sorted[lo]+ frac × (sorted[hi]−sorted[lo])。
當位置恰為整數時,插值分數為零,結果即為 sorted[position]。p = 0 時結果為最小值,p = 100 時結果為最大值。
計算範例
以資料集 4, 8, 15, 16, 23, 42(六個數值,已由小到大排列)為例。
Q1(p = 25): position = (6 − 1) × 0.25 = 1.25。索引 1 的值為 8,索引 2 的值為 15。Q1 = 8 + 0.25 × (15 − 8) = 8 + 1.75 = 9.75。
Q2/中位數(p = 50): position = 5 × 0.50 = 2.5。索引 2 的值為 15,索引 3 的值為 16。Q2 = 15 + 0.5 × (16 − 15) = 15.5。
Q3(p = 75): position = 5 × 0.75 = 3.75。索引 3 的值為 16,索引 4 的值為 23。Q3 = 16 + 0.75 × (23 − 16) = 16 + 5.25 = 21.25。
IQR = Q3 − Q1 = 21.25 − 9.75 = 11.5。 此資料集中間一半的數值範圍跨度為 11.5。
若計算第 10 百分位:position = 5 × 0.10 = 0.5,索引 0 的值為 4,索引 1 的值為 8。P10 = 4 + 0.5 × (8 − 4) = 6.0。
四分位數與箱形圖
五數概括(最小值、Q1、Q2、Q3、最大值)是箱形圖(又稱箱鬚圖)的基礎。標準箱形圖中,箱體由 Q1 延伸至 Q3,箱體內的橫線標示中位數(Q2),鬚線則延伸至距箱體邊緣 1.5 × IQR 範圍內的最極端值。
超出鬚線的數值被標記為離群值。以上述資料集為例,下界 = Q1 − 1.5 × IQR = 9.75 − 17.25 = −7.5,上界 = Q3 + 1.5 × IQR = 21.25 + 17.25 = 38.5。資料中的 42 超過上界,因此會被標記為輕度離群值。
四分位距作為散布量數
四分位距是最常用的強韌性散布量數。標準差對每個偏差值取平方再加總,因此對極端值高度敏感;四分位距則僅考量排序後中間 50% 的資料,單一極端觀測值不會影響 Q1 或 Q3 的計算,故對離群值具有免疫性。
這一特性使四分位距成為偏態分佈的首選散布量數——家戶所得、不動產價格、候診時間等分佈中,少數極端值往往會放大標準差,導致對典型變異性產生誤導。
各種百分位計算方法的差異
R 語言記載了九種不同的百分位計算方法,各科學領域也有各自的慣例。主要差異在於如何處理小數索引,以及第一個排序值是否對應第 0 百分位或第 1/n × 100 百分位。
- Method 7(本計算機、R 預設、Excel
PERCENTILE.INC、numpy 預設): position = (n − 1) × p / 100。最小值對應 p = 0,最大值對應 p = 100。 - Method 6(Excel
PERCENTILE.EXC、SPSS 預設): position = n × p / 100。最小值與最大值均不可達,有效範圍為 1/(n+1) 至 n/(n+1)。 - Methods 1–3(最近排名法): 直接回傳資料集中實際存在的值,不進行插值。Method 1(天花板排名)常見於部分統計教科書。
資料量達數百筆以上時,各方法的結果趨於一致;差異在小樣本中最為明顯。跨工具比較百分位數時,應確認各工具所採用的方法。
百分位數與 Z 分數的關係
百分位數是純粹以資料本身為基礎的排名指標:它描述某個值在觀測資料集中的位置,不假設任何分佈形態。第 90 百分位即 90% 的資料落於其下的值。
Z 分數則衡量某值距離平均數幾個標準差,在資料近似常態分佈時才具有完整意義。在理想常態分佈下,Z = 1.28 對應第 90 百分位;但若資料高度偏斜或呈雙峰,同樣的 Z 分數可能對應截然不同的實際排名。
分佈型態未知或明顯非常態時——如測驗分數存在天花板效應,或醫學參考值範圍——百分位數較為適用;當常態假設合理且需跨不同量尺進行比較時,Z 分數則更為恰當。
最小資料筆數的要求
線性插值法至少需要兩筆資料。恰好兩筆資料時,四分位數透過此單一區間的插值計算,最小值到最大值之間的所有百分位均可取得。
實務上若要獲得可靠的百分位估計,需要更多資料。樣本百分位的不確定性與樣本數成反比:母群第 90 百分位的 95% 信賴區間,在 n = 20 時遠比 n = 200 時寬得多。
常見問題(FAQ)
本計算機採用哪種百分位計算方法?
本計算機採用線性插值(含端點)法,即 R 語言的 Method 7,與 Excel 的 PERCENTILE.INC 函數(即 Excel 預設的 PERCENTILE 函數)演算法相同。此方法將第 p 百分位的索引位置設為 (n − 1) × p / 100,再對相鄰兩個排序值進行插值。
以六筆資料 [4, 8, 15, 16, 23, 42] 計算 Q1(p = 25)為例:位置 = 5 × 0.25 = 1.25,即取索引 1 的值 8 加上 0.25 × (15 − 8) = 8 + 1.75 = 9.75。
不同軟體可能採用不同方法(R 共支援九種;Python 的 numpy 預設亦為 Method 7)。跨工具比較結果時,應確認各自使用的計算慣例。
四分位距有哪些實際用途?
四分位距(IQR)等於 Q3 減去 Q1,衡量資料中間 50% 的散布程度,主要有兩個用途。
第一,作為離群值的判定依據:低於 Q1 − 1.5 × IQR 或高於 Q3 + 1.5 × IQR 的值被視為輕度離群值;超出 Q1 − 3 × IQR 或 Q3 + 3 × IQR 者則為極端離群值。R、Python matplotlib 及 Excel 的箱形圖均以此規則標記離群點。
第二,作為具有強韌性的散布量數:相較於標準差,IQR 不受尾端極端值影響,因此對偏態分佈——如所得分佈、房價、候診時間——更能反映典型數值的集中程度。
四分位數如何將資料劃分為四等份?
四分位數將排序後的資料分成四個各占 25% 的等份。Q1(第 25 百分位)標示最低四分之一的上界;Q2(第 50 百分位,即中位數)將資料對半分;Q3(第 75 百分位)標示最高四分之一的下界。
若資料筆數恰為 4 的倍數,三個四分位數恰好落在相鄰兩值之間。其他情況下,線性插值法會給出符合比例界限的小數值。Q3 與 Q1 之差即四分位距,涵蓋中間兩個四分位的範圍,是探索性資料分析中最常見的單一散布量數。
百分位數與 Z 分數有何不同?
百分位數是基於排名的位置指標:它告訴我們資料集中有多少比例的觀測值低於某個特定值,不假設任何分佈型態。第 75 百分位即 75% 的資料落於其下的那個值。
Z 分數則衡量某值距離平均數幾個標準差,隱含資料大致呈常態分佈的假設:在常態分佈下,Z = 1 對應第 84 百分位;但若資料偏斜或呈雙峰,相同的 Z 分數可能對應截然不同的排名百分位。
當分佈型態未知或非常態時(如所得、有天花板效應的測驗分數、醫學參考值),百分位數較為適用;當常態假設成立且需要跨量尺比較時,Z 分數則更為合適。