パーセンタイルと四分位数の計算
入力
| データの値 | 4, 8, 15, 16, 23, 42 |
|---|---|
| パーセンタイル | 75 |
結果
| 第pパーセンタイル値 | 21.25 |
|---|---|
| Q1(第1四分位数) | 9.75 |
| Q2(中央値) | 15.5 |
| Q3(第3四分位数) | 21.25 |
| IQR(四分位範囲) | 11.5 |
パーセンタイルと四分位数の計算
コンマ区切りの数値から任意のパーセンタイル・第1〜第3四分位数・四分位範囲(IQR)を計算します。線形補間(Method 7)を使用。
入力
結果
四分位数
パーセンタイル(百分位数)は、データセットを昇順に並べたときに「全体の何%がその値以下か」を示す境界値です。第75パーセンタイルは、データの75%がその値以下に位置する点を指します。四分位数(Q1・Q2・Q3)はデータを4等分する3つのパーセンタイル――第25・第50・第75パーセンタイル――であり、データの分布を把握するうえで最も広く使われる要約統計量のひとつです。
線形補間による計算方法
パーセンタイルの計算方法は複数あります。本計算機は「含む型線形補間法」(Rの Method 7、ExcelのPERCENTILE.INC関数、PythonのNumPyデフォルト設定と同じアルゴリズム)を採用しています。
計算は3つの手順で進みます。
- n個の値を昇順に並べる。
- 位置指標を計算する:position = (n − 1) × p / 100
- lo = ⌊position⌋、hi = ⌈position⌉、frac = position − lo として補間値を求める:
position が整数のとき frac = 0 となり、補間なしで sorted[position] がそのまま結果になります。p = 0 のとき最小値、p = 100 のとき最大値が得られます。
計算例
データ:4, 8, 15, 16, 23, 42(n = 6、昇順済み)
Q1(p = 25): position = (6 − 1) × 0.25 = 1.25。インデックス1の値は8、インデックス2の値は15。
Q1=8+0.25×(15−8)=8+1.75=9.75Q2・中央値(p = 50): position = 5 × 0.50 = 2.5。インデックス2の値は15、インデックス3の値は16。
Q2=15+0.5×(16−15)=15.5Q3(p = 75): position = 5 × 0.75 = 3.75。インデックス3の値は16、インデックス4の値は23。
Q3=16+0.75×(23−16)=16+5.25=21.25四分位範囲(IQR):
IQR=Q3−Q1=21.25−9.75=11.5このデータの中央50%は11.5の幅に収まっています。
第10パーセンタイルを追加で求める場合: position = 5 × 0.10 = 0.5。インデックス0の値は4、インデックス1の値は8。P₁₀ = 4 + 0.5 × (8 − 4) = 6.0。
箱ひげ図との対応
Q1・Q2・Q3・最小値・最大値の5つをまとめた五数要約は、箱ひげ図の基礎となります。箱ひげ図では箱がQ1からQ3に延び、箱の中の線がQ2(中央値)を示し、ひげは「箱の端から1.5 × IQR以内の最も極端な値」まで伸びます。
ひげの外側にある値は外れ値として点で表示されます。上記のデータでは、上側フェンスはQ3 + 1.5 × IQR = 21.25 + 17.25 = 38.5 です。値42はこれを超えるため、軽度の外れ値として扱われます。
IQR――外れ値に強い散布度
IQRは「外れ値に強い(頑健な)散布度」として統計学で広く利用されます。標準偏差はすべての値を使うため、数個の極端な値があるだけで大きく変わります。IQRはデータを昇順に並べた中央部分のみを参照するため、極端な値の影響を受けません。
所得・住宅価格・病院の待ち時間のように、少数の高い値が分布を右に引き伸ばす「右歪み分布」では、標準偏差より IQR のほうが典型的なばらつきを適切に表します。
外れ値の判定基準としては次の2段階が一般的です。
- 軽度の外れ値:Q1 − 1.5 × IQR より小さい、またはQ3 + 1.5 × IQR より大きい値
- 極端な外れ値:Q1 − 3 × IQR より小さい、またはQ3 + 3 × IQR より大きい値
複数のパーセンタイル計算方法について
Rのプログラミング言語には9種類のパーセンタイル計算方法が実装されており、分野によって慣例が異なります。主な違いは分数順位の扱い方にあります。
| 方法 | アルゴリズム | 採用例 |
|---|---|---|
| Method 7(本計算機) | position = (n − 1) × p/100 | Rデフォルト・Excel PERCENTILE.INC・NumPyデフォルト |
| Method 6 | position = n × p/100 | Excel PERCENTILE.EXC・SPSSデフォルト |
| Method 1〜3 | 最近傍順位法(補間なし) | 一部の教科書 |
Method 6では最小値・最大値がパーセンタイルとして到達できないため、有効範囲が 1/(n+1) から n/(n+1) に限定されます。Method 1〜3は補間を行わず実測値をそのまま返します。
数百個以上のデータでは各方法の結果はほぼ一致しますが、小標本では差が顕著になります。異なるソフトウェアの結果を比較する際は、それぞれが採用している方法を確認することが重要です。
パーセンタイルとZスコアの使い分け
パーセンタイルは観測データの中での相対的な位置を示す経験的な指標です。特定の分布形状を仮定せず、「データの何%がその値以下か」という純粋な順位情報に基づいています。
Zスコアは「平均から何標準偏差離れているか」を表し、データが正規分布に従う場合にのみ直感的な解釈が成立します。完全な正規分布ではZスコア1.28が第90パーセンタイルに相当しますが、偏った分布や多峰性の分布では同じZスコアでも経験的なパーセンタイルは大きく異なります。
偏差値(平均50・標準偏差10に変換した値)は日本の入試や模試で広く使われる標準得点の一種ですが、これも正規分布の仮定を前提としています。所得統計や医療参照基準値など分布形状が不明または非正規の場面では、パーセンタイルを使う方が適切です。
標本サイズと精度
線形補間法の計算には最低2個のデータが必要です。2個の場合は1つの区間を補間することになり、最小値から最大値までのすべての値がパーセンタイルとして計算可能になります。
実用上は標本サイズが大きいほど推定精度が上がります。標本パーセンタイルの不確かさは標本サイズに反比例します。たとえば真の母集団第90パーセンタイルの95%信頼区間は、n = 20 の場合に比べて n = 200 では大幅に狭くなります。
よくある質問 (FAQ)
どのパーセンタイル計算方法を使用していますか?
線形補間による「含む型」の方法(Rの Method 7、ExcelのPERCENTILE.INC関数・PERCENTILE関数と同等)を使用しています。第pパーセンタイルの順位位置を (n − 1) × p/100 として求め、両隣の値を線形補間します。
例として6個のデータ [4, 8, 15, 16, 23, 42] で p = 25 の場合、位置は 5 × 0.25 = 1.25 です。インデックス1の値(8)とインデックス2の値(15)を補間すると、Q1 = 8 + 0.25 × (15 − 8) = 9.75 となります。
Rは9種類の方法をサポートしており、PythonのNumPyもデフォルトでMethod 7を採用しています。ソフトウェア間でパーセンタイルの計算結果を比較する際は、それぞれが採用している方法を確認することが重要です。
四分位範囲(IQR)はどのような場面で使いますか?
四分位範囲(IQR)はQ3からQ1を引いた値で、データ中央50%のばらつきを表します。主に2つの用途があります。
①外れ値の判定:Q1 − 1.5 × IQR より小さい値、またはQ3 + 1.5 × IQR より大きい値を「軽度の外れ値」とみなします。さらにQ1 − 3 × IQR・Q3 + 3 × IQR の境界を超える値は「極端な外れ値」です。この基準はRやPythonのmatplotlib、Excelの箱ひげ図でも標準的に使われています。
②頑健な散布度:IQRは端の値(外れ値)の影響を受けません。標準偏差は外れ値の存在で大きく変わりますが、IQRはデータの中央部のみを参照するため、所得・住宅価格・待ち時間のような偏った分布にも適した指標です。
四分位数はデータをどのように分割しますか?
四分位数はデータを昇順に並べたときに4等分する3つの境界値です。Q1(第25パーセンタイル)は下位25%と上位75%を分けます。Q2(第50パーセンタイル、中央値)はデータを上下に2等分します。Q3(第75パーセンタイル)は下位75%と上位25%を分けます。
データ数がちょうど4の倍数の場合、3つの四分位数は連続する値の間に位置します。それ以外のデータ数では線形補間により小数値が求まります。IQR(Q3 − Q1)はデータ中央の2つの四分位(全体の50%)をカバーし、探索的データ分析における代表的なばらつきの1指標となっています。
パーセンタイルとZスコアの違いは何ですか?
パーセンタイルはデータセット内の順位に基づく指標です。特定の分布形状を仮定せず、「観測値の何%がある値以下か」という位置関係を示します。第75パーセンタイルは、データの75%がその値以下に位置する境界値です。
Zスコアは、ある値が平均から何標準偏差離れているかを表す指標で、データが正規分布に従うことを暗黙的に前提としています。正規分布ではZスコア1.0は第84パーセンタイルに相当しますが、偏った分布や多峰性の分布ではZスコアが同じでも経験的なパーセンタイルは大きく異なります。
パーセンタイルは分布形状が不明または正規分布に従わないデータ(所得・試験点数・医療参照基準値など)に適しています。Zスコアは正規性の仮定が成り立ち、異なる測定スケール間での比較が必要な場面に適しています。