平均・中央値・最頻値の計算
コンマ区切りで数値を入力すると、平均値・中央値・最頻値・範囲を計算できます。代表値の求め方を基礎から確認したいときにも便利です。
入力
結果
代表値とは
代表値とは、データ全体の特徴を1つの数値で要約する統計量です。最もよく使われるのは、データの中心的な傾向を示す平均値・中央値・最頻値の3つで、これに散らばりの大きさを示す範囲を加えた4つが、データを最初に把握するための基本的な指標となります。それぞれ計算方法も表す意味も異なるため、データの性質に応じて使い分けます。
4つの指標の意味と求め方
平均値(算術平均)
全データの合計を個数で割った値です。
例:4, 8, 15, 16, 23, 42 の場合
平均値はすべての値を利用するため、外れ値(異常に大きい・小さい値)がある場合は大きく引き上げ(または引き下げ)られます。データが左右対称に分布しているときは最も使いやすい指標です。
中央値
データを昇順に並べたときの「中央」の値です。
- 個数が奇数の場合:ちょうど中央にある値
- 個数が偶数の場合:中央2つの値の平均
4, 8, 15, 16, 23, 42(n = 6、偶数)の場合:
中央値は大きさではなく「位置」に基づく指標なので、外れ値の影響を受けにくい特性があります。賃金統計でも「平均賃金」より「中央値賃金」のほうが一般的な働き手の実態を正確に表すと言われます。国税庁の民間給与実態統計調査では給与の中央値が平均値を下回るケースが多く、少数の高額所得者が平均を押し上げていることがわかります。
最頻値
データの中で最も多く出現する値です。出現回数の多さで決まります。
- 最頻値なし(no mode):すべての値が1回ずつの場合
- 一峰性(ユニモーダル):1つの値が他より多い
- 二峰性(バイモーダル):2つの値が同数で最多
- 多峰性(マルチモーダル):3つ以上が同数で最多
例:2, 3, 3, 5, 7, 7 → 3と7がどちらも2回 → 最頻値は 3, 7
最頻値は「最も典型的な値」を直感的に示します。学校のテスト点数分布でどの得点帯に生徒が集中しているか、商品のサイズ別販売数でどのサイズが最も売れているかを調べる場合などに活用されます。
範囲
データの散らばりを示す最もシンプルな指標です。
4, 8, 15, 16, 23, 42 の場合:範囲 = 42 − 4 = 38
範囲は外れ値に敏感で、1つの極端な値があるだけで大きくなります。散らばりをより正確に評価する場合は、標準偏差が用いられます(記述統計量計算ツール で計算できます)。
計算例:小テストの点数
7人の点数:55, 62, 70, 70, 78, 84, 95
| 指標 | 計算 | 結果 |
|---|---|---|
| データ数 | 7個 | 7 |
| 平均値 | (55+62+70+70+78+84+95) ÷ 7 = 514 ÷ 7 | 73.43点 |
| 中央値 | 昇順に並べた7個のうち4番目 | 70点 |
| 最頻値 | 70が2回(他は1回) | 70点 |
| 範囲 | 95 − 55 | 40点 |
解釈:平均値(73.43点)と中央値(70点)が近く、分布はほぼ左右対称です。最頻値も70点で、クラスで最も多い得点帯と一致しています。範囲40点は得点のばらつきが中程度であることを示しています。
公式が成り立つ理由
平均値は「残差の二乗和(Σ(xᵢ − c)²)を最小にする値」です。この性質が最小二乗法や回帰分析の基礎となっています。
中央値は「残差の絶対値の和(Σ|xᵢ − c|)を最小にする値」です。二乗でなく絶対値を使うため、外れ値の影響を受けにくい頑健な指標になっています。
指標の使い分け
どの代表値が適切かは、データの分布と知りたい内容によって決まります。
| 状況 | 適した指標 |
|---|---|
| 外れ値がなく、左右対称なデータ | 平均値 |
| 外れ値あり、または偏りのあるデータ | 中央値 |
| 最も典型的・頻出な値を知りたい | 最頻値 |
| データの広がりを把握したい | 範囲(または標準偏差) |
年収や住宅価格のように少数の極端な値が含まれるデータでは、平均値より中央値のほうが典型的な水準を正確に表します。一方、左右対称で外れ値の少ないデータでは平均値が最も情報量の多い指標となります。最頻値はカテゴリーごとの頻度を比較する場面で役立ちます。
よくある質問 (FAQ)
平均値と中央値、どちらを使えばいい?
外れ値がなく左右対称なデータには平均値が適しています。外れ値がある場合やデータが偏っている場合(年収・住宅価格など)は中央値のほうが「典型的な値」を正しく表します。たとえば100人の集団に超高額所得者が1人いると、平均値は大きく引き上げられますが、中央値はほとんど変わりません。
最頻値が2つ以上あるときはどうなる?
2つの最頻値がある分布を「二峰性(バイモーダル)」、3つ以上を「多峰性(マルチモーダル)」と呼びます。たとえば 2, 3, 3, 5, 7, 7 というデータでは3と7がどちらも2回ずつ出現するため、最頻値は「3, 7」となります。この計算機ではすべての最頻値をコンマ区切りで表示します。
データの値がすべて異なるとき、最頻値はどうなる?
全ての値がちょうど1回ずつしか出現しない場合、他の値より多く現れる値がないため「最頻値なし」となります。この計算機では「no mode」と表示します。平均値・中央値・範囲は通常どおり計算されます。
記述統計の計算機との違いは?
本計算機は入力した数値リストから「平均値・中央値・最頻値・範囲」の4つを素早く求めることに特化しています。より詳細な記述統計(分散・標準偏差など)を求めたい場合は、記述統計の計算機をご利用ください。入力数の上限なく任意の個数のデータを扱える点もこの計算機の特徴です。