變異數與標準差計算機
輸入逗號分隔的數值,計算變異數與標準差。支援樣本(n−1,貝塞爾修正)與母體(n)兩種模式自由切換。
輸入
結果
變異數與標準差的定義
變異數(variance)是描述資料分散程度的統計量,定義為各數值與平均數之差的平方的平均值。標準差(standard deviation)是變異數的平方根,與原始資料具有相同的單位,是實務上最常用的分散度指標。依資料來源的不同,兩者分為樣本版本(分母為 n−1,採用貝塞爾修正)與母體版本(分母為 n)。
計算項目
輸入逗號分隔的數列,選擇樣本或母體模式,計算結果包含:
- 資料個數(n) — 數列中有效數值的總個數
- 平均數(x̄) — 所有數值的算術平均值
- 離差平方和(SS) — Σ(xᵢ − x̄)²,兩種變異數公式共用的分子
- 變異數 — 樣本為 SS ÷ (n−1),母體為 SS ÷ n
- 標準差 — 變異數的平方根
可沿用預設數列 4, 8, 15, 16, 23, 42 跟著下方範例一步步驗算。
核心公式
平均數
離差平方和
SS 是兩種變異數公式的共同基礎,衡量資料圍繞平均數的總分散程度。
母體變異數與母體標準差
樣本變異數與樣本標準差
計算範例:4, 8, 15, 16, 23, 42
步驟一 — 計算平均數
步驟二 — 計算各數值的離差平方
| xᵢ | xᵢ − x̄ | (xᵢ − x̄)² |
|---|---|---|
| 4 | −14 | 196 |
| 8 | −10 | 100 |
| 15 | −3 | 9 |
| 16 | −2 | 4 |
| 23 | +5 | 25 |
| 42 | +24 | 576 |
| SS | 910 |
步驟三甲 — 樣本統計量(n = 6)
步驟三乙 — 母體統計量(n = 6)
貝塞爾修正:n−1 除法的原理
用樣本資料計算變異數時,樣本平均數 x̄ 本身是從同一批資料估算出來的。這導致樣本中各數值到 x̄ 的距離,系統性地比到真實母體平均數 μ 的距離更近——直接除以 n 會低估母體的真實分散程度。
貝塞爾(Friedrich Wilhelm Bessel)的洞察:將分母從 n 改為 n−1,恰好補足這個低估量,使估計量具備不偏性(unbiasedness)——在所有可能的樣本中,s² 的期望值等於 σ²。「少一個自由度」的直覺是:已知 x̄ 和 n−1 個數值後,第 n 個數值已被完全決定,它不再貢獻新的分散資訊。
一個簡單的驗證方式:從 σ² = 100 的母體中重複抽取大量大小為 2 的樣本。所有 SS/n 的平均值會徘徊在 50 附近,而所有 SS/(n−1) 的平均值則接近 100。當 n 很大時,n 與 n−1 差距甚微,兩種公式的結果趨於相同。
樣本與母體的選擇基準
| 情境 | 使用 |
|---|---|
| 手上有完整母體的每筆資料 | 母體(÷ n) |
| 資料是從更大母體中抽取的樣本 | 樣本(÷ n−1) |
| n 非常大(數千筆以上) | 兩者皆可——結果幾乎相同 |
適用母體公式的例子: 某位學生整個學期五次段考的成績;某支隊伍所有隊員在同一場比賽的得分。
適用樣本公式的例子: 隨機抽取 50 位成年男性的身高,估計全體成年男性的分散程度;從一批 10,000 個零件中抽取 30 個進行品質量測。
拿不定主意時,選擇樣本公式。承認抽樣的不確定性,在統計上是更嚴謹的做法。
標準差的意義
標準差(σ 或 s)是最直觀的分散度指標,因為它與原始資料的單位相同。若某次段考成績的 s = 8 分,可以直接說「大多數同學的成績在平均分數上下 8 分以內」。
對於常態分布(鐘形曲線),有以下的68-95-99.7法則:
| 範圍 | 涵蓋比例 |
|---|---|
| μ ± 1σ | 約 68% 的數值 |
| μ ± 2σ | 約 95% 的數值 |
| μ ± 3σ | 約 99.7% 的數值 |
這些比例對非常態分布只是粗略參考,但仍是初步判斷的實用指引。若某數值距離平均數超過 2σ,便值得進一步確認是否為異常值。
變異數的單位是平方
一個容易忽略的細節:變異數的單位是原始資料單位的平方。身高資料以公分記錄,變異數的單位就是 cm²;收入以新台幣記錄,變異數的單位就是元²。這種平方單位難以直覺解讀——「2500 cm² 的變異數」無法直接在腦中形成畫面。
標準差取了平方根,使單位回到原始資料的量綱,因此在實務中(天氣預報的溫度波動、投資報酬的風險評估、生產線的品質管制)通常報告標準差而非變異數,後者多作為中間計算步驟使用。
常見問題(FAQ)
要用樣本變異數還是母體變異數?
若資料是從較大母體中抽取的部分樣本,請使用樣本變異數(除以 n−1)。例如:從全校 800 名學生中隨機抽取 40 名測量身高,要估計全校的分散程度,就應使用樣本變異數。若手上的資料涵蓋整個研究對象,則使用母體變異數(除以 n)——例如全班 30 位同學在同一次考試中的成績,或某支球隊五位球員在同場比賽的得分。不確定時,選擇樣本變異數是統計上較保守、較嚴謹的做法。
樣本變異數為什麼要除以 n−1 而不是 n?
樣本平均數 x̄ 是從同一批資料計算而來的,因此樣本中各數值到 x̄ 的距離,會比到真實母體平均數 μ 的距離更近一些。直接除以 n 會系統性地低估母體的分散程度。貝塞爾修正(Bessel's correction)將分母改為 n−1,使估計量恢復不偏性——即多次抽樣所得樣本變異數的平均值等於母體變異數。「少一個自由度」反映的是:一旦知道 x̄ 與其中 n−1 個數值,第 n 個數值就已被決定,它不再提供新的分散資訊。當 n 很大時,n 與 n−1 差異甚微,兩種公式結果趨於一致。
變異數的單位是什麼?
變異數的單位是原始資料單位的平方。若資料以公分(cm)記錄,則變異數單位為 cm²;若資料為新台幣(元),則變異數單位為元²。這種平方單位難以直覺解讀,這也是實務上更常報告標準差的原因——標準差取了平方根,單位回到原始資料的單位,便於直接說明。例如,若某次段考成績的標準差為 8 分,可以直接解讀為「大多數同學的成績落在平均分數上下 8 分以內」。
標準差和 Z 分數有什麼關係?
Z 分數(標準分數)衡量某個數值距離平均數有幾個標準差,公式為 z = (x − μ) / σ。標準差就是測量這段距離所用的「刻度尺」。z = 1 表示此數值比平均數高出一個標準差;z = −2 表示比平均數低兩個標準差。在常態分配(鐘形曲線)下,約 68% 的數值落在 μ ± 1σ 範圍內,約 95% 落在 μ ± 2σ 內,約 99.7% 落在 μ ± 3σ 內。若某數值的 |z| > 2,通常值得進一步檢視是否為異常值。