분산·표준편차 계산기
숫자 목록을 쉼표로 입력하면 분산과 표준편차를 계산합니다. 표본(n−1)과 모집단(n) 공식을 전환할 수 있습니다.
입력
결과
분산과 표준편차의 정의
**분산(variance)**은 데이터 값들이 평균에서 얼마나 벗어나 있는지를 측정하는 통계량으로, 각 관측값과 평균의 차이를 제곱하여 합산한 뒤 항목 수로 나눈 값입니다. **표준편차(standard deviation)**는 분산의 양의 제곱근으로, 원래 데이터와 동일한 단위를 가지므로 산포를 직관적으로 표현할 때 주로 쓰입니다.
이 계산기는 쉼표로 구분된 숫자 목록과 표본·모집단 유형 선택을 받아 다음 값을 계산합니다.
- 개수 (n) — 입력한 값의 개수
- 평균 (x̄) — 모든 값의 산술 평균
- 편차 제곱합 (SS) — Σ(xᵢ − x̄)²로 계산하는 공통 분자
- 분산 — 표본은 SS ÷ (n−1), 모집단은 SS ÷ n
- 표준편차 — 분산의 양의 제곱근
아래 단계별 풀이는 기본 예시 데이터 4, 8, 15, 16, 23, 42를 그대로 사용합니다.
핵심 공식
평균
편차 제곱합
SS는 두 분산 공식의 공통 출발점으로, 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타냅니다.
모분산과 모표준편차
표본분산과 표본 표준편차
단계별 풀이: 4, 8, 15, 16, 23, 42
1단계 — 평균 계산
2단계 — 편차 제곱 계산
| xᵢ | xᵢ − x̄ | (xᵢ − x̄)² |
|---|---|---|
| 4 | −14 | 196 |
| 8 | −10 | 100 |
| 15 | −3 | 9 |
| 16 | −2 | 4 |
| 23 | +5 | 25 |
| 42 | +24 | 576 |
| SS | 910 |
3a단계 — 표본 통계 (n = 6)
3b단계 — 모집단 통계 (n = 6)
베셀 보정과 자유도
표본에서 분산을 계산할 때, 표본 평균 x̄는 측정 대상과 같은 데이터로 구합니다. 이 때문에 표본 값들은 진짜 모평균 μ보다 x̄ 쪽으로 더 가깝게 모이는 경향이 생깁니다. n으로 나누면 실제 모집단의 분산을 체계적으로 과소 추정합니다.
19세기 천문학자 프리드리히 베셀이 밝혀낸 통찰에 따르면, n 대신 n−1을 사용하면 추정량이 **불편(不偏)**해집니다. 즉, 모든 가능한 표본에 대해 평균적으로 s²이 σ²과 같아집니다. "잃어버린" 자유도 1은 표본 평균을 추정하는 데 데이터 한 조각을 이미 소비했음을 반영합니다.
간단한 예: 모분산 σ² = 100인 모집단에서 크기 2인 표본을 수천 번 뽑는다고 합시다. SS/n의 평균은 50 근처에 머물지만, SS/(n−1)의 평균은 100에 수렴합니다. n이 작을수록 보정 효과가 두드러지고, n이 수천 이상으로 커지면 n−1 ≈ n이 되어 두 공식의 차이는 무시할 수 있습니다.
표본과 모집단의 선택 기준
| 상황 | 사용 공식 |
|---|---|
| 집단의 모든 구성원 데이터를 보유 | 모집단 (÷ n) |
| 더 큰 집단에서 일부를 추출한 데이터 | 표본 (÷ n−1) |
| n이 수천 이상으로 매우 큰 경우 | 어느 쪽이든 결과 거의 동일 |
모집단 사례: 5인 모둠 학생 전원의 수행평가 점수; 특정 프로 선수가 한 시즌에 기록한 경기당 득점 전체.
표본 사례: 전국 고3 수험생의 수능 점수 분포를 추정하기 위해 무작위로 뽑은 500명의 성적; 하루 생산량 10,000개 중 30개를 품질 검사한 불량률 데이터.
어느 쪽을 선택해야 할지 판단하기 어려운 경우, 표본 분산을 사용하는 것이 통계적으로 보수적인 선택입니다. 모집단 전체를 관측할 수 없다는 불확실성을 그대로 반영하기 때문입니다.
표준편차의 해석
표준편차(σ 또는 s)는 원래 데이터와 같은 단위를 갖기 때문에 퍼짐(산포)을 직관적으로 표현하는 가장 실용적인 척도입니다. 예를 들어 중간고사 점수의 표준편차가 8점이라면 "대부분의 점수가 평균에서 약 8점 이내에 있다"고 바로 말할 수 있습니다.
정규분포에서는 다음 경험칙이 성립합니다.
| 범위 | 포함되는 데이터 비율 |
|---|---|
| μ ± 1σ | 약 68% |
| μ ± 2σ | 약 95% |
| μ ± 3σ | 약 99.7% |
이 규칙은 비정규 데이터에서는 어림값에 불과하지만 빠른 이상치 탐색에 유용합니다. 어떤 값이 평균에서 2σ 이상 떨어져 있다면 이상치 가능성이 있으므로 주의해서 살펴볼 필요가 있습니다.
분산의 단위는 제곱
분산은 원래 데이터 단위의 제곱으로 측정됩니다. 키를 cm로 측정하면 분산의 단위는 cm²이고, 금액을 원(₩)으로 측정하면 분산의 단위는 ₩²입니다. "분산 2,500 cm²"는 직관적으로 와닿지 않습니다.
표준편차는 제곱근을 취해 원래 단위로 되돌립니다. 날씨 예보의 기온 변동, 투자 수익률 변동성, 제조 공정의 품질 관리 등 실무 보고서에서 표준편차가 주로 쓰이는 이유가 바로 여기에 있습니다. 분산은 이론적 계산에서 중간 단계로 남아 있을 때가 많습니다.
자주 묻는 질문 (FAQ)
표본 분산과 모분산 중 어느 것을 써야 합니까?
데이터가 더 큰 집단에서 추출한 일부라면 표본 분산(n−1로 나눔)을 사용합니다. 예를 들어 전교생 500명 중 30명의 키를 측정했다면 표본 분산이 적합합니다. 모분산(n으로 나눔)은 집단의 모든 구성원이 데이터에 포함된 경우에만 사용합니다. 예를 들어 농구팀 다섯 선수 전원의 득점 기록이 있을 때가 이에 해당합니다.
표본 분산을 구할 때 왜 n이 아닌 n−1로 나눕니까?
표본 평균은 측정 대상과 같은 데이터로 계산됩니다. 그 결과 표본 값들은 실제 모평균보다 표본 평균 쪽으로 더 가깝게 모이는 경향이 있어, n으로 나누면 모집단의 실제 분산을 체계적으로 과소 추정하게 됩니다. n−1로 나누는 베셀 보정은 이 편향을 상쇄해 추정량을 불편(不偏)하게 만듭니다. 줄어드는 자유도 1은 표본 평균을 같은 데이터에서 추정했기 때문에 발생합니다.
분산의 단위는 무엇입니까?
분산은 원래 데이터 단위의 제곱으로 측정됩니다. 데이터가 킬로그램(kg)이면 분산의 단위는 kg²이고, 데이터가 원(₩)이면 분산의 단위는 ₩²입니다. 제곱된 단위 때문에 분산을 직관적으로 해석하기 어렵습니다. 표준편차는 분산의 제곱근이므로 원래 단위로 되돌아가 해석이 훨씬 쉽습니다. 예를 들어 시험 점수의 표준편차가 8점이라면 "대부분의 점수가 평균에서 약 8점 이내에 있다"고 바로 말할 수 있습니다.
표준편차와 z-점수는 어떤 관계입니까?
z-점수는 어떤 값이 평균에서 표준편차 몇 배만큼 떨어져 있는지를 나타냅니다: z = (x − μ) / σ. 표준편차는 그 거리를 재는 기준 자입니다. z-점수 1은 평균보다 정확히 표준편차 하나만큼 위에 있다는 의미이고, z-점수 −2는 표준편차 두 배만큼 아래에 있다는 뜻입니다. 정규분포에서는 약 68%의 값이 평균으로부터 표준편차 1배 이내에, 약 95%가 2배 이내에 포함됩니다.