신뢰구간(信賴區間)이란 표본 데이터를 바탕으로 모집단의 미지 모수(주로 평균)가 존재할 가능성이 높은 범위를 추정한 것입니다.
추정 원리
표본에서 계산한 표본평균 는 매번 달라지는 확률변수입니다. 중심극한정리에 따르면, 표본크기 이 충분히 크면 표본평균의 분포는 평균 , 표준편차 인 정규분포에 근사합니다. 이 을 표준오차(SE)라 부르며, 표본평균이 모평균으로부터 얼마나 흩어져 있는지를 나타냅니다. 표준오차에 임계 Z값 를 곱하면 오차한계(ME)가 되고, 표본평균을 중심으로 ±ME 범위가 신뢰구간이 됩니다.
공식
표본평균 , 표준편차 , 표본크기 , 임계 Z값 를 사용합니다.
표준오차:
SE=nσ
오차한계:
ME=z∗×SE=z∗×nσ
신뢰구간:
CI=xˉ±ME=[xˉ−z∗nσ,xˉ+z∗nσ]
임계 Z값 (표준정규분포):
신뢰수준
90%
1.6449
95%
1.9600
99%
2.5758
신뢰구간의 올바른 해석
가장 흔한 오해는 "진짜 평균이 이 구간에 포함될 확률이 95%"라는 해석입니다. 이는 틀린 설명입니다. 모평균 는 고정된 (미지의) 상수이며 확률변수가 아닙니다. 확률변수는 구간 그 자체입니다.
올바른 해석은 다음과 같습니다. 같은 방법으로 표본 추출을 반복하여 매번 95% 신뢰구간을 구하면, 그 구간들 중 약 95%가 진짜 모평균을 포함합니다. 이번에 구한 구간이 를 포함하는지 여부는 0 아니면 1, 알 수 없을 뿐입니다.
실용적으로는 "이 구간은 평균 20번 중 1번꼴로 빗나가지만 나머지는 참값을 포함한다"고 이해하면 충분합니다.
Z분포와 t분포의 구분
이 계산기는 Z분포 (표준정규분포)를 사용합니다. 다음 조건에서 적절합니다.
모표준편차 가 알려진 경우
표본크기가 충분히 큰 경우(). 중심극한정리에 의해 표본분포가 정규분포에 근사합니다
가 미지이고 $n < 30$인 경우에는 자유도 $n - 1$의 t분포를 사용하십시오. t분포는 꼬리가 두꺼워 더 넓은(보수적인) 구간을 제공합니다. 이면 Z와 t의 차이는 무시할 수 있습니다.
표본크기와 구간 폭의 관계
오차한계는 이 커질수록 작아집니다. 오차한계를 절반으로 줄이려면 표본크기를 4배 늘려야 합니다. 이는 설문조사 설계에서 핵심적인 제약입니다.
표본크기
ME (95%, σ = 10)
n = 25
±3.92
n = 100
±1.96
n = 400
±0.98
n = 1600
±0.49
예제: 시험 점수 분석
교사가 반에서 35개의 시험지를 무작위로 선택하였습니다. 표본평균은 47.3점, 표준편차는 11.8입니다.
표준오차:
95% 신뢰구간:
CI=[47.3−3.91,47.3+3.91]=[43.4,51.2]
해석: 35개의 표본을 기반으로, 반 전체의 평균 점수는 95% 신뢰수준에서 43.4점에서 51.2점 사이에 있다고 추정합니다.
99% 신뢰수준의 경우: 구간이 넓어집니다. , 구간은 $[42.2,\ 52.4]$가 됩니다. 신뢰수준을 높일수록 구간은 넓어집니다.
자주 묻는 질문 (FAQ)
95% 신뢰구간은 무슨 뜻인가요?
95% 신뢰구간은 "참 모평균이 이 범위에 있을 확률이 95%"라는 의미가 아닙니다. 모평균은 고정된 값이므로 특정 구간에 포함되는지 여부는 확률의 문제가 아닙니다. 올바른 해석은 이렇습니다. 동일한 방법으로 표본을 반복해서 추출하고 매번 신뢰구간을 구했을 때, 그 중 약 95%의 구간이 참 모평균을 포함한다는 것입니다.
오차한계는 어떻게 계산하나요?
오차한계 = z* × (σ ÷ √n)으로 구합니다. z*는 신뢰수준에 대응하는 임계 Z값(90% → 1.645, 95% → 1.960, 99% → 2.576), σ는 표준편차, n은 표본크기입니다. 예를 들어 σ = 11.8, n = 35, 95% 신뢰수준이면 SE = 11.8 ÷ √35 ≈ 1.994, 오차한계 = 1.960 × 1.994 ≈ 3.91이 됩니다.
신뢰구간과 예측구간은 어떻게 다른가요?
신뢰구간은 모평균이 어디에 있는지를 추정하는 구간이고, 예측구간은 새로운 개별 관측값이 떨어질 범위를 추정하는 구간입니다. 예측구간은 평균의 불확실성뿐 아니라 개별 관측값의 변동성까지 반영하므로 신뢰구간보다 항상 넓습니다. 정규분포를 가정할 때 95% 예측구간은 대략 x̄ ± 2σ입니다.
t분포는 언제 써야 하나요?
t분포(Z값 대신 t값)를 사용해야 하는 경우는 (1) 모표준편차 σ를 모르고 표본에서 추정할 때, 또는 (2) 표본크기가 작고(n < 30) 모집단의 정규성이 보장되지 않을 때입니다. 표본이 충분히 크면(n ≥ 30) t분포가 정규분포에 수렴하므로 Z값으로도 좋은 근사를 얻을 수 있습니다. 이 계산기는 σ를 알거나 n ≥ 30일 때 적합한 Z분포를 사용합니다.