피어슨 상관계수(r)는 두 연속형 변수 사이의 선형 관계를 −1에서 +1 사이의 단일 수치로 나타내는 통계량입니다. r = +1이면 두 변수가 완전한 양의 직선 관계를, r = −1이면 완전한 음의 직선 관계를, r = 0이면 선형 관계가 없음을 의미합니다. 결정계수 r²는 X 변수가 Y 변수의 분산을 설명하는 비율을 나타냅니다.
두 변수 집합을 쉼표로 구분하여 입력하면, 피어슨 r, 결정계수 r², 그리고 선형 관계의 강도 분류를 산출합니다.
계산 공식
분자는 편차 교차곱의 합입니다. X와 Y가 각자의 평균에서 같은 방향으로 벗어나면 양수, 반대 방향이면 음수가 됩니다. 분모는 각 변수의 변동 규모(편차 제곱합의 제곱근)로 스케일을 조정하므로, r은 X와 Y의 단위나 크기에 상관없이 항상 −1에서 +1 사이에 놓입니다.
계산 예시
기본값 X = [1, 2, 3, 4, 5], Y = [2, 4, 5, 4, 5]를 사용합니다.
1단계 — 평균 계산
2단계 — 편차와 교차곱 계산
i
xᵢ
xᵢ − x̄
yᵢ
yᵢ − ȳ
(xᵢ−x̄)(yᵢ−ȳ)
(xᵢ−x̄)²
(yᵢ−ȳ)²
1
1
−2
2
−2
4
4
4
2
2
−1
4
0
0
1
0
3
3
0
5
+1
0
0
1
4
4
+1
4
0
0
1
0
5
5
+2
5
+1
2
4
1
합계
6
10
6
3단계 — 공식 대입
해석: r ≈ 0.77은 강한 양의 상관관계입니다. Y의 분산 중 약 60%가 X와의 선형 관계로 설명됩니다.
r 값 해석 기준
r 값
해석
+1.0
완전한 양의 선형 관계
+0.7 ~ +0.99
강한 양의 상관
+0.3 ~ +0.69
보통 양의 상관
−0.29 ~ +0.29
약하거나 거의 없는 선형 관계
−0.3 ~ −0.69
보통 음의 상관
−0.7 ~ −0.99
강한 음의 상관
−1.0
완전한 음의 선형 관계
이 기준값은 가이드라인이지 절대 규칙이 아닙니다. 역학·보건 연구에서는 r = 0.3도 실질적으로 의미 있는 수치이며, 공학 계측에서는 r = 0.98도 오차가 크다고 볼 수 있습니다. 분야의 맥락에서 판단하는 것이 중요합니다.
r과 r²는 무엇이 다른가
r과 r²는 서로 다른 질문에 답합니다.
r은 선형 관계의 방향(양/음)과 강도를 알려줍니다. −0.9와 +0.9는 강도가 같고, 부호가 방향을 나타냅니다.
r²(결정계수)는 X가 Y의 분산을 얼마나 설명하는가의 비율을 나타냅니다. 0에서 1 사이이며 부호가 없습니다. r² = 0.64이면 Y의 산포 중 64%가 X와의 선형 추세로 설명됩니다.
"선형 적합이 얼마나 촘촘한가"만 보고 싶다면 r을, "X가 Y의 변동을 얼마나 설명하는가"를 수치로 표현하고 싶다면 r²을 사용하세요.
상관관계 ≠ 인과관계
r이 높다는 것은 X와 Y가 선형적으로 함께 움직인다는 의미일 뿐, 왜 그런지는 알 수 없습니다. 이런 사례들이 있습니다.
아이스크림 판매량과 익사 사고 건수는 여름마다 함께 늘어납니다(공통 원인: 더운 날씨).
어린이의 신발 크기와 독서 능력은 양의 상관이 있습니다(공통 원인: 나이).
TV 보급률이 높은 나라일수록 기대수명도 깁니다(둘 다 경제 수준을 반영).
인과관계를 입증하려면 대조군이 있는 실험 설계, 원인이 결과에 시간적으로 선행한다는 확인, 교란변수 배제가 필요합니다. 상관관계 분석은 가설을 세우는 출발점이지, 인과관계의 증거가 되지는 않습니다.
스피어만 상관계수를 써야 할 때
피어슨 r은 다음을 전제합니다.
두 변수 모두 연속형(등간척도 또는 비율척도)이다.
관계가 대략적으로 선형이다.
극단값(이상치)이 합계를 지배하지 않는다.
이 조건이 충족되지 않는다면 스피어만 순위 상관계수를 사용하세요. 원시 값을 순위로 변환한 뒤 피어슨 공식을 적용하는 방법으로, 순서형 데이터, 곡선형 단조 관계, 이상치가 있는 데이터에서 피어슨보다 훨씬 안정적입니다. 산점도에서 패턴이 명확하게 굽어 있거나, 한두 개의 데이터 포인트가 r 값을 크게 왜곡하고 있다면 스피어만이 더 안전한 선택입니다.
자주 묻는 질문 (FAQ)
r = 0.7이면 어떤 의미인가요?
r이 0.7이면 X와 Y 사이에 강한 양의 선형 관계가 있다는 뜻입니다. X가 증가할수록 Y도 함께 증가하는 경향이 있고, 그 관계가 직선에 꽤 가깝게 집중되어 있습니다. 일반적으로 |r| ≥ 0.7은 강한 상관관계, 0.3 ≤ |r| < 0.7은 보통, |r| < 0.3은 약한 상관관계로 분류합니다. 다만 기준값은 분야마다 다릅니다. 사회과학에서는 r = 0.5도 강하다고 보는 반면, 공학이나 물리학에서는 r < 0.99도 오차가 크다고 판단하기도 합니다.
상관관계가 높으면 인과관계가 있다고 볼 수 있나요?
아닙니다. r이 높다는 것은 X와 Y가 선형적으로 함께 움직인다는 의미일 뿐, 그 이유는 알 수 없습니다. 제3의 변수(교란변수)가 두 변수 모두에 영향을 미칠 수 있습니다. 예를 들어 아이스크림 판매량과 익사 사고 건수는 강한 상관관계를 보이지만, 원인은 둘 다 기온이 오르는 여름이라는 공통 요인입니다. 인과관계를 입증하려면 대조 실험, 원인이 결과에 선행한다는 시간적 순서 확인, 교란변수 배제가 모두 필요합니다. 상관관계는 관련성의 단서이지, 메커니즘의 증거가 아닙니다.
r과 r²는 어떻게 다른가요?
r(피어슨 상관계수)은 선형 관계의 방향과 강도를 나타내며, −1(완전한 음의 상관)에서 +1(완전한 양의 상관) 사이의 값을 가집니다. r²(결정계수)는 X가 Y의 분산을 얼마나 설명하는지의 비율을 나타냅니다. 예를 들어 r = 0.8이면 r² = 0.64로, Y의 변동 중 64%가 X와의 선형 관계로 설명됩니다. r²는 항상 0 이상이고 백분율로 해석하기 쉽지만, 부호 정보가 사라지므로 r²만으로는 관계가 양의 방향인지 음의 방향인지 알 수 없습니다.
스피어만 상관계수는 언제 사용해야 하나요?
데이터가 순서형(순위 범주)이거나, X와 Y의 관계가 단조적이지만 직선은 아닌 경우, 혹은 극단값(이상치)이 많을 때는 스피어만 순위 상관계수를 사용하세요. 스피어만은 원시 값을 순위로 변환한 뒤 상관계수를 계산하므로 이상치와 비선형 단조 관계에 강합니다. 피어슨 r은 두 변수 모두 연속형이고 대략 정규분포를 따르며 관계가 선형일 때 가장 적합합니다. 산점도에서 패턴이 곡선을 그리거나, 일부 이상치가 r 값을 끌어당기는 것 같다면 스피어만을 권장합니다.