分子是各點偏差乘積之和,反映 X 與 Y 偏離各自平均值時,方向是否一致(同向乘積為正,反向為負)。分母以兩組資料的總體散布量作正規化,使 r 恆介於 −1 與 +1 之間,不受 X 或 Y 的量綱影響。
計算範例
以預設資料為例:X = [1, 2, 3, 4, 5],Y = [2, 4, 5, 4, 5]。
步驟一:計算平均值
步驟二:計算各點偏差與交叉乘積
i
xᵢ
xᵢ − x̄
yᵢ
yᵢ − ȳ
(xᵢ−x̄)(yᵢ−ȳ)
(xᵢ−x̄)²
(yᵢ−ȳ)²
1
1
−2
2
−2
4
4
4
2
2
−1
4
0
0
1
0
3
3
0
5
+1
0
0
1
4
4
+1
4
0
0
1
0
5
5
+2
5
+1
2
4
1
合計
6
10
6
步驟三:代入公式
解讀: r ≈ 0.77,屬於強正相關。Y 約有 60% 的變異可由 X 的線性關係解釋。
r 值的判讀
r 值
判讀
+1.0
完全正線性相關
+0.7 ≤ r < +1.0
強正相關
+0.3 ≤ r < +0.7
中度正相關
|r| < 0.3
弱相關或無線性關係
−0.7 < r ≤ −0.3
中度負相關
−1.0 < r ≤ −0.7
強負相關
−1.0
完全負線性相關
以上門檻僅供參考,並非通用標準。流行病學研究中 r = 0.3 可能具有實際意義;工程量測中 r < 0.99 可能代表雜訊偏高。
r 與 r² 的區別
r 和 r² 回答的是不同問題:
r 反映線性關聯的方向與強弱。−0.9 與 +0.9 的強度相同,符號告訴你關係的走向。
r²(決定係數)反映的是 X 能解釋 Y 變異的比例,範圍從 0 到 1,沒有正負號。r² = 0.64 表示 Y 有 64% 的散布程度可歸因於與 X 的線性趨勢。
只想知道「線性擬合有多緊密」時,看 r;想量化「X 對 Y 的解釋力有多強」時,用 r²。
相關不等於因果
r 值高只代表 X 與 Y 在線性方向上同步變動,不能說明「為什麼」。幾個典型例子:
冰品銷量與溺水人數在夏季同步上升(共同原因:炎熱天氣)。
兒童的鞋碼與閱讀能力呈正相關(共同原因:年齡增長)。
每戶電視機數量多的國家,平均壽命也較長(兩者皆反映經濟發展水準)。
要確立因果關係,需要:設計對照實驗、排除混淆變數,並確認原因在時間上先於結果發生。
適用條件與斯皮爾曼替代法
皮爾森 r 有幾個前提假設:
兩個變數均為連續量(等距或比例尺度)。
關係近似線性。
不存在主導整體結果的極端值。
當這些條件不成立時,建議改用斯皮爾曼等級相關係數(Spearman rank correlation):先將兩組資料轉換為排名,再對排名計算皮爾森 r。斯皮爾曼對順序資料、單調但曲線型的關係,以及含有極端值的資料集,都有更好的適應性。實務判斷原則:若散佈圖呈現一致但明顯彎曲的型態,或少數幾個點大幅左右了 r 值,選斯皮爾曼會更穩妥。
常見問題(FAQ)
r = 0.7 代表什麼意思?
r = 0.7 表示 X 與 Y 之間存在強正線性關係。當 X 增大時,Y 也傾向同步增大,且散點相當集中於一條直線附近。一般慣例是:|r| ≥ 0.7 視為強相關、0.3 ≤ |r| < 0.7 視為中度相關、|r| < 0.3 視為弱相關,但確切門檻因領域而異。社會科學中 r = 0.5 已算顯著;在工程或物理量測中,r < 0.99 可能代表雜訊過高。
相關係數高就代表有因果關係嗎?
不是。高 r 值只說明 X 與 Y 在線性方向上同步變動,並不能解釋「為什麼」。背後可能有第三個混淆變數同時影響兩者。例如:夏天冰品銷量與溺水人數都會上升,但吃冰不會導致溺水——真正的共同原因是高溫天氣。要確立因果關係,需要對照實驗、確認時間先後順序,並排除混淆因素。相關性只是關係存在的線索,不是機制的證明。
r 和 r² 有什麼不同?
r(皮爾森相關係數)同時反映線性關係的方向與強弱,範圍從 −1(完全負相關)到 +1(完全正相關)。r²(決定係數)則告訴你 Y 的變異有多少比例可由 X 的線性關係解釋。例如 r = 0.8 時,r² = 0.64,意思是 Y 的 64% 變異可歸因於與 X 的線性趨勢。r² 恆為非負值,易於以百分比解讀,但會遺失方向資訊——光看 r² 無法判斷關係是正向還是負向。
什麼時候應該用斯皮爾曼而非皮爾森?
當資料為順序尺度(例如問卷中的「非常同意/同意/普通」等級)、X 與 Y 之間的關係是單調但非線性,或資料中含有明顯極端值時,建議改用斯皮爾曼等級相關係數(Spearman rank correlation)。斯皮爾曼會先將原始數值轉換為排名,再計算皮爾森 r,因此對極端值與非線性但一致遞增(或遞減)的型態更為穩健。皮爾森 r 的最佳適用情境:兩個變數皆為連續量、近似常態分布,且關係基本上是線性的。實務上,若散佈圖顯示曲線型但一致的趨勢,或少數幾個點明顯左右了 r 的大小,改用斯皮爾曼通常更合適。