본문 바로가기
Statistics

[Statistics, 통계] 상관분석, 상관계수

by SASBIGDATA김진휘 2013. 10. 14.

통계 공부를 하면서 상관분석과 피어슨의 상관계수를 자주 듣게 된다.

상관분석이 무엇인지? 상관계수들은 어떤 것들인지에 대해 알아 보자.

 

상관분석(correlation analysis)

 

정의 : 연속형 두 변수간의 직선적(선형)관계 정도를 검정하는 통계 분석 방법

 

분석목표 : 연속형 변수간의 관련성 평가

 

연속형이라는 말이 자주 나오는데 연속형이란 무엇인가?

 

연속형

: 등간 척도 변수와 비율 척도 변수같이 셀 수 있고, 숫자의 성격을 가지고 있는 것

  측정결과가 무한하게 많은 변수 ex)키, 몸무게, 온도 등

(각종의 척도에 대한 이야기는 이 전에 작성한 글을 참고하면 되겠다.)

 

상관분석은 두 변수간의 선형관계 정도를 분석하는 것으로 

두 변수간의 공분산(Covariance)분석으로 시작한다.

 

그렇다면 공분산은 무엇인가?

 

공분산

: 동시에 2개의 변수의 개별 관측치 값들이 각 변수의 평균으로부터 어느 정도 산포되어 있는가를 나타내는 것

 

공분산을 간단하게 정리하면

 

두 변수들의 측정 값들을 표시해보고, 평균으로부터 얼마나 퍼져있는지를 비교한다는 것

(두 변수간의 관계가 어떻게 되어 있는지를 파악할 수 있음)

 

그런데 문제가 발생하게 된다. 어떠한 문제가 발생을 하는가?

 

변수의 단위가 항상 동일하지가 않다.

예를 들면 - 같은 키를 나타낼 경우 그래프를 cm? inch?

              - 측정 단위가 달라질 경우 비교가 불가능

                (숫자단위 그대로 변수들을 비교 할 수 없다는 이야기)

 

위와 같은 문제 때문에 먼저 표준화 작업을 하게 된다..

cm와 inch, mile등 처럼 단위가 다른 경우 표준화된 공분산 값으로 표준화 작업을 한후

 

표준화된 공분산 값을 비교하고 만약 선형관계를 나타내면 두 변수간 상관관계가 있다고 해석을 하는 것이다.

 

선형 관계가 왜 중요한 것인가?? 그래프로 그려보면 쉽게 이해가 간다.

 

 

 

이런식으로 양의 선형관계, 음의 선형관계, 선형관계가 없다는 것을 그래프를 통해 1차적으로 알수가 있다.

 

간단하게 한마디로 선을 그어서 서로 간의 관계를 선으로 표시할 수 있냐? 없냐? 의 차이 인 것이다.

 

그렇다면? 표준화된 공분산의 값은 어떻게 구할 수 있을까?

 

두 변수의 편차를 해당 변수의 표준편차로 나누어 표준편차 단위로 바꿔주는데

이들을 서로 곱한 값들의 평균이 기존 평균으로부터 얼마나 떨어졌는지를 표기하는 것인데

 

이 값을 피어슨 상관계수(Pearson's correlation coefficient)라 부른다.

 

피어슨 상관계수의 공식은

 

 

피어슨 상관계수를 산출하는 수식은 복잡하고 어렵다.

하지만 똑똑하게 계산해주는 통계패키지 프로그램들이 많으니 걱정할 필요는 없다.

 

피어슨 상관계수(Pearson's correlation coefficient) r의 의미

: 두 변수 사이의 직선관계의 강도를 나타냄

 

상관계수의 성질

- 상관계수의 값은 -1과 1사이의 범위에 있다.

- X와 Y사이에 상관이 없으면 상관계수 값은 0이다.

→ 연구의 성격과 자료의 특성에 따라 다르나

    대체적으로 0.3이상이면 상관관계가 존재한다고 평가

 

r값(상관계수 값) = 양수 → 양의 상관계수

-한 변수의 값이 커질수록(작아질수록) 다른 변수의 값도 커짐(작아짐)을 의미

 

r값(상관계수 값) = 음수 → 음의 상관계수

-한 변수의 값이 커질수록(작아질수록) 다른 변수의 값도 작아짐(커짐)을 의미

 

상관분석에는 비모수적인 방법들도 있다.

 

[ 비모수적 방법(스피어만(Spearman) 상관계수, 켄달(Kendall)의 타우) ]

 

Pearson 상관분석은 이변량 정규분포를 가정하며,

Pearson 상관계수는 측정형 변수 간의 상관 정도를 나타낸다.

 

데이터가 순위척도로 측정되거나 이변량 정규분포의 가정이 적절치 않을 때,

Spearman 순위(rank order) 상관계수와 Kendall의 타우등을 구하여 상관분석 수행

 

관측값을 직접 사용하지 않고 순위를 이용

 

[ 편상관계수(partial correlation coefficient) ]

제어변수(들)이 주는 선형효과를 두 변수 각각에서 제거한 뒤 남은 잔차간의 상관관계를 나타내는 계수

 

ex)제어변수가 콜레스테롤이라 할 때, 체중과 수축기 혈압간의 편상관계수

   :체중과 수축기 혈압으로부터 콜레스테롤이 주는 선형효과(linear effect)를 제거한 뒤

    남은 잔차 간의 상관계수를 말한다.

- 제 1차 편상관계수 : 제어변수가 1개

- 제 2차 편상관계수 : 제어변수가 2개

- 제 3차 편상관계수 : 제어변수가 3개

 

- 제어변수가 W일 때 X와 Y간의 제 1차 편상관계수

 

 

상관분석과 상관계수를 전체적으로 정리를 해보자.

 

[상관분석, 상관계수 정리]

 

상관계수는 공분산이 척도 크기에 의한 영향을 받지 않도록

각 변수를 그 변수의 표준편차로 나누어 표준화 시킨 변수 값을 의미

 

표준화된 공분산 값인 상관계수를 구해서 비교하는 것이 상관분석

 

피어슨의 상관계수 이외에도 서열 척도의 상관관계를 분석하는 방법으로

스피어만의 서열상관계수와 켄달의 타우 상관계수도 존재

 

제 3의 변수의 영향을 제거한 상태에서 순수한 상관관계를 분석하는 방법을 편상관분석

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

댓글