[Statistics, 통계] 회귀분석
통계에서 가장 많이 쓰이고 불리는 회귀분석에 대해 간단하게 알아보도록 하자.
회귀(regression)는 무엇인가?
사전적 의미로는 한 바퀴 돌아 제자리로 돌아오거나 돌아감으로 정의 되고 있다.
회귀의 기원은
- 영국의 유전학자 Francis Galton(1822 ~ 1911)의 유전법칙 연구 중 나온 명칭
- 부모 키와 자녀 키 간의 직선관계를 발견
(아버지의 키가 아무리 크더라도 아들의 키는 아들 세대의 평균키로 접근하는 경향 발견)
- Francis Galton은 이러한 현상을 평균으로의 회귀(regression toward mean)라고 함
그럼 회귀의 법칙을 활용한다면?
전체 평균값을 가지고 알지 못하는 누군가의 키를 예측해 볼 수 있다.
여자의 평균키가 160정도라고 한다면 친구를 통해 소개팅을 받을 시 여자의 키가 아~ 대충 160정도 되겠지 하고 예측을 할 수가 있다.
하지만... 그 소개팅녀는 160의 근처가 아니었다???
이처럼 단순히 평균으로만 예측한다면, 예측의 정확도가 너무나 떨어진다..
(몸무게같이 키에 영향을 주는 다른 요인을 활용하면 좀 더 정확하게 키를 예측)
회귀분석이란?
변수들 간의 함수 관계를 분석하는 방법 중의 하나
"독립변수가 종속변수에 미치는 영향력의 크기를 파악하여
독립변수의 특정한 값에 대응하는 종속변수 값을 예측하는 선형모형을 산출하는 방법"
예를들어보면
- 몸무게에 따라서, 키의 값은 어떻게 되는가?
- 담배판매량이 변하면, 폐암환자수는 어떻게 변하는가?
위의 예시처럼 두 변수간의 관계를 예측하고 설명하는 것이다.
회귀분석은 단순하게 두 변수 사이에 상관관계가 있다에서 끝나는 것이 아닌
어떤 관계인지까지 좀 더 자세히 보는 것이다.(관계의 크기, 유의도, 성격 등)
그렇다면 회귀분석의 종류에는 어떤 것들이 있을까?
회귀분석의 종류 - 독립변수의 수, 척도의 종료, 독립변수와 종속변수의 관계에 따라 구분
회귀분석의 종류 | ||
독립변수의 수 |
1개 |
단순 회귀분석 |
2개 이상 |
다중 회귀분석 | |
독립변수의 척도 |
등간, 비율 척도 |
일반 회귀분석 |
명목, 서열 척도 |
더미변수를 이용한 회귀분석 | |
독립변수와 종속변수의 관계 |
선형 |
선형 회귀분석 |
비선형 |
비선형 회귀분석 |
자료가 주어지고 회귀분석을 돌려보면 원하는 관계를 알아낼 수 있을까???
- 회귀분석도 회귀분석을 할 수 있는 경우가 있고, 없는 경우가 있다.
회귀분석의 전제조건
- 특정한 독립변수 값에 해당하는 종속변수 값들이 정규분포를 이룸
- 모든 정규분포의 분산은 동일
- 종속변수 값들은 통계적으로 서로 독립적
- 독립변수들이 여러 개인 경우 독립변수간 다중공선성이 존재하지 않음
(다중공선성이란? 독립변수들간에 서로 영향을 주는 것)
당연한 말들이다.간단하게 생각해보면
정규분포를 이루고, 분산이 동일하지 않으면 → 규칙성이 일관되지 않으므로 예측이 불가
종속변수나 독립변수들이 자기들끼리 영향을 미치면 → 독립변수와 종속변수의 관계로만 현상을 분석하는 것이 불가
데이터를 돌려봐야 정규분포 또는 등분산성을 알수가 있는데 사전파악이 어렵다.
그렇기 때문에 일단은 정규분포를 따르고, 등분산성이 있다는 전제 하에 사후 검증을 실시한다.