sas에서 빅데이터(bigdata)의 이상치 제거를 할 경우 사분위수 q1, q3와 함께 자주 사용되는
기하평균(geometric mean)을 구하는 방법에 대해서 알아보자.
기하평균의 공식과 상세설명 참조
1. 데이터셋 a는 2, 5, 7, 8 네개의 양수로 구성되어 있다.
2. 먼저 log_k라는 변수에 k값에 로그(log)를 씌워 치환한다.
(이때 계산되어지는 값은 밑이 10인 상용로그(log)값이 아닌 밑이 e인 자연로그 ln값이다. ln=log e)
3. 로그로 치환된 log_k값들의 평균을 구한다. proc means를 이용
4. 마지막으로 log_mean(로그로 치환된 값들의 평균)에 지수 exp(exponential의 약자 자연대수 e)를 취한다.
5. geo_mean = 기하평균 값
공학용 계산기를 사용해서 2, 5, 7, 8의 기하평균을 구해보았다.
sas결과와 동일한 기하평균(geometric mean)의 값이 출력되었음을 확일 할 수가 있다.
www.sasbigdata.com 김진휘
'SAS' 카테고리의 다른 글
[SAS] SAS PROC EXPORT를 이용하여 SAS파일을 텍스트파일로 내보내기 (1) | 2014.02.28 |
---|---|
[SAS] sas에서 기하평균과 신뢰구간 간단하게 구하는 방법 (1) | 2014.02.27 |
[SAS] sas에서 numeric 숫자형 결측치(.)를 0으로 한번에 다 바꾸는 방법 (0) | 2014.02.24 |
[SAS] sas retain문장을 이용해 원하는 변수부터 나열하는 방법 (0) | 2014.02.21 |
[SAS] sas proc means를 이용해 그룹별 사분위수(q1, q3) 구하기. 이상치제거 응용가능 (0) | 2014.02.21 |
댓글