본문 바로가기

김진휘10

[SAS] 2개의 변수 조합 빈도구하기(앞뒤 변수 변경을 동일건으로 판단할 경우, 경우의 수) 변수 조합의 빈도를 구하는 경우의 질문이 많다. 항상 말하지만 통계분석은 책이나 인터넷 등 강의를 듣고 틀에 짜여진 분석 코드에 변수만 넣어서 돌리고 해석하면 문제가 되지 않는다. 문제는 그 분석용 데이터 정제과정은 누가 가르쳐주지도 않고 그 때 상황에 맞게 본인이 창의적으로 해결해야 하는 부분인 것이다. 이와 같은 작업이 능숙하게 단축되면 전체적인 통계작업이 매우 많이 단축된다. 이번 내용은 칼럼이 2개가 있는 상황에서 이 두가지 칼럼을 붙여서 조합의 빈도를 구하고 싶은데 추가 조건이 칼럼을 붙였을때 앞뒤칼럼의 순서를 바꾸어서 일치하는 건이 있으면 그것은 동일건으로 본다는 것이다. 내용 자체는 매우 단순하다. 칼럼 두개의 조합을 보는데 앞뒤 변경시 동일한게 있으면 동일건으로 보고 빈도를 구한다는 것이다.. 2017. 3. 23.
[SAS] sas proc sql과 proc sort 두 방법으로 merge할 경우 처리 속도 비교 sas를 이용하여 필요한 데이터를 구축하기 위해서 데이터 병합 작업을 많이 하게 된다. 쉽게 말해 sas로 데이터를 붙이고 짜르고 하는 작업이 빈번하게 발생한다는 말이다. 데이터 가로 병합(merge)을 흔하게 사용하는데 데이터가 작을 경우에는 어떤 병합 방법을 사용해도 처리시간이 거의 차이가 없지만, 데이터가 크면 클수록 시간이 오래 걸리기 때문에 처리시간을 단축시키는 방법을 찾게 된다. sas에서 full join merge를 한다는 기준으로 두가지 방법(proc sql문, proc sort문)을 보고 어떤 것이 처리시간이 빠른지를 알아보도록 하자. 당연히 같은 결과를 출력하는데 여러가지 방법이 있다면 빠르게 처리 할수 있는 방법을 아는 것이 실무에 많은 도움이 될 것이다. 위의 사진에서 두가지 방법.. 2014. 3. 12.
[BIGDATA] 국민건강보험공단(건보공단) 공공 빅데이터(bigdata) 활용한 공익 서비스 제공 3월이라 국민건강보험공단 채용도 있고, 건보공단이 자주 눈에 띈다. 통계직 채용은 항상 느끼는 거지만 필요하다고 난리면서 매우 적은 인원을 뽑는다. 이전 정부 3.0 공공빅데이터 컨퍼런스와 의료산업 빅데이터 포럼에 참석하였는데, 국민건강보험공단의 빅데이터 활용을 통한 공익 서비스에 대해서 한번 쉽게 알아보자. 정부 3.0과 통계의 역할에서 정부는 국가 이하 공공기관이 가지고 있는 빅데이터(bigdata)를 활용에 대해 중점을 두고 있다. 그러므로 공공기관은 각자 기관마다 보유하고 있는 빅데이터를 어떻게 활용할 것인지에 대해 정부 시책에 부응하고자 빠르게 움직이고 있다. 정부3.0과 통계의 역할 컨퍼런스 참조 http://sasbigdata.com/36 의료보건업계가 치료중심에서 예방건강관리 중심의 서비스.. 2014. 3. 6.
[SAS] sas에서 텍스트 파일 불러오기(infile문 이용, 에러 해결하기) 빅데이터(bigdata)를 다룰때 원시데이터가 엑셀(excel) 파일인 경우가 거의 없다. 이유는 엑셀 파일의 행(관측치)의 개수가 한계가 있기 때문이다. 엑셀 97-2003 통합문서인 경우 행은 총 65,536, 엑셀2007인 경우 행은 총 1,048,576 그렇기 때문에 텍스트 파일을 많이 가져오는 경우가 대부분이다. sas를 이용해서 텍스트 파일을 가져오는 방법을 알아보자. 일반적으로 간단하게 가져오는 경우가 [파일]-[데이터 가져오기] 를 통하여 또는 proc import를 이용하여 텍스트 파일을 가져오는데 정상적으로 가져와진다면 문제가 없다. 하지만 많은 경우가 불러오는 도중 다양한 에러들이 생기는 경우가 많다. 에러를 해결하는 몇몇의 경우에 대해서 알아보자. 1. [파일]-[데이터가져오기]를 .. 2014. 3. 5.
[SAS] sas merge 가로병합 끝장내기(full, left, right, inner join방법 소개) sas에서 데이터 핸들링을 하면서 데이터들을 붙이고 나누고 하는 작업들을 자주 하게 된다. 가장 많이 사용되는 것이 세로병합인 set 구문과 가로병합 merge인데 오늘은 merge 사용법에 대해서 알아보도록 하자. 사진을 보고 이해하면 아주 쉽게 이해 할 수 있을 것이다. 아래 사진에 m이라는 데이터셋과 m1이라는 데이터셋이 있는데 변수 key를 가지고 merge(가로병합)를 해보자. (아래사진참조) 1. 두 데이터를 조인시킬 변수를 proc sort를 통해 정렬한다. 예제에서는 key변수를 정렬한다.(아래사진참조) 2. full join merge 방법 (아래사진참조) 풀조인 말그대로 조건 없이 통째로 가로로 붙여버리는 거다. 3. left join merge 방법(아래사진참조) 한마디로 두개의 데이.. 2014. 3. 4.
[SAS] sas proc freq 간단한 빈도표 및 출력 방법 noprint sas에서 데이터들의 빈도를 보고 싶을 경우 proc freq를 많이 사용한다. 출력창으로 보지 않고 새로운 데이터를 생성하여 보고 싶은 경우가 있는데 간단한 구문인데도 불구하고 아무 생각없이 output out= 을 사용하여 출력이 되지 않는다고 질문하는 분들이 많다. 예제를 통해 간단하게 알아보자. 사진참고 위의 사진을 보면 kk라는 데이터 셋에 a라는 변수가 하나가 있고 데이터는 총 11개 이다. 이 kk데이터 a변수의 빈도를 구하는 방법이다. 출력창으로 출력하지 않고, 새로운 데이터셋에 결과를 기록하고 싶을 경우에 proc freq에서 noprint 옵션을 사용하여 출력창으로 출력되는 것을 방지하고, table 변수명 뒤에 슬러시 / 를 사용한 후 out=출력결과를 저장할 데이터 셋명을 입력하면 .. 2014. 3. 4.
[SAS] sas proc sql 문장에 대해서 알아보자(문장구조, 기술통계량) sas에서 proc sql 문장을 이용해서 기술통계량을 구하는 방법을 알아보고, 문장구조에 대해서도 알아보자. [문장구조] proc sql; create table 결과 데이터셋명 as select 그룹변수명, sum(변수명) as sum, count(변수명) as n, avg(변수명) as mean, max(변수명) as max, min(변수명) as min, std(변수명) as std from 입력 데이터셋명 where 입력 데이터에 대한 조건식 group by 그룹변수명 having 결과 데이터 조건식; quit; run; [예제] [예제 및 코딩 설명] month, id, cost라는 변수 세개를 가진 sp1이라는 데이터셋이 있다. create table sp2 → sp2라는 결과 데이터 셋을 .. 2014. 2. 28.
[Statistics, 통계] 기하평균(geometric mean) 예를 들어 2, 5, 7, 8 처럼 양수값들이 n개가 있을 경우에 이 값들의 곱의 n제곱근을 기하평균(geometric mean)이라 한다. sas에서 기하평균을 구하는 방법 참조 www.sasbigdata.com/80 [기하평균의 공식] 실제로 공학용 계산기를 이용하여 2, 5, 7, 8에 대해서 기하평균을 구하여 보자. 값이 2, 5, 7, 8로 n의 갯수가 4이다. 기하평균값은 약 4.86이 나왔다. [기하평균과 산술평균의 관계] 위의 공식을 보면 기하평균(geometric mean)은 산술평균(arithmetic mean)보다 크지 않음을 알 수가 있다. 위의 값으로 실제로 구해봐도 2, 5, 7, 8의 기하평균은 약 4.86 산술평균은 5.5로 기하평균은 산술평균보다 크지 않다. [기하평균은 왜.. 2014. 2. 26.
[SAS] sas에서 기하평균(geometric mean) 구하는 방법 sas에서 빅데이터(bigdata)의 이상치 제거를 할 경우 사분위수 q1, q3와 함께 자주 사용되는 기하평균(geometric mean)을 구하는 방법에 대해서 알아보자. 기하평균의 공식과 상세설명 참조 www.sasbigdata.com/81 1. 데이터셋 a는 2, 5, 7, 8 네개의 양수로 구성되어 있다. 2. 먼저 log_k라는 변수에 k값에 로그(log)를 씌워 치환한다. (이때 계산되어지는 값은 밑이 10인 상용로그(log)값이 아닌 밑이 e인 자연로그 ln값이다. ln=log e) 3. 로그로 치환된 log_k값들의 평균을 구한다. proc means를 이용 4. 마지막으로 log_mean(로그로 치환된 값들의 평균)에 지수 exp(exponential의 약자 자연대수 e)를 취한다. 5.. 2014. 2. 26.
[SAS] SAS에서 EXCEL 파일, 데이터 가져오기 오류 해결 방법 SAS에서 파일 - 데이터 가져오기 - EXCEL 자료를 불러 올때 오류가 생기는 경우가 있다. 이 경우 대부분 원인을 찾지 못하고 텍스트로 변환시키던지 다른 방법을 통해 가져온다. 클릭을 통해 쉽게 가져오는 방법이 있는데 원인을 찾아 고칠 생각은 하지 않고 다른 방법으로 가져오는데 오늘 그 원인을 해결하는 방법을 스크린샷과 함께 아주 쉽게 파헤쳐 보자. SAS9.1버젼을 기준으로 작성하였으며, 쉽게 설명하기 위해 많은 사진 첨부로 인해 스크롤 압박이 있습니다. 1. 아래 그림처럼 이런 문제가 생길 것이다. 원인 해결을 통해 이 오류를 잡아보자. 2. SAS 설치파일인 setup아이콘을 더블클릭한다. 3. 설치 언어 선택창이 뜰 것이다. 우리는 한국인이니깐 한국어를 선택합니다. 각자 원하는 언어 선택후 .. 2013. 11. 25.