본문 바로가기

SAS106

[SAS] SAS에서 proc compare를 이용해 하나의 데이터셋에 있는 두개의 변수 비교하기 sas에서 proc compare문을 이용하여 하나의 데이터셋에 있는 두개의 변수가 같은지를 비교하는 방법을 알아보자. 두개의 데이터셋을 proc compare를 이용해 비교하는 방법 http://sasbigdata.com/7 하나의 데이터셋에 두개의 변수가 있는데 이것을 if문이 아닌 proc compare를 이용해 확인하는 방법이다. hwi라는 데이터셋에는 a와 a1이라는 변수가 있는데 중간중간 데이터값이 다른 것이 있다. 아래 사진 참조 간단하게 proc compare base=라이브러리명.데이터셋 (위의사진은 work라이브러리이므로 생략했음) allstats briefsummary를 적은뒤 var와 with 뒤에 기준이 되는 변수와 비교할 변수를 입력한후 실행하면 출력창과 같이 서로 다른 관측치들.. 2014. 1. 29.
[SAS] SAS ERROR : Utility file open failed ERROR : Utility file open failed NOTE : 오류가 발생하여 SAS 시스템은 현재 스텝의 실행을 중지합니다. WARNING : 데이터 셋 XXX 이(가) 불완전합니다. 이 스텝은 0개의 관측치와 x개의 변수가 있을 때 중단되었습니다. WARNING : 데이터셋 'XXX' 은(는) 현재 스텝의 종료(으)로 인하여 변경되지 않았습니다. SAS에서 빅데이터(BIGDATA)를 다루면서 가장 일반적으로 PROC SORT를 실행 할 시 볼 수 있는 에러가 ERROR : Utility file open failed 라는 문구이다. 프로그램 코딩에도 문제가 없으며, Sorting하려는 데이터도 문제가 없는데 에러가 떠서 혼란스러울 것이다. 유틸리티 파일을 여는데 실패했다고 하는데 무엇이 문제.. 2014. 1. 21.
[SAS] SAS 로그창의 세가지 로그 유형(WARNING, ERROR, NOTE) SAS를 실행하면서 문제가 발생 했을 시에 어디가 잘못된 것인지 몰라서 헤매는 경우가 종종있다. 이런 사람들의 대부분은 로그창을 확인하지 않고, 로그창이 무엇을 표현하는지 모르는 경우가 많다. SAS를 실행하면 대표적으로 출력 창, 로그 창, 확장편집기 창 세가지로 창이 구분이 된다. 자세한 내용은 아래주소를 통해 참조하자. http://sasbigdata.com/8 로그 창에는 프로그램에 대한 경고라던지 오류 등에 대해 SAS를 실행할 때 일어나는 여러 가지 사항들을 출력하는 역할을 한다. 그러므로 코딩 후 프로그램을 실행하고 난 뒤 항상 출력창 확인 이전에 로그창을 먼저 확인하여 제대로 실행이 되었는지를 확인하는 습관이 매우 중요하다. 로그창에는 위의 사진처럼 WARNING, ERROR, NOTE 세.. 2013. 12. 12.
[SAS] SAS에서 숫자값이 십진수로 변경될 때 입력값 그대로 출력하기 SAS를 이용하다 보면 숫자값이 큰경우 자동으로 출력결과가 십진수로 변경되는 경우가 생긴다. 한자리수까지 정확한 수치를 보고 싶은데 십진수로 변환되어 곤란한 경우가 많다. 큰 숫자값이 십진수로 자동 변환될 경우 원래 입력값 그대로 출력하는 방법을 알아보자. 보통 위의 그림처럼 숫자값이 클 경우 오른쪽 결과처럼 십진수로 변경되어 출력됨을 자주 보게 된다. 이것을 입력한 값 그대로 출력시켜 보자. 가장 간단하게 proc print에서 format문을 사용한다. 그러면 결과가 위의 그림 오른쪽 부분처럼 입력했던 값 그대로 출력됨을 볼 수가 있다. 왜 17자리를 하였는가? 어디까지 가능한지 몇번 실험을 해보았는데 포맷문의 숫자 변환은 17자리 1경까지만 정확하게 나오며, 경단위를 넘어갈시 기준이 불분명하며 잘못.. 2013. 12. 11.
[SAS] SAS를 이용해 관측치 재배열(array) 기존의 데이터가 행을 기준으로 보면 1행, 2행 모두 크기 순도 아닌 임의의 데이터이다. 이런 데이터를 행 별로 크기가 큰 순서대로 다시 변수에 넣어 재배열 하고 싶다. sas를 이용해서 행별로 크기가 큰 순서대로 재배치 시켜보자. array와 call sortn을 통해 몇줄 안되는 코딩으로 간단하게 크기순으로 재배열 할 수가 있다. 행별로 관측치 값들을 크기순으로 변수에 재배치 하는 방법 추가수정) 위의 배열구문에서 array x{*} _all_; 구문은 없어도 되는 구문입니다.코딩중 실수로 들어갔네요. 배열의 괄호는 [], {}, () 이 세가지중 어떤 것을 사용하셔도 무방합니다. 관측치가 작은 값을 순으로 재배열하고 싶으신 경우에는 array y{*} a1-a7; 로 하시면 되고, 교과서적인 인과관.. 2013. 12. 11.
[SAS] sas를 이용해 두변수의 데이터 하나의 변수로 합치는 방법 각각 두개의 변수의 데이터들을 붙여서 하나의 변수 데이터로 만드는 방법입니다. 예를 들어 변수가 k1, k2, k3가 있습니다. k1의 데이터와 k2의 데이터를 붙여서 k라는 변수로 만들어 보겠습니다. 아래의 그림을 참조하시면 되겠습니다. jin이라는 데이터셋에는 k1,k2,k3 변수 세개가 있습니다. 그리고 아래의 사진과 같이 데이터들이 있는데 변수 k1과 변수 k2를 합쳐서 k라는 변수로 만들어 보겠습니다. retain은 변수들을 원하는 순서대로 나열해주는 명령어 입니다. keep은 원하는 변수만 나타내주는 명령어 입니다. compress는 공백을 제거해 주는 함수 입니다. k라는 변수를 생성하는데 k1과 k2 변수를 compress 시키고 ||라는 것이 두개의 데이터를 붙인다는 것입니다. || 이게.. 2013. 12. 3.
[BIGDATA] 빅데이터 자격증 데이터사이언티스트 국가공인자격 빅데이터(bigdata)라는 단어가 이슈가 되면서 데이터사이언티스트라는 직업도 함께 이슈가 되었다. 데이터사이언티스트(data scientist)를 양성해야되는데 이런 트렌드에 의해 파생되어 가장 빠르게 발생할 수 있는 것은? 역시나 그에 관련된 자격증이다. 미래창조과학부와 정보화진흥원은 2014년 빅데이터 분석에 필수적인 요소들에 대한 국가공인시험을 마련해 시범적으로 실시한 후 2015년에 미비점을 보완하여 데이터사이언티스트 국가공인시험을 본격 도입할 계획이라고 발표했다. 2015년 새로 생길 빅데이터 자격증 데이터사이언티스트 국가공인자격 그렇다면? 과연 기존의 현직에 있는 실무자들의 반응은? 실무자들이 가만히 두고 보고 있었겠는가? 역시나 난리가 났다. 개발자들의 반박 자격증이 필드에서 꼭 필요한지 .. 2013. 11. 28.
[Statistics, 통계] 자료의 종류(이산형 자료, 순서형 자료, 연속형 자료) 자료는 특성에 따라서 크게 3가지로 분류 할 수 있다. 자료의 종류는 크게 이산형 자료, 순서형 자료, 연속형 자료 세가지로 분류할 수 있다, 1. 이산형 자료(명목자료, 질적자료) 자료값이 양적인 크기가 아닌 속성이나 그룹을 나타내는 자료. 예를 들어 성별(남,여), 종교(불교, 기독교, 천주교), 지역(서울, 부산, 대전) 등을 나타내는 자료들이 속하며, 주로 그룹 분류시 이용된다. - 변수가 성별(gender)이면 관측치는 (남자=1, 여자=2) - 변수가 종교(religion)이면 관측치는 (불교=1, 기독교=2, 천주교=3) 2. 순서형 자료 서열이나 순위를 나타내는 자료. 시험점수를 석차로 나타낸 자료 또는 키가 큰 순서대로 배열, 몸무게가 많은 순으로 배열등 등위로 나타낸 자료가 속함. 원자.. 2013. 11. 28.
[Statistics, 통계] 변수(variable) 변수 : 하나 이상의 자료값을 갖는 것 위의 그림처럼 빨간부분이 변수이고, 파란부분이 각 변수들에 대한 측정값인 변수값 또는 관측치라고 한다. 예를 들어 기초통계학 과목을 수강하는 100명의 학생들에 대하여 키와 몸무게를 측정한 데이터가 있다고 하면 키와 몸무게는 변수이고, 학생들에 대한 키와 몸무게의 측정값(ex: 180,78)들은 변수값(관측치)이 되는 것이다. 데이터베이스 분야에서는 변수에 대응하는 개념으로 필드(Field)라는 용어를 사용하기도 한다. www.sasbigdata.com 김진휘 2013. 11. 28.
[Statistics, 통계] 통계적 자료분석 단계 자료(data)를 가지고 통계적으로 분석을 할 때 어떠한 단계를 통하여 분석을 하게 되는지 알아 보자. 1. 자료의 수집단계 통계적 자료 분석을 시행하기 위해서는 우선적으로 분석 목적에 적합한 자료를 수집하는 것이 매우 중요하다. 2. 자료의 입력단계 분석목적에 맞게 자료를 입력하는데 대부분 통계패키지는 패키지별 고유의 자료 입력 양식을 가지고 있다. 3. 입력자료의 확인 자료의 입력 후 원하는 양식으로 입력이 되었는지 확인을 한다. 통계패키지 출력결과와 원본을 대조하여 확인하는 것이 가장 이상적이고 정확하지만 데이터의 양이 많을수록 현실적으로 불가능하기 때문에 요약통계량(빈도,평균,최소,최대등)을 이용해 대략적으로 확인해 볼 수 있다. 4. 적절한 통계적 모형 설정 분석전 산점도, 히스토그램, 탐색적 .. 2013. 11. 27.
[BIGDATA] 정부3.0과 통계의 역할 2013년 11월 29일(금) 건설회관(논현동) 2층 중회의실에서 통계청 주최, 한국통계진흥원에서 주관하는 정부 3.0과 통계의 역할에 대한 국가통계활용도 제고를 위한 컨퍼런스가 진행됩니다. 공공데이터 활용 확산 방안 및 빅데이터와 통계교육의 변화에 따른 컨퍼런스이니 관심있으신 분들은 컨퍼런스에 참가해보시기 바랍니다. 참가방법은 한국통계진흥원에 접속하셔서 사전참가등록을 하셔야 참석이 가능하십니다. sasbigdata.com 2013. 11. 26.
[SAS] SAS를 이용해 데이터셋의 변수마다 원하는 소수점자리 지정하기 SAS를 하다보면 EXCEL에 비해서 소수점자리 맞추는 것이 상대적으로 조금 까다로운 편이다. 변수들은 많은데 변수들 마다 각각 원하는 소수점 자리수를 지정할 수는 없을까? 가능하다. 변수마다 원하는 소수점 자리수를 지정하는 방법을 알아 보도록 하자. 주석을 참고하며 코딩을 보면 이해에 도움이 될 것이다.(초록색 글씨) a라는 데이터 셋이 있는데 숫자값들이 제각각이다. 이들을 변수별로 원하는 소수점 자리수를 지정하여 출력해 보는 작업이다. 위의 그림은 ace, k, j, h라는 4개의 변수가 있는데 변수 k와 j는 소수점 셋째자리까지 출력하겠다. 변수 h는 소수점 둘째자리까지 출력하겠다.라고 정의하고 실행후 출력한 화면이다. 만약 포멧에서 지정하지 않은 변수는 원래 값 그대로 출력이 된다. sasbigd.. 2013. 11. 26.