본문 바로가기

BigData74

[SAS] SAS에서 IF문을 이용해 데이터를 비교하기 SAS에서 데이터들을 비교해 볼때 보통 proc compare를 많이 사용한다. SAS 두개의 데이터셋을 proc compare를 이용해 비교하는 방법 > http://sasbigdata.com/7 SAS 하나의 데이터셋에서 두개의 변수를 proc compare를 이용해 비교하는 방법 > http://sasbigdata.com/48 이번에는 하나의 데이터셋에서 IF문을 이용해 두개의 변수들을 비교해보고 변수비교시 서로 다른 관측치를 가지는 데이터는 따라 뽑아내서 새로운 데이터셋으로 만드는 작업을 해보자. hwi라는 데이터셋에는 a와 a1 두가지 변수, 각각 10개의 관측치로 구성되어있다. 변수 a와 a1을 IF문을 통해 비교하여 다른 값을 가지는 것들만 따로 출력해본다. 코딩과정을 간단하게 설명하자면(사.. 2014. 1. 29.
[SAS] SAS에서 proc compare를 이용해 하나의 데이터셋에 있는 두개의 변수 비교하기 sas에서 proc compare문을 이용하여 하나의 데이터셋에 있는 두개의 변수가 같은지를 비교하는 방법을 알아보자. 두개의 데이터셋을 proc compare를 이용해 비교하는 방법 http://sasbigdata.com/7 하나의 데이터셋에 두개의 변수가 있는데 이것을 if문이 아닌 proc compare를 이용해 확인하는 방법이다. hwi라는 데이터셋에는 a와 a1이라는 변수가 있는데 중간중간 데이터값이 다른 것이 있다. 아래 사진 참조 간단하게 proc compare base=라이브러리명.데이터셋 (위의사진은 work라이브러리이므로 생략했음) allstats briefsummary를 적은뒤 var와 with 뒤에 기준이 되는 변수와 비교할 변수를 입력한후 실행하면 출력창과 같이 서로 다른 관측치들.. 2014. 1. 29.
[R프로그램] Rstudio 알스튜디오 설치하는 방법 알아보기 R을 실행하면 너무 단순한 하나의 창으로 뭔가 허전한 감이 있을것이다. 그래프 출력창이라던지 R편집기등 창이 원할시 새로 뜨긴 하지만 뭔가 보기 불편한 감이 생길 수가 있다. 그래서 R에서 프로그래밍하고, 그래프등도 한눈에 보기 편하게 구성되어 있는것이 R studio이다. 왼쪽이 기존의 R창이고 오른쪽이 R studio창이다. 어떤 것이 더 편한지는 개인마다 다르지만 R studio는 여러개의 창으로 한눈에 보기 편하게 만들어놔서 보기 편하려고 했으나, 일부의 사람은 창들이 많아 복잡하다고 기존의 R을 선호하는 사람도 있다. 둘다 기능은 같으니 편한 것을 사용하면 된다. 간단히 설명하자면 R이 있는데 편집기나 실행창, 그래프창을 그냥 한눈에 보기 편하게 하고자 한 것이 R studio라고 생각하면 된다.. 2014. 1. 27.
[SAS] SAS ERROR : Utility file open failed ERROR : Utility file open failed NOTE : 오류가 발생하여 SAS 시스템은 현재 스텝의 실행을 중지합니다. WARNING : 데이터 셋 XXX 이(가) 불완전합니다. 이 스텝은 0개의 관측치와 x개의 변수가 있을 때 중단되었습니다. WARNING : 데이터셋 'XXX' 은(는) 현재 스텝의 종료(으)로 인하여 변경되지 않았습니다. SAS에서 빅데이터(BIGDATA)를 다루면서 가장 일반적으로 PROC SORT를 실행 할 시 볼 수 있는 에러가 ERROR : Utility file open failed 라는 문구이다. 프로그램 코딩에도 문제가 없으며, Sorting하려는 데이터도 문제가 없는데 에러가 떠서 혼란스러울 것이다. 유틸리티 파일을 여는데 실패했다고 하는데 무엇이 문제.. 2014. 1. 21.
[SAS] SAS수식 산술연산자 SAS에서도 덧셈, 뺄셈, 곱셈, 제곱, 나누기 등등 일반적인 연산이 가능하다. SAS 수식은 data단계에서 사용되며, SAS 시스템에서 정의된 연산자를 이용하여 SAS수식을 만들수가 있다. 연산의 우선순위는 수학연산 순위나 일반적인 컴퓨터 언어의 순위와 동일하다. 만약 결측치가 있는 값에 산술연산자를 사용할 시 결과는 결측치가 출력된다. 2014. 1. 20.
[SAS] SAS 로그창의 세가지 로그 유형(WARNING, ERROR, NOTE) SAS를 실행하면서 문제가 발생 했을 시에 어디가 잘못된 것인지 몰라서 헤매는 경우가 종종있다. 이런 사람들의 대부분은 로그창을 확인하지 않고, 로그창이 무엇을 표현하는지 모르는 경우가 많다. SAS를 실행하면 대표적으로 출력 창, 로그 창, 확장편집기 창 세가지로 창이 구분이 된다. 자세한 내용은 아래주소를 통해 참조하자. http://sasbigdata.com/8 로그 창에는 프로그램에 대한 경고라던지 오류 등에 대해 SAS를 실행할 때 일어나는 여러 가지 사항들을 출력하는 역할을 한다. 그러므로 코딩 후 프로그램을 실행하고 난 뒤 항상 출력창 확인 이전에 로그창을 먼저 확인하여 제대로 실행이 되었는지를 확인하는 습관이 매우 중요하다. 로그창에는 위의 사진처럼 WARNING, ERROR, NOTE 세.. 2013. 12. 12.
[SAS] SAS에서 숫자값이 십진수로 변경될 때 입력값 그대로 출력하기 SAS를 이용하다 보면 숫자값이 큰경우 자동으로 출력결과가 십진수로 변경되는 경우가 생긴다. 한자리수까지 정확한 수치를 보고 싶은데 십진수로 변환되어 곤란한 경우가 많다. 큰 숫자값이 십진수로 자동 변환될 경우 원래 입력값 그대로 출력하는 방법을 알아보자. 보통 위의 그림처럼 숫자값이 클 경우 오른쪽 결과처럼 십진수로 변경되어 출력됨을 자주 보게 된다. 이것을 입력한 값 그대로 출력시켜 보자. 가장 간단하게 proc print에서 format문을 사용한다. 그러면 결과가 위의 그림 오른쪽 부분처럼 입력했던 값 그대로 출력됨을 볼 수가 있다. 왜 17자리를 하였는가? 어디까지 가능한지 몇번 실험을 해보았는데 포맷문의 숫자 변환은 17자리 1경까지만 정확하게 나오며, 경단위를 넘어갈시 기준이 불분명하며 잘못.. 2013. 12. 11.
[SAS] SAS를 이용해 관측치 재배열(array) 기존의 데이터가 행을 기준으로 보면 1행, 2행 모두 크기 순도 아닌 임의의 데이터이다. 이런 데이터를 행 별로 크기가 큰 순서대로 다시 변수에 넣어 재배열 하고 싶다. sas를 이용해서 행별로 크기가 큰 순서대로 재배치 시켜보자. array와 call sortn을 통해 몇줄 안되는 코딩으로 간단하게 크기순으로 재배열 할 수가 있다. 행별로 관측치 값들을 크기순으로 변수에 재배치 하는 방법 추가수정) 위의 배열구문에서 array x{*} _all_; 구문은 없어도 되는 구문입니다.코딩중 실수로 들어갔네요. 배열의 괄호는 [], {}, () 이 세가지중 어떤 것을 사용하셔도 무방합니다. 관측치가 작은 값을 순으로 재배열하고 싶으신 경우에는 array y{*} a1-a7; 로 하시면 되고, 교과서적인 인과관.. 2013. 12. 11.
[BIGDATA] 빅데이터의 시각화(bigdata visualization) 빅데이터(bigdata)의 시각화 빅데이터의 시각화(bigdata visualization)가 무슨말인가? 간단하게 설명하면 빅데이터를 분석하면 고객이나 상대가 원하는 분석결과를 추출할 것이다. 이 분석결과를 누가 봐도 한눈에 쉽게 이해할 수 있게 도표나 그림 같은 시각적 수단을 통하여 정보를 효과적으로 전달하는 것을 말하는 것이다. 각종 통계 컨퍼런스에서도 빅데이터의 시각화가 자주 거론 되고 있다. 충북대학교 정보통계학과/비즈니스데이터융합학과 나종화 교수님의 말씀 : 하드웨어는 사면 된다. 하지만 분석결과를 시각화 하는 것은 각종 지식과 경험이 필요하며, 부가적인 가치가 높기 때문에 살 수가 없다. 그렇기 때문에 빅데이터에서의 시각화는 매우 중요하다. 시각화의 대표적인 예를 아래 그림을 통해 알아보자... 2013. 12. 6.
[SAS] sas를 이용해 두변수의 데이터 하나의 변수로 합치는 방법 각각 두개의 변수의 데이터들을 붙여서 하나의 변수 데이터로 만드는 방법입니다. 예를 들어 변수가 k1, k2, k3가 있습니다. k1의 데이터와 k2의 데이터를 붙여서 k라는 변수로 만들어 보겠습니다. 아래의 그림을 참조하시면 되겠습니다. jin이라는 데이터셋에는 k1,k2,k3 변수 세개가 있습니다. 그리고 아래의 사진과 같이 데이터들이 있는데 변수 k1과 변수 k2를 합쳐서 k라는 변수로 만들어 보겠습니다. retain은 변수들을 원하는 순서대로 나열해주는 명령어 입니다. keep은 원하는 변수만 나타내주는 명령어 입니다. compress는 공백을 제거해 주는 함수 입니다. k라는 변수를 생성하는데 k1과 k2 변수를 compress 시키고 ||라는 것이 두개의 데이터를 붙인다는 것입니다. || 이게.. 2013. 12. 3.
[BIGDATA] 정부 3.0과 통계의 역할 컨퍼런스 후기. 통계청.한국통계진흥원 2013년 11월 29일 논현동에 위치한 건설회관에서 정부 3.0과 통계의 역할이라는 주제로 컨퍼런스가 있어 참석하였다. 역시나 참석자 대부분은 빅데이터와 통계쪽에 직업을 가지고 있거나 관심있는 사람들 위주였다. 입구에 있길래 사진 한방 찍음. 목차는 아래와 같이 보기 편하게 PPT로 따로 만들었다. 개인적으로는 세션2 빅데이터 부분이 가장 관심이 높아 참석하였다. 전체적으로 발표내용은 공공데이터, 빅데이터, 통계, 교육 이렇게 4가지 단어로 표현 할 수 있겠다. 여기서도 volume(대규모), velocity(실시간 생성), variety(숫자, 문자, 영상) 3V로 빅데이터를 소개 하였고, 빅데이터 시각화 부분에서는 3V에 추가적으로 기업에서는 이윤을 추구하기 때문에 Value(가치)의 중요성을 말하.. 2013. 12. 3.
[BIGDATA] 빅데이터 자격증 데이터사이언티스트 국가공인자격 빅데이터(bigdata)라는 단어가 이슈가 되면서 데이터사이언티스트라는 직업도 함께 이슈가 되었다. 데이터사이언티스트(data scientist)를 양성해야되는데 이런 트렌드에 의해 파생되어 가장 빠르게 발생할 수 있는 것은? 역시나 그에 관련된 자격증이다. 미래창조과학부와 정보화진흥원은 2014년 빅데이터 분석에 필수적인 요소들에 대한 국가공인시험을 마련해 시범적으로 실시한 후 2015년에 미비점을 보완하여 데이터사이언티스트 국가공인시험을 본격 도입할 계획이라고 발표했다. 2015년 새로 생길 빅데이터 자격증 데이터사이언티스트 국가공인자격 그렇다면? 과연 기존의 현직에 있는 실무자들의 반응은? 실무자들이 가만히 두고 보고 있었겠는가? 역시나 난리가 났다. 개발자들의 반박 자격증이 필드에서 꼭 필요한지 .. 2013. 11. 28.