본문 바로가기

빅데이터48

[SAS] SAS proc means sas에서 가장 많이 사용하는 구문중에 하나가 proc means이다. 자주 사용하는 구문이지만 할 때 마다 헷갈리고, 많은 기능들이 있는데 모두 활용하지 못하는 경우가 대부분이다. proc means에 대해서 자세히 알아 보자. proc means는 수치형 변수에 대해 여러 기술통계량(Descriptive statistics)을 계산해주고 출력해 준다. 전체 변수 또는 특정한 변수값에 따라 그룹으로 나누어 기술통계량 계산이 가능하다. by문장을 사용하면 그룹별로 독립적인 통계량 계산이 되며, 여기서 다시 class문장을 이용하여 세부 그룹으로 나눌 수 있다. proc means는 - 적률(moments)에 바탕을 둔 기술통계량을 계산하여 준다. - 중위수(median)를 포함한 사분위수를 구하여 준다... 2014. 2. 13.
[SAS] SAS TTEST 독립 t-검정 이표본(two samples) t-검정(two sample T-test) SAS에서 TTEST가 가능하며, 일표본(one sample), 이표본(two samples), 대응표본(paired observations)에 대한 t-검정(paired T-test)을 실시 할 수가 있다. SAS를 이용하여 이표본(two samples) t-검정(ttest)에 대해서 알아보자. 이표본 t-검정은 두 그룹의 모평균의 차가 특정한 상수와 같은지를 검정하기 위하여 각 그룹으로부터 표본을 추출하여 이들 표본평균의 차를 이용하는 검정법으로 보통 독립 t-검정이라 부르기도 한다. 따라서 두 모집단은 독립적인 관계에 있어야 한다. 7천 1백만건의 테스트 데이터를 이용하여 독립 t-검정을 해보자.(이표본 two sample 검정) test라는 데이터셋으로 성별과 비용 두가지의 변수를 가지고 있으며 .. 2014. 2. 7.
[SAS] sas proc export를 이용해 엑셀(EXCEL)파일 내보내기 SAS dataset을 여러가지 파일형식으로 내보내기를 할 수가 있는데 가장 대표적으로 많이 사용하는 것들이 텍스트 파일과 엑셀 파일이다. 그 중 SAS dataset을 Excel파일로 내보내는 방법을 알아보자. 가장 간단한 방법은 [파일]-[데이터내보내기]를 통해서 엑셀 파일로 내보내는 방법인데 만약 이 방법이 안되는 경우에 직접 확장편집기에서 코딩을 통해 내보내는 방법을 알아보도록 하겠다. [파일]-[데이터내보내기]가 간혹 에러창이 뜨면서 안되는 경우에는 아래의 주소를 통해 해결 할 수가 있다. http://sasbigdata.com/28 확장편집기에서 코딩으로 엑셀(EXCEL)파일을 SAS로 가져오는 방법. proc import 사용 http://sasbigdata.com/60 확장편집기에서 코딩으.. 2014. 2. 6.
[SAS] SAS 함수 (난수 함수) SAS의 난수 함수를 이용하여 확률변수를 생성 할 수 있다. 난수 함수 설명 NORMAL(seed) 표준 정규 분포를 따르는 확률변수의 변량을 생성 RANBIN(seed, n, p) 모수가 n, p인 이항 분포를 따르는 확률변수의 변량을 생성 RANCAU(seed) 위치모수(Location Parameter)의 값이 0, 척도모수(Scale Parameter)의 값이 1인 코쉬(Cauchy)분포 f(x)=1/(1+x^2)를 따르는 확률변수의 변량을 생성 RANEXP(seed) 모수의 값이 1인 지수 분포 f(x)=exp(-x), x >0으로부터 확률변수의 변량을 생성 RANGAM(seed, a) 형상모수(Shape Parameter)가 a인 감마 분포로부터 확률변수의 변량을 생성 RANNOR(seed) .. 2014. 2. 4.
[SAS] SAS 함수 (통계 및 확률분포 함수) SAS함수를 이용하여 통계 및 확률분포 함수값을 계산할 수 있다. 통계함수에서는 인수값이 결측치를 포함하면 그 값을 제외하고 함수값을 계산한다. 하지만 직접적으로 수식을 사용하는 경우에는 하나라도 결측치가 있으면 함수값을 결측치로 처리한다. 통계 및 확률분포 함수 설명 MEAN(argument, argument, …) 인수들의 산술평균을 계산 인수중 결측치가 있을시 그 인수는 빼고 계산 결측치를 갖더라도 함수값은 존재 SUM(argument, argument, …) 인수들의 합을 계산 POISSON(lamda, x) 모수가 lamda인 포아송 확률변수에 대해 분포함수값 F(x)를 계산 PROBBETA(x, a, b) 모수가 a, b인 베타 확률변수에 대해 분포함수값 F(x)를 계산 PROBBNML(p, .. 2014. 2. 4.
[SAS] SAS 함수 (삼각함수) SAS의 삼각함수를 이용하여 값을 계산 할 수 있다. argument의 단위는 라디안(Radian) 삼각함수 설명 SIN(argument) 사인 함수 값을 계산 COS(argument) 코사인 함수 값을 계산 TAN(argument) 탄젠트 함수 값을 계산 ARSIN(argument) ARCOS(argument) ATAN(argument) 각각의 역삼각 함수값을 계산 argument는 (-1,1)사이의 값을 가짐 SINH(argument) COSH(argument) TANH(argument) 쌍곡 삼각 함수 값을 계산 SAS 산술함수 참조 http://sasbigdata.com/52 SAS 통계 및 확률분포 함수 참조 http://sasbigdata.com/54 SAS 난수함수 참조 http://sasb.. 2014. 2. 4.
[SAS] SAS를 이용해 조건에 맞는 데이터만 가져오는 방법 데이터에서 조건에 맞는 원하는 값만 가져오고 싶은 경우가 있다. 이런경우 일반적으로 가장 많이 이용하는 것이 if문을 이용한다. 아래 사진 참조 위의 사진처럼 a.ace2라는 데이터에서 변수 order가 1인 것들만 가져와라는 것인데 보통 if를 많이 이용한다. 하지만 if만 있는 것일까? 아니다. where문을 이용해서도 가져올 수 있다. if문의 부분에 where의 명령어를 삽입하여도 같은 결과가 나온다. 위 사진 참조 그렇다면 if와 where의 차이가 무엇일까? where문장은 자료를 data단계로 불러들이기 전 조건에 일치하는 즉, 만족하는 자료만 선택해 준다. 그러므로 전체자료를 읽어 들인 후에 조건에 맞는 것을 찾는 if 문장보다 더 효율적인 것이다. 이것이 자료를 가져올때 if와 where.. 2014. 2. 4.
[BIGDATA] 빅데이터(bigdata), 공공데이터, 통계청사이트 소개 빅데이터(bigdata)라는 단어가 핫이슈가 되면서 정부3.0부터 공공기관, 기업, 금융, 마케팅 등등 모든 분야가 이 빅데이터라는 단어에 민감해지고 예민하게 반응하기 시작했다. 최근 빅데이터를 중심으로 공공데이터 개방, 공공데이터 활용, 공공데이터 포털등에 관심도가 높아지며, 막대한 자금을 투자해 빅데이터를 활용하고자 엄청난 연구들을 하고 있다. 빅데이터, 공공데이터관련 등 여러 나라의 통계청 사이트등을 소개하며, 나름 매력있는 곳들을 소개해 보겠다. 1. 서울 열린 데이터 광장 > http://data.seoul.go.kr/index.jsp 우리동네 공공데이터를 최초 개방합니다. 서울시의 모든 공공데이터를 개방합니다. 경제에 도움이 되는 서울시 공공 정보가 펑펑 쏟아집니다. 이 세가지의 글이 가장 먼.. 2014. 1. 29.
[SAS] SAS에서 IF문을 이용해 데이터를 비교하기 SAS에서 데이터들을 비교해 볼때 보통 proc compare를 많이 사용한다. SAS 두개의 데이터셋을 proc compare를 이용해 비교하는 방법 > http://sasbigdata.com/7 SAS 하나의 데이터셋에서 두개의 변수를 proc compare를 이용해 비교하는 방법 > http://sasbigdata.com/48 이번에는 하나의 데이터셋에서 IF문을 이용해 두개의 변수들을 비교해보고 변수비교시 서로 다른 관측치를 가지는 데이터는 따라 뽑아내서 새로운 데이터셋으로 만드는 작업을 해보자. hwi라는 데이터셋에는 a와 a1 두가지 변수, 각각 10개의 관측치로 구성되어있다. 변수 a와 a1을 IF문을 통해 비교하여 다른 값을 가지는 것들만 따로 출력해본다. 코딩과정을 간단하게 설명하자면(사.. 2014. 1. 29.
[SAS] SAS에서 proc compare를 이용해 하나의 데이터셋에 있는 두개의 변수 비교하기 sas에서 proc compare문을 이용하여 하나의 데이터셋에 있는 두개의 변수가 같은지를 비교하는 방법을 알아보자. 두개의 데이터셋을 proc compare를 이용해 비교하는 방법 http://sasbigdata.com/7 하나의 데이터셋에 두개의 변수가 있는데 이것을 if문이 아닌 proc compare를 이용해 확인하는 방법이다. hwi라는 데이터셋에는 a와 a1이라는 변수가 있는데 중간중간 데이터값이 다른 것이 있다. 아래 사진 참조 간단하게 proc compare base=라이브러리명.데이터셋 (위의사진은 work라이브러리이므로 생략했음) allstats briefsummary를 적은뒤 var와 with 뒤에 기준이 되는 변수와 비교할 변수를 입력한후 실행하면 출력창과 같이 서로 다른 관측치들.. 2014. 1. 29.
[R프로그램] Rstudio 알스튜디오 설치하는 방법 알아보기 R을 실행하면 너무 단순한 하나의 창으로 뭔가 허전한 감이 있을것이다. 그래프 출력창이라던지 R편집기등 창이 원할시 새로 뜨긴 하지만 뭔가 보기 불편한 감이 생길 수가 있다. 그래서 R에서 프로그래밍하고, 그래프등도 한눈에 보기 편하게 구성되어 있는것이 R studio이다. 왼쪽이 기존의 R창이고 오른쪽이 R studio창이다. 어떤 것이 더 편한지는 개인마다 다르지만 R studio는 여러개의 창으로 한눈에 보기 편하게 만들어놔서 보기 편하려고 했으나, 일부의 사람은 창들이 많아 복잡하다고 기존의 R을 선호하는 사람도 있다. 둘다 기능은 같으니 편한 것을 사용하면 된다. 간단히 설명하자면 R이 있는데 편집기나 실행창, 그래프창을 그냥 한눈에 보기 편하게 하고자 한 것이 R studio라고 생각하면 된다.. 2014. 1. 27.
[BIGDATA] 빅데이터의 시각화(bigdata visualization) 빅데이터(bigdata)의 시각화 빅데이터의 시각화(bigdata visualization)가 무슨말인가? 간단하게 설명하면 빅데이터를 분석하면 고객이나 상대가 원하는 분석결과를 추출할 것이다. 이 분석결과를 누가 봐도 한눈에 쉽게 이해할 수 있게 도표나 그림 같은 시각적 수단을 통하여 정보를 효과적으로 전달하는 것을 말하는 것이다. 각종 통계 컨퍼런스에서도 빅데이터의 시각화가 자주 거론 되고 있다. 충북대학교 정보통계학과/비즈니스데이터융합학과 나종화 교수님의 말씀 : 하드웨어는 사면 된다. 하지만 분석결과를 시각화 하는 것은 각종 지식과 경험이 필요하며, 부가적인 가치가 높기 때문에 살 수가 없다. 그렇기 때문에 빅데이터에서의 시각화는 매우 중요하다. 시각화의 대표적인 예를 아래 그림을 통해 알아보자... 2013. 12. 6.