본문 바로가기

빅데이터48

[SAS] 기하평균 및 표준편차 적용시 round error 해결 방법 설명에 앞서서 예로 사용된 이상치제거 방법론에 관한 수식은 의미가 없으며, round error 방법을 해결하는 것을 쉽게 보여주기 위해 기하평균과 기하표준편차를 사용하지 않고, 간단하게 그냥 일반 표준편차를 사용하였을 뿐 방법론적으론 의미가 없음을 알린다. 아래 코드에 주석으로 달아놨지만핵심은 이것이다.1. 그룹내 값이 모두 동일할 경우 std는 0로 나오지만 그룹내 단건인 경우는 std가 결측치로 나타남 그러므로 결측치를 0로 변환해줘야함여러 그룹중에 한 그룹에 모두 동일한 값이 있는 경우도 있다. 이 경우에는 표준편차가 0로 나오지만, 만약 한 그룹이 한건으로 구성되어 있다면 이경우 표준편차는 . (결측치)로 표기된다.그래서 결측치를 나타내는 .(마침표)를 0값으로 변환시켜줘야 수식에 오류가 생기지.. 2017. 2. 9.
[SAS] sas에서 코딩방법에 따른 처리 속도의 차이(if문의 위치) sas로 빅데이터를 핸들링하면서 항상 답답하고 문제되는것이 처리속도 시간이다. 큰데이터를 다룰수록 속도와의 전쟁인데, 각자 자기만의 스타일로 다양하게 프로그래밍하지만 코딩을 가장 최적화 시키면, 데이터가 크면 클수록 처리속도 시간의 차이는 엄청나다. 아래의 간단한 예를 보고 data step에서 if문 코딩을 최적화하는 방법을 알아보도록 하자. 위의 두개의 데이터셋 생성의 조건은 다음과 같다. test 데이터셋의 department변수에서 기획부값만 가져오고 각각 사칙연산의 결과를 나타내는 변수를 생성하라. 위의 결과 처럼 코딩의 순서는 다르지만 결과는 같다. 하지만 만약 이 데이터가 예제와 달리 방대한 양의 데이터라면 이 두가지의 코딩 처리속도는 분명히 차이가 난다. 왼쪽의 코딩은 if문이 먼저 나타나.. 2014. 5. 16.
[BIGDATA] 빅데이터 구글 검색 방법 10가지 팁(google 검색 방법) 빅데이터(bigdata) 시대에 우리는 수많은 정보를 간단한 검색으로 찾아 볼수가 있다. 국내에서 가장 많이 사용하는 것이 네이버(naver)이고, 통계나 프로그래밍쪽은 다음(daum) 검색엔진을 많이 사용할 것이다. 하지만 전세계적으로 많이 사용하는 검색엔진은 구글(google)인데, 국내 이용자들은 구글을 어려워 하고 있다. 더 많은 정보를 간단한 팁을 포함한 검색어로 구글에서 정확한 정보를 찾는 방법들을 몇가지 알아보도록 하자. 1. 특정 단어와 문장이 꼭 들어가야 할 경우 - 큰 따옴표("")를 입력하면 반드시 포함된 결과만 검색된다. ex) "sasbigdata" 로 검색하면 sasbigdata라는 문구가 포함된 것만 검색된다. 2. 특정 단어는 제외하고 싶은 경우 - 단어1 한칸띄우고(spac.. 2014. 4. 28.
[SAS] sas proc sql과 proc sort 두 방법으로 merge할 경우 처리 속도 비교 sas를 이용하여 필요한 데이터를 구축하기 위해서 데이터 병합 작업을 많이 하게 된다. 쉽게 말해 sas로 데이터를 붙이고 짜르고 하는 작업이 빈번하게 발생한다는 말이다. 데이터 가로 병합(merge)을 흔하게 사용하는데 데이터가 작을 경우에는 어떤 병합 방법을 사용해도 처리시간이 거의 차이가 없지만, 데이터가 크면 클수록 시간이 오래 걸리기 때문에 처리시간을 단축시키는 방법을 찾게 된다. sas에서 full join merge를 한다는 기준으로 두가지 방법(proc sql문, proc sort문)을 보고 어떤 것이 처리시간이 빠른지를 알아보도록 하자. 당연히 같은 결과를 출력하는데 여러가지 방법이 있다면 빠르게 처리 할수 있는 방법을 아는 것이 실무에 많은 도움이 될 것이다. 위의 사진에서 두가지 방법.. 2014. 3. 12.
[BIGDATA] 국민건강보험공단(건보공단) 공공 빅데이터(bigdata) 활용한 공익 서비스 제공 3월이라 국민건강보험공단 채용도 있고, 건보공단이 자주 눈에 띈다. 통계직 채용은 항상 느끼는 거지만 필요하다고 난리면서 매우 적은 인원을 뽑는다. 이전 정부 3.0 공공빅데이터 컨퍼런스와 의료산업 빅데이터 포럼에 참석하였는데, 국민건강보험공단의 빅데이터 활용을 통한 공익 서비스에 대해서 한번 쉽게 알아보자. 정부 3.0과 통계의 역할에서 정부는 국가 이하 공공기관이 가지고 있는 빅데이터(bigdata)를 활용에 대해 중점을 두고 있다. 그러므로 공공기관은 각자 기관마다 보유하고 있는 빅데이터를 어떻게 활용할 것인지에 대해 정부 시책에 부응하고자 빠르게 움직이고 있다. 정부3.0과 통계의 역할 컨퍼런스 참조 http://sasbigdata.com/36 의료보건업계가 치료중심에서 예방건강관리 중심의 서비스.. 2014. 3. 6.
[SAS] sas merge 가로병합 끝장내기(full, left, right, inner join방법 소개) sas에서 데이터 핸들링을 하면서 데이터들을 붙이고 나누고 하는 작업들을 자주 하게 된다. 가장 많이 사용되는 것이 세로병합인 set 구문과 가로병합 merge인데 오늘은 merge 사용법에 대해서 알아보도록 하자. 사진을 보고 이해하면 아주 쉽게 이해 할 수 있을 것이다. 아래 사진에 m이라는 데이터셋과 m1이라는 데이터셋이 있는데 변수 key를 가지고 merge(가로병합)를 해보자. (아래사진참조) 1. 두 데이터를 조인시킬 변수를 proc sort를 통해 정렬한다. 예제에서는 key변수를 정렬한다.(아래사진참조) 2. full join merge 방법 (아래사진참조) 풀조인 말그대로 조건 없이 통째로 가로로 붙여버리는 거다. 3. left join merge 방법(아래사진참조) 한마디로 두개의 데이.. 2014. 3. 4.
[SAS] sas proc freq 간단한 빈도표 및 출력 방법 noprint sas에서 데이터들의 빈도를 보고 싶을 경우 proc freq를 많이 사용한다. 출력창으로 보지 않고 새로운 데이터를 생성하여 보고 싶은 경우가 있는데 간단한 구문인데도 불구하고 아무 생각없이 output out= 을 사용하여 출력이 되지 않는다고 질문하는 분들이 많다. 예제를 통해 간단하게 알아보자. 사진참고 위의 사진을 보면 kk라는 데이터 셋에 a라는 변수가 하나가 있고 데이터는 총 11개 이다. 이 kk데이터 a변수의 빈도를 구하는 방법이다. 출력창으로 출력하지 않고, 새로운 데이터셋에 결과를 기록하고 싶을 경우에 proc freq에서 noprint 옵션을 사용하여 출력창으로 출력되는 것을 방지하고, table 변수명 뒤에 슬러시 / 를 사용한 후 out=출력결과를 저장할 데이터 셋명을 입력하면 .. 2014. 3. 4.
[SAS] sas proc sql 문장에 대해서 알아보자(문장구조, 조건식) sas proc sql 문장에 대해서 알아보자(문장구조, 조건식) proc sql에서 조건식에 대해서 자세히 알아보자. [문장구조] proc sql; create table 결과데이터 셋 명 as select 그룹변수명, sum (case when 조건식 ~~일때 then 조건식 ~~해라 else 아니면 조건식 해라 end) as 예명 from 입력 데이터셋 명 where 조건식 group by 그룹변수명 having 결과 데이터에 대한 조건식; quit; run; [예시] [코딩 설명] sp3라는 데이터셋을 생성하여 month변수를 생성한다. sum함수를 이용하여 sum이라는 변수를 만들어 값을 구하는데 조건은 month가 01일 경우 cost에 10을 더하고 아니면 그냥 cost값으로 계산한다. sp.. 2014. 2. 28.
[SAS] sas에서 기하평균(geometric mean) 구하는 방법 sas에서 빅데이터(bigdata)의 이상치 제거를 할 경우 사분위수 q1, q3와 함께 자주 사용되는 기하평균(geometric mean)을 구하는 방법에 대해서 알아보자. 기하평균의 공식과 상세설명 참조 www.sasbigdata.com/81 1. 데이터셋 a는 2, 5, 7, 8 네개의 양수로 구성되어 있다. 2. 먼저 log_k라는 변수에 k값에 로그(log)를 씌워 치환한다. (이때 계산되어지는 값은 밑이 10인 상용로그(log)값이 아닌 밑이 e인 자연로그 ln값이다. ln=log e) 3. 로그로 치환된 log_k값들의 평균을 구한다. proc means를 이용 4. 마지막으로 log_mean(로그로 치환된 값들의 평균)에 지수 exp(exponential의 약자 자연대수 e)를 취한다. 5.. 2014. 2. 26.
[BIGDATA] 보건복지 빅데이터(bigdata) 효율적 관리방안 빅데이터(bigdata)라는 단어가 떠오르면서 세계의 정부와 기업들이 무한한 경제적 가치를 지니고 있는 빅데이터를 다양한 분야에서 적극적으로 활용을 시도 하고 있다. 빅데이터를 많이 보유할 수 밖에 없는 보건 및 의료관련 분야도 자연스럽게 빅데이터에 초점을 두고 연구를 진행하고 있다. 한국보건사회연구원 센터장은 빅데이터를 이렇게 정의했다. 빅데이터의 분석은 기존의 데이터에 가치 있는 새로운 생명을 불어 넣는것 이 말을 해석하자면 빅데이터 시대에 새로운 데이터와 비정형데이터에 너무 초점들을 두고 있지만, 과거의 기존에 축적된 작은 사이즈의 데이터들을 연결해 그 데이터에서 새로운 가치를 찾아낸다면, 그것 또한 빅데이터라고 할 수 있다는 것이다. 실제로 재난 예방 및 구제역 예방등이 기존 과거의 데이터들을 연.. 2014. 2. 24.
[SAS] sas if문과 substr함수를 이용하여 관측치 일부분 수정하는 방법 sas에서 if문과 substr함수를 이용하여 관측치 일부분 수정하는 방법을 알아보자. 먼저 샘플데이터가 필요하므로 ace라는 간단한 데이터셋을 생성하였다. [코딩과정] data ace1; set ace; new_a=a; if substr(new_a,1,1)='A' then substr(new_a,6,1)=1 ; else if substr(new_a,1,1)='B' then substr(new_a,6,1)=2; if substr(new_a,1,1)='A' then substr(new_a,1,1)=0; else if substr(new_a,1,1)='B' then substr(new_a,1,1)=0; run; [설명] a변수를 new_a라는 변수로 하나 더 생성 한것은 한눈에 비교하기 쉽고자 생성하였다. .. 2014. 2. 21.
[BIGDATA] 의료산업에 있어서 빅데이터(bigdata) 2014년 2월 19일(수) 코엑스 컨퍼런스룸 308호에서 의료산업에 있어서 빅데이터라는 주제로 빅데이터 리더스포럼에 참석했다. [행사목적] 창조경제 시대에 빅데이터 비즈니스 활용의 중요성이 강조되는 현실에서 데이터 분석을 통한 가치있는 정보의 활용을 산업 전반에 파급하고자 매일경제와 한국빅데이터학회는 분기별로 빅데이터 리더스 포럼을 개최한다. 금년 "의료산업에 있어서 빅데이터"란 첫 주제를 통해 의료 패러다임의 변화에 따른 의료산업의 경쟁 전략과 대국민 의료서비스의 향상을 통한 사회적 비용을 절감하는 의료산업의 발전방향을 제시한다고 한다. 행사명 : 빅데이터 리더스 포럼 행사 주제 : 의료산업에 있어서 빅데이터(bigdata, medical & healthcare) 행사 일시 : 2014년 2월 19일.. 2014. 2. 20.