본문 바로가기

통계30

[SAS] SAS 숫자 날짜 변환 input, put, format 이용방법 이번 데이터 작업 내용은 input과 put 그리고 format을 활용하여 아주 유용하게 활용할 수 있는 방법이다.가지고 있는 데이터가 숫자형 변수이면서 8자리인 생년월일을 가지고 있는 경우 이 숫자에 원하는 일수를 더하면 몇년 몇월 몇일이 나오는지가 궁금할 때 활용될수 있는 방법이다. 보건의료쪽에서 활용해 본다면 요양개시일이나 최초입원일자를 알고 있는 상황에서 재원일수 또는 입원일수 몇일을 더했을때 과연 요양종료일이나 최종퇴원일자를 구하고 싶을때 활용될수 있다. 일반적으로는 데이터에 요양종료일이라던지 퇴원일을 가지고 있겠지만 임의로 원하는 일수를 더하고 싶은 경우가 생길때 사용될수 있는 것이다. 이외에도 금융이나 보험또는 기념일 등 날짜에 원하는 일수를 추가해서 몇일이 되는지 다양하게 응용해서 사용할수.. 2018. 10. 15.
[SAS] 2개의 변수 조합 빈도구하기(앞뒤 변수 변경을 동일건으로 판단할 경우, 경우의 수) 변수 조합의 빈도를 구하는 경우의 질문이 많다. 항상 말하지만 통계분석은 책이나 인터넷 등 강의를 듣고 틀에 짜여진 분석 코드에 변수만 넣어서 돌리고 해석하면 문제가 되지 않는다. 문제는 그 분석용 데이터 정제과정은 누가 가르쳐주지도 않고 그 때 상황에 맞게 본인이 창의적으로 해결해야 하는 부분인 것이다. 이와 같은 작업이 능숙하게 단축되면 전체적인 통계작업이 매우 많이 단축된다. 이번 내용은 칼럼이 2개가 있는 상황에서 이 두가지 칼럼을 붙여서 조합의 빈도를 구하고 싶은데 추가 조건이 칼럼을 붙였을때 앞뒤칼럼의 순서를 바꾸어서 일치하는 건이 있으면 그것은 동일건으로 본다는 것이다. 내용 자체는 매우 단순하다. 칼럼 두개의 조합을 보는데 앞뒤 변경시 동일한게 있으면 동일건으로 보고 빈도를 구한다는 것이다.. 2017. 3. 23.
[SAS] 기하평균 및 표준편차 적용시 round error 해결 방법 설명에 앞서서 예로 사용된 이상치제거 방법론에 관한 수식은 의미가 없으며, round error 방법을 해결하는 것을 쉽게 보여주기 위해 기하평균과 기하표준편차를 사용하지 않고, 간단하게 그냥 일반 표준편차를 사용하였을 뿐 방법론적으론 의미가 없음을 알린다. 아래 코드에 주석으로 달아놨지만핵심은 이것이다.1. 그룹내 값이 모두 동일할 경우 std는 0로 나오지만 그룹내 단건인 경우는 std가 결측치로 나타남 그러므로 결측치를 0로 변환해줘야함여러 그룹중에 한 그룹에 모두 동일한 값이 있는 경우도 있다. 이 경우에는 표준편차가 0로 나오지만, 만약 한 그룹이 한건으로 구성되어 있다면 이경우 표준편차는 . (결측치)로 표기된다.그래서 결측치를 나타내는 .(마침표)를 0값으로 변환시켜줘야 수식에 오류가 생기지.. 2017. 2. 9.
[SAS] sas9.4 results viewer 누적형식 수정방법 SAS 9.2에서는 프로시저 명령어를 실행시 results viewer 창에 실행했던 결과만 깔끔하게 나타났다. 하지만 9.4를 사용하는데 results viewer 창에 이전에 돌렸던 결과 아래에 결과들이 순차적으로 누적되는 형식으로 바뀌었다. 알아보니 9.3부터 이게 바뀐 것이다. 이 경우 나는 내가 확장편집기에서 실행한 것에 대한 결과만 보고싶을 경우 사용되는 명령어를 알아보도록 하자. 예를 들어보면 data test; input cost; cards; 100 200 4500 ; run; proc means data=test min max; var cost; run; proc means data=test std cv; var cost; run; 위와 같은 문장을 실행하면 실행 할때마다 기초통계량 값.. 2017. 2. 7.
[SAS] sas에서 left join시 join값(유니크값)이 두개이상 일치하는 경우 병합하는 방법 sas에서 left join시 join값(유니크값)이 두개이상 일치하는 경우 병합하는 방법에 대해서 알아보자. 간단히 설명하자면 데이터를 가로병합하는데 왼쪽 테이블 기준으로 하되 키값이 기존에는 하나였지만 키값이 2개가 일치하는 경우만 병합시키는 것이다. 그림을 통해 어떤 문제를 해결할 것인지 알아본다. test1 데이터셋과 test2 데이터셋을 test1데이터셋 기준(left join)으로 가로 병합을 하는데 k변수와 j변수가 둘다 일치하는 경우에만 가로병합을 실시하는 것이다. 그럼 결과는 맨 오른쪽 그림과 같이 check가 붙으면서 병합이 되어야한다. [코딩과정] [예제 데이터생성] data test1; input k$ j$; cards; A T A A C B H S ; run; data test2;.. 2014. 5. 30.
[Statistics, 통계] 기하평균(geometric mean) 예를 들어 2, 5, 7, 8 처럼 양수값들이 n개가 있을 경우에 이 값들의 곱의 n제곱근을 기하평균(geometric mean)이라 한다. sas에서 기하평균을 구하는 방법 참조 www.sasbigdata.com/80 [기하평균의 공식] 실제로 공학용 계산기를 이용하여 2, 5, 7, 8에 대해서 기하평균을 구하여 보자. 값이 2, 5, 7, 8로 n의 갯수가 4이다. 기하평균값은 약 4.86이 나왔다. [기하평균과 산술평균의 관계] 위의 공식을 보면 기하평균(geometric mean)은 산술평균(arithmetic mean)보다 크지 않음을 알 수가 있다. 위의 값으로 실제로 구해봐도 2, 5, 7, 8의 기하평균은 약 4.86 산술평균은 5.5로 기하평균은 산술평균보다 크지 않다. [기하평균은 왜.. 2014. 2. 26.
[SAS] SAS 함수 (통계 및 확률분포 함수) SAS함수를 이용하여 통계 및 확률분포 함수값을 계산할 수 있다. 통계함수에서는 인수값이 결측치를 포함하면 그 값을 제외하고 함수값을 계산한다. 하지만 직접적으로 수식을 사용하는 경우에는 하나라도 결측치가 있으면 함수값을 결측치로 처리한다. 통계 및 확률분포 함수 설명 MEAN(argument, argument, …) 인수들의 산술평균을 계산 인수중 결측치가 있을시 그 인수는 빼고 계산 결측치를 갖더라도 함수값은 존재 SUM(argument, argument, …) 인수들의 합을 계산 POISSON(lamda, x) 모수가 lamda인 포아송 확률변수에 대해 분포함수값 F(x)를 계산 PROBBETA(x, a, b) 모수가 a, b인 베타 확률변수에 대해 분포함수값 F(x)를 계산 PROBBNML(p, .. 2014. 2. 4.
[BIGDATA] 빅데이터(bigdata), 공공데이터, 통계청사이트 소개 빅데이터(bigdata)라는 단어가 핫이슈가 되면서 정부3.0부터 공공기관, 기업, 금융, 마케팅 등등 모든 분야가 이 빅데이터라는 단어에 민감해지고 예민하게 반응하기 시작했다. 최근 빅데이터를 중심으로 공공데이터 개방, 공공데이터 활용, 공공데이터 포털등에 관심도가 높아지며, 막대한 자금을 투자해 빅데이터를 활용하고자 엄청난 연구들을 하고 있다. 빅데이터, 공공데이터관련 등 여러 나라의 통계청 사이트등을 소개하며, 나름 매력있는 곳들을 소개해 보겠다. 1. 서울 열린 데이터 광장 > http://data.seoul.go.kr/index.jsp 우리동네 공공데이터를 최초 개방합니다. 서울시의 모든 공공데이터를 개방합니다. 경제에 도움이 되는 서울시 공공 정보가 펑펑 쏟아집니다. 이 세가지의 글이 가장 먼.. 2014. 1. 29.
[R프로그램] Rstudio 알스튜디오 설치하는 방법 알아보기 R을 실행하면 너무 단순한 하나의 창으로 뭔가 허전한 감이 있을것이다. 그래프 출력창이라던지 R편집기등 창이 원할시 새로 뜨긴 하지만 뭔가 보기 불편한 감이 생길 수가 있다. 그래서 R에서 프로그래밍하고, 그래프등도 한눈에 보기 편하게 구성되어 있는것이 R studio이다. 왼쪽이 기존의 R창이고 오른쪽이 R studio창이다. 어떤 것이 더 편한지는 개인마다 다르지만 R studio는 여러개의 창으로 한눈에 보기 편하게 만들어놔서 보기 편하려고 했으나, 일부의 사람은 창들이 많아 복잡하다고 기존의 R을 선호하는 사람도 있다. 둘다 기능은 같으니 편한 것을 사용하면 된다. 간단히 설명하자면 R이 있는데 편집기나 실행창, 그래프창을 그냥 한눈에 보기 편하게 하고자 한 것이 R studio라고 생각하면 된다.. 2014. 1. 27.
[BIGDATA] 정부 3.0과 통계의 역할 컨퍼런스 후기. 통계청.한국통계진흥원 2013년 11월 29일 논현동에 위치한 건설회관에서 정부 3.0과 통계의 역할이라는 주제로 컨퍼런스가 있어 참석하였다. 역시나 참석자 대부분은 빅데이터와 통계쪽에 직업을 가지고 있거나 관심있는 사람들 위주였다. 입구에 있길래 사진 한방 찍음. 목차는 아래와 같이 보기 편하게 PPT로 따로 만들었다. 개인적으로는 세션2 빅데이터 부분이 가장 관심이 높아 참석하였다. 전체적으로 발표내용은 공공데이터, 빅데이터, 통계, 교육 이렇게 4가지 단어로 표현 할 수 있겠다. 여기서도 volume(대규모), velocity(실시간 생성), variety(숫자, 문자, 영상) 3V로 빅데이터를 소개 하였고, 빅데이터 시각화 부분에서는 3V에 추가적으로 기업에서는 이윤을 추구하기 때문에 Value(가치)의 중요성을 말하.. 2013. 12. 3.
[Statistics, 통계] 통계적 자료분석 단계 자료(data)를 가지고 통계적으로 분석을 할 때 어떠한 단계를 통하여 분석을 하게 되는지 알아 보자. 1. 자료의 수집단계 통계적 자료 분석을 시행하기 위해서는 우선적으로 분석 목적에 적합한 자료를 수집하는 것이 매우 중요하다. 2. 자료의 입력단계 분석목적에 맞게 자료를 입력하는데 대부분 통계패키지는 패키지별 고유의 자료 입력 양식을 가지고 있다. 3. 입력자료의 확인 자료의 입력 후 원하는 양식으로 입력이 되었는지 확인을 한다. 통계패키지 출력결과와 원본을 대조하여 확인하는 것이 가장 이상적이고 정확하지만 데이터의 양이 많을수록 현실적으로 불가능하기 때문에 요약통계량(빈도,평균,최소,최대등)을 이용해 대략적으로 확인해 볼 수 있다. 4. 적절한 통계적 모형 설정 분석전 산점도, 히스토그램, 탐색적 .. 2013. 11. 27.
[Statistics, 통계] 중심극한정리(Central Limit Theorem) 통계에서 가장 중요한 정리중 하나인 중심극한정리(Central Limit Theorem)에 대해서 알아보자. 중심극한정리(Central Limit Theorem) 평균이 뮤이고 분산이 시그마 제곱인 모집단에서 표본의 크기가 n인 확률표본의 표본평균은 n이 충분히 크면 근사적으로 정규분포를 따르게 된다. 모집단이 정규분포이면 표본의 크기에 상관없이 표본평균의 분포는 정규분포이다. 모집단이 정규분포가 아니더라도 표본의 크기가 30이상이 되면 표본평균의 분포가 모집단의 분포와 상관없이 n이 커짐에 따라 정규분포에 근사해 진다. 표본이 아닌 표본평균입니다. 표본평균이 가장 중심극한정리에서 핵심단어이니 확실히 알아두시길 바랍니다. sasbigdata.com 김진휘 2013. 11. 25.