본문 바로가기

표본추출3

[SAS] sas에서 그룹별 데이터수 지정후 표본추출시 데이터수 이하인 경우 모두 추출하는 옵션 오늘 알아볼 옵션은 9글자만 추가 입력하면 엄청난 노가다 작업을 한번에 해결 할 수 있는 유용한 옵션이다. 데이터에서 sas를 이용해 표본을 추출하는 경우에 proc surveyselect 라는 명령문을 사용한다. 몇건을 뽑을지 지정 할수도 있고, 그룹별로 몇건씩 혹은 비율을 이용하여 추출하는 등 여러가지 방법으로 추출할 수가 있는데 이해도를 높이고자 간단한 예를 통해서 알아보도록 하자. 먼저 대용량이든 저용량이든 임의의 규모의 데이터가 있다. 그룹별로 10건씩 데이터를 추출 할 것인데, 실무데이터에서는 여러가지 경우의 수가 생기고, 실제 한 그룹에 모집단 데이터가 10건이 안되는 경우도 있을 수가 있다. 예를 들어 그룹별로 단순무작위추출방법(SRS)을 이용해 10건씩 추출할 경우 코딩예시 proc so.. 2015. 3. 17.
[EXCEL] 엑셀2007 데이터분석-통계데이터분석 알아보기 엑셀(EXCEL)은 모두다 알다시피 가장 많이 사용하는 프로그램중 하나이다. 특히나 빅데이터의 시각화가 중요하다고 난리인 이때 간단하게 보기좋은 그래프들을 만들수 있기도 하다. 기존의 통계프로그램 예를 들어 SAS와 SPSS는 비용이 적지 않게 들고, R은 무료지만 기존 통계프로그램들은 하나의 언어라고 볼수 있기 때문에 활용하기가 처음 접하는 사람에게 매우 어렵다고 느껴질수가 있다. 엑셀로는 통계분석을 할 수 없을까? 엑셀로도 가능하다. 수천만건 수억건의 데이터 분석은 불가능하지만 간단한 데이터들 포함 왠만한 데이터들을 간단하게 통계분석을 할 수가 있다. 일반적으로 SAS나 SPSS 라이센스를 구입할만한 여력이 되지 않고, R프로그래밍을 다룰만한 인원이 없는 기업에서는 엑셀을 이용해서 간단하게 분석하기도.. 2014. 5. 8.
[SAS] SAS proc surveyselect를 이용한 층화랜덤추출방법(빅데이터,bigdata) 빅데이터(bigdata)에서 전수데이터를 사용하지 못해 대부분 표본데이터를 사용할 것이다. 이때 이용되는 표본추출방법 중 하나인 층화표본추출 층화랜덤추출방법이다. SAS에서 모집단으로 부터 표본을 추출할 때 어떤 변수에 대해 층화로 추출하는 방법을 알아보자. 표본을 추출할 때 proc surveyselect 를 사용하는데 층화랜덤추출을 하기 전에 층화할 변수에 대해서 먼저 proc sort 구문을 이용해 정렬을 한뒤에 추출을 해야한다. sex_tp_cd가 성별을 의미하는데 성별을 기준으로 정렬하여 성별 별로 10%추출을 한다. method=srs 는 추출방법을 SRS(단순무작위추출)로 추출하겠다는 것을 의미 rate=0.1 은 모집단 대비 10%를 추출하겠다는 의미 이외에도 스크린샷에는 없지만 자주 이용.. 2014. 2. 6.