본문 바로가기

전체 글163

[SAS] SAS 프로그램 실행과 환경설정 (SAS 9.1) [ SAS 9.1 실행] 바탕화면에 설치된 SAS아이콘을 더블 클릭하여 SAS를 실행한다. 프로그램이 실행되면서 위와 같은 화면이 나타난다. [SAS 화면구성] SAS에서 거의 대부분 가장 많이 사용하는 창은 확장편집기 창, LOG 창, OUTPUT 창 이 세가지 창을 가지고 작업을 한다. 1. 확장편집기 창 SAS 프로그램을 작성하는 창으로 위와 같이 Coding 작업을 할 수 있는 공간을 확장편집기 창이라고 한다. 2. LOG 창 위의 그림은 코딩한 프로그램을 F3(프로그램 실행 단축키)을 눌러 실행 했을 때 프로그램 컴파일 과정 및 오류사항을 출력하는 화면이다. 이 화면을 LOG창이라고 한다. 작업한 코딩이 에러를 발생하는 경우 빨간색 글로 오류사항이 표시되고 초록색 글로 warning에 대하여 설.. 2013. 10. 14.
[Statistics, 통계] 연관성 분석, 척도 일반적으로 연구를 진행할 때, 한가지 변수로만 연구를 하는 경우는 거의 없다. 여러가지 변수를 가지고 연구를 하게 되는데, 여러가지 변수들 간에 어떠한 연관성을 가지고 있는지 확인하는 것이 중요하다. ⊙ 연관성 분석 : 변수들 간의 관계를 파악하는 분석 ⊙ 연관성 분석 방법 - 상관분석 : 변수가 등간 척도 / 비율 척도인 경우 - 교차분석 : 변수가 명목 척도 / 서열 척도인 경우 ☞ 척도는 무엇인가? ☞ 등간, 비율, 명목, 서열은 무엇인가? ⊙ 척도 : 사물이나 사람의 특성을 수량화 하기 위해 체계적인 단위로 숫자를 부여한 것 1. 양적 자료의 척도 ① 등간 척도 자료를 분류, 서열을 결정, 거리 or 간격 부여 - 양적인 차이 표시 가능 - 절대적 크기 나타내지 못함(비율의 계산 불가능) - 가감.. 2013. 10. 14.
[Statistics, 통계] 상관분석, 상관계수 통계 공부를 하면서 상관분석과 피어슨의 상관계수를 자주 듣게 된다. 상관분석이 무엇인지? 상관계수들은 어떤 것들인지에 대해 알아 보자. 상관분석(correlation analysis) 정의 : 연속형 두 변수간의 직선적(선형)관계 정도를 검정하는 통계 분석 방법 분석목표 : 연속형 변수간의 관련성 평가 연속형이라는 말이 자주 나오는데 연속형이란 무엇인가? 연속형 : 등간 척도 변수와 비율 척도 변수같이 셀 수 있고, 숫자의 성격을 가지고 있는 것 측정결과가 무한하게 많은 변수 ex)키, 몸무게, 온도 등 (각종의 척도에 대한 이야기는 이 전에 작성한 글을 참고하면 되겠다.) 상관분석은 두 변수간의 선형관계 정도를 분석하는 것으로 두 변수간의 공분산(Covariance)분석으로 시작한다. 그렇다면 공분산은.. 2013. 10. 14.
[Statistics, 통계] 회귀분석 통계에서 가장 많이 쓰이고 불리는 회귀분석에 대해 간단하게 알아보도록 하자. 회귀(regression)는 무엇인가? 사전적 의미로는 한 바퀴 돌아 제자리로 돌아오거나 돌아감으로 정의 되고 있다. 회귀의 기원은 - 영국의 유전학자 Francis Galton(1822 ~ 1911)의 유전법칙 연구 중 나온 명칭 - 부모 키와 자녀 키 간의 직선관계를 발견 (아버지의 키가 아무리 크더라도 아들의 키는 아들 세대의 평균키로 접근하는 경향 발견) - Francis Galton은 이러한 현상을 평균으로의 회귀(regression toward mean)라고 함 그럼 회귀의 법칙을 활용한다면? 전체 평균값을 가지고 알지 못하는 누군가의 키를 예측해 볼 수 있다. 여자의 평균키가 160정도라고 한다면 친구를 통해 소개팅.. 2013. 10. 14.
[BIGDATA] 빅데이터의 정의(Value를 포함한 4V 측면) 지금은 빅데이터 세상 ! TV, 라디오, 인터넷, 신문, 잡지등 많이 듣고 볼 수 있는 것들이 빅데이터이다. 많은 사람들이 살아가면서 빅데이터들을 듣고, 접하지만 빅데이터에 관해 자세히 알지는 못한다. 이 글을 읽는 당신에게 질문하여 본다. 빅데이터가 무엇입니까? 대부분의 사람들은 큰 데이터? 대용량 데이터? 이런 식으로 답변들을 한다. 절대 틀린 이야기는 아니다. 하지만 부족함이 조금 느껴질 것이다. 빅데이터에 대해서 간단하고 쉽게 알아보자! 빅데이터(big data)를 한 줄로 요약해본다면? → 데이터의 생성 양과 주기 및 형식 등이 방대한 데이터 빅데이터(big data)에서 3V, 4V는 무엇인가? 빅데이터는 초대용량의 데이터 양(volume), 다양한 형태(variety), 빠른 생성 속도(ve.. 2013. 10. 14.
[My Story] 세상에서 가장 쉽게 빅데이터와 통계를 정복하는 블로그 개설! 빅데이터의 중요성을 매일 강조하는 이 세상 통계학문과 SAS 통계 패키지 프로그램들... 모두 어려워 하고 누구하나 초등학생들도 알아들을 만큼 쉽게 가르쳐 주는 사람이 없다. 무엇이 그리 어렵고, 진지하며 복잡한 것들인가? 결국 사람이 만들어내고, 이용하고, 말하는 것들 쉽게쉽게 빅데이터와 통계 그리고 SAS에 대해 함께 공부 해보자. 2013. 10. 14.
[SAS] proc surveyselect (SAS, 모집단에서 단순무작위추출로 표본 추출하기) 실무에서 모집단 데이터에서 표본을 적게는 몇개부터 많게는 수만개까지 데이터를 추출해 달라는 요구가 많다. sas공부를 하면서도 아~ 간단하게 모집단에서 몇개만 랜덤으로 추출하고 싶은데 sas에서 어떡하지? 라는 경우도 생기며, 난수를 생성해서 해야하나? 등 복잡해지기 마련이다. 하지만 간단하게 코딩 몇줄로 이런 경우를 해결하는 방법이 있다. 바로 그것은! proc surveyselect 복잡한 샘플링 방법을 sas 코딩 한 두줄로 끝내버리는 것이다. 예를 들어보자 기존 데이터(a)가 10000건인데 그중에서 1000건만 추출해서 분석을 하고 싶다. 1000건을 무작위 또는 여러 방법으로 추출하고 싶은데 어떻게 해야하나? 단순무작위 추출을 사용할 경우 proc surveyselect data=a metho.. 2013. 10. 14.