본문 바로가기

Statistics9

[Statistics, 통계] 기하평균(geometric mean) 예를 들어 2, 5, 7, 8 처럼 양수값들이 n개가 있을 경우에 이 값들의 곱의 n제곱근을 기하평균(geometric mean)이라 한다. sas에서 기하평균을 구하는 방법 참조 www.sasbigdata.com/80 [기하평균의 공식] 실제로 공학용 계산기를 이용하여 2, 5, 7, 8에 대해서 기하평균을 구하여 보자. 값이 2, 5, 7, 8로 n의 갯수가 4이다. 기하평균값은 약 4.86이 나왔다. [기하평균과 산술평균의 관계] 위의 공식을 보면 기하평균(geometric mean)은 산술평균(arithmetic mean)보다 크지 않음을 알 수가 있다. 위의 값으로 실제로 구해봐도 2, 5, 7, 8의 기하평균은 약 4.86 산술평균은 5.5로 기하평균은 산술평균보다 크지 않다. [기하평균은 왜.. 2014. 2. 26.
[Statistics, 통계] T-test(일표본, 이표본, 대응표본 t-test) T-검정은 간단하게 말해 두 집단 간의 평균에 대한 차이를 통계적 유의성으로 검정하는 방법이다. T-검정은 일표본 t-검정(one sample t-test), 이표본 t-검정(two samples t-test), 대응표본 t-검정(paired t-test) 세가지로 구분할 수 있다. - 일표본 t-검정은 모집단의 평균이 특정한 상수와 같은지를 검정하기 위해 표본평균을 이용하는 검정방법 - 이표본 t-검정은 두 그룹의 모평균의 차가 특정한 상수와 같은지를 검정하기 위해 각 그룹으로부터 표본을 추출해 이들 표본평균의 차를 이용하는 검정법(독립 t-검정이라고 부름) 그러므로 두 모집단은 독립인 관계에 있어야함. - 대응표본 t-검정은 각 대응하는 자료값의 차에 대한 표본평균이 특정한 상수와 같은지를 검정하는 .. 2014. 2. 10.
[Statistics, 통계] 자료의 종류(이산형 자료, 순서형 자료, 연속형 자료) 자료는 특성에 따라서 크게 3가지로 분류 할 수 있다. 자료의 종류는 크게 이산형 자료, 순서형 자료, 연속형 자료 세가지로 분류할 수 있다, 1. 이산형 자료(명목자료, 질적자료) 자료값이 양적인 크기가 아닌 속성이나 그룹을 나타내는 자료. 예를 들어 성별(남,여), 종교(불교, 기독교, 천주교), 지역(서울, 부산, 대전) 등을 나타내는 자료들이 속하며, 주로 그룹 분류시 이용된다. - 변수가 성별(gender)이면 관측치는 (남자=1, 여자=2) - 변수가 종교(religion)이면 관측치는 (불교=1, 기독교=2, 천주교=3) 2. 순서형 자료 서열이나 순위를 나타내는 자료. 시험점수를 석차로 나타낸 자료 또는 키가 큰 순서대로 배열, 몸무게가 많은 순으로 배열등 등위로 나타낸 자료가 속함. 원자.. 2013. 11. 28.
[Statistics, 통계] 변수(variable) 변수 : 하나 이상의 자료값을 갖는 것 위의 그림처럼 빨간부분이 변수이고, 파란부분이 각 변수들에 대한 측정값인 변수값 또는 관측치라고 한다. 예를 들어 기초통계학 과목을 수강하는 100명의 학생들에 대하여 키와 몸무게를 측정한 데이터가 있다고 하면 키와 몸무게는 변수이고, 학생들에 대한 키와 몸무게의 측정값(ex: 180,78)들은 변수값(관측치)이 되는 것이다. 데이터베이스 분야에서는 변수에 대응하는 개념으로 필드(Field)라는 용어를 사용하기도 한다. www.sasbigdata.com 김진휘 2013. 11. 28.
[Statistics, 통계] 통계적 자료분석 단계 자료(data)를 가지고 통계적으로 분석을 할 때 어떠한 단계를 통하여 분석을 하게 되는지 알아 보자. 1. 자료의 수집단계 통계적 자료 분석을 시행하기 위해서는 우선적으로 분석 목적에 적합한 자료를 수집하는 것이 매우 중요하다. 2. 자료의 입력단계 분석목적에 맞게 자료를 입력하는데 대부분 통계패키지는 패키지별 고유의 자료 입력 양식을 가지고 있다. 3. 입력자료의 확인 자료의 입력 후 원하는 양식으로 입력이 되었는지 확인을 한다. 통계패키지 출력결과와 원본을 대조하여 확인하는 것이 가장 이상적이고 정확하지만 데이터의 양이 많을수록 현실적으로 불가능하기 때문에 요약통계량(빈도,평균,최소,최대등)을 이용해 대략적으로 확인해 볼 수 있다. 4. 적절한 통계적 모형 설정 분석전 산점도, 히스토그램, 탐색적 .. 2013. 11. 27.
[Statistics, 통계] 중심극한정리(Central Limit Theorem) 통계에서 가장 중요한 정리중 하나인 중심극한정리(Central Limit Theorem)에 대해서 알아보자. 중심극한정리(Central Limit Theorem) 평균이 뮤이고 분산이 시그마 제곱인 모집단에서 표본의 크기가 n인 확률표본의 표본평균은 n이 충분히 크면 근사적으로 정규분포를 따르게 된다. 모집단이 정규분포이면 표본의 크기에 상관없이 표본평균의 분포는 정규분포이다. 모집단이 정규분포가 아니더라도 표본의 크기가 30이상이 되면 표본평균의 분포가 모집단의 분포와 상관없이 n이 커짐에 따라 정규분포에 근사해 진다. 표본이 아닌 표본평균입니다. 표본평균이 가장 중심극한정리에서 핵심단어이니 확실히 알아두시길 바랍니다. sasbigdata.com 김진휘 2013. 11. 25.
[Statistics, 통계] 연관성 분석, 척도 일반적으로 연구를 진행할 때, 한가지 변수로만 연구를 하는 경우는 거의 없다. 여러가지 변수를 가지고 연구를 하게 되는데, 여러가지 변수들 간에 어떠한 연관성을 가지고 있는지 확인하는 것이 중요하다. ⊙ 연관성 분석 : 변수들 간의 관계를 파악하는 분석 ⊙ 연관성 분석 방법 - 상관분석 : 변수가 등간 척도 / 비율 척도인 경우 - 교차분석 : 변수가 명목 척도 / 서열 척도인 경우 ☞ 척도는 무엇인가? ☞ 등간, 비율, 명목, 서열은 무엇인가? ⊙ 척도 : 사물이나 사람의 특성을 수량화 하기 위해 체계적인 단위로 숫자를 부여한 것 1. 양적 자료의 척도 ① 등간 척도 자료를 분류, 서열을 결정, 거리 or 간격 부여 - 양적인 차이 표시 가능 - 절대적 크기 나타내지 못함(비율의 계산 불가능) - 가감.. 2013. 10. 14.
[Statistics, 통계] 상관분석, 상관계수 통계 공부를 하면서 상관분석과 피어슨의 상관계수를 자주 듣게 된다. 상관분석이 무엇인지? 상관계수들은 어떤 것들인지에 대해 알아 보자. 상관분석(correlation analysis) 정의 : 연속형 두 변수간의 직선적(선형)관계 정도를 검정하는 통계 분석 방법 분석목표 : 연속형 변수간의 관련성 평가 연속형이라는 말이 자주 나오는데 연속형이란 무엇인가? 연속형 : 등간 척도 변수와 비율 척도 변수같이 셀 수 있고, 숫자의 성격을 가지고 있는 것 측정결과가 무한하게 많은 변수 ex)키, 몸무게, 온도 등 (각종의 척도에 대한 이야기는 이 전에 작성한 글을 참고하면 되겠다.) 상관분석은 두 변수간의 선형관계 정도를 분석하는 것으로 두 변수간의 공분산(Covariance)분석으로 시작한다. 그렇다면 공분산은.. 2013. 10. 14.
[Statistics, 통계] 회귀분석 통계에서 가장 많이 쓰이고 불리는 회귀분석에 대해 간단하게 알아보도록 하자. 회귀(regression)는 무엇인가? 사전적 의미로는 한 바퀴 돌아 제자리로 돌아오거나 돌아감으로 정의 되고 있다. 회귀의 기원은 - 영국의 유전학자 Francis Galton(1822 ~ 1911)의 유전법칙 연구 중 나온 명칭 - 부모 키와 자녀 키 간의 직선관계를 발견 (아버지의 키가 아무리 크더라도 아들의 키는 아들 세대의 평균키로 접근하는 경향 발견) - Francis Galton은 이러한 현상을 평균으로의 회귀(regression toward mean)라고 함 그럼 회귀의 법칙을 활용한다면? 전체 평균값을 가지고 알지 못하는 누군가의 키를 예측해 볼 수 있다. 여자의 평균키가 160정도라고 한다면 친구를 통해 소개팅.. 2013. 10. 14.