본문 바로가기
EXCEL

[EXCEL] 엑셀2007 데이터분석-통계데이터분석 알아보기

by SASBIGDATA김진휘 2014. 5. 8.

엑셀(EXCEL)은 모두다 알다시피 가장 많이 사용하는 프로그램중 하나이다.

특히나 빅데이터의 시각화가 중요하다고 난리인 이때 간단하게 보기좋은 그래프들을 만들수 있기도 하다.

기존의 통계프로그램 예를 들어 SAS와 SPSS는 비용이 적지 않게 들고, R은 무료지만 기존 통계프로그램들은

하나의 언어라고 볼수 있기 때문에 활용하기가 처음 접하는 사람에게 매우 어렵다고 느껴질수가 있다.

엑셀로는 통계분석을 할 수 없을까? 엑셀로도 가능하다.

수천만건 수억건의 데이터 분석은 불가능하지만 간단한 데이터들 포함 왠만한 데이터들을 간단하게 통계분석을

할 수가 있다.

 

일반적으로 SAS나 SPSS 라이센스를 구입할만한 여력이 되지 않고, R프로그래밍을 다룰만한 인원이 없는 기업에서는 엑셀을 이용해서 간단하게 분석하기도 한다. 아마 대부분의 중소나 중견기업에서는 다 엑셀을 이용할 것이다.

공기관이나 대기업등 리서치 및 통계쪽이 아닌 기업은 통계프로그램에 그렇게 막대하게 투자할 여건이 되지 않기때문이다.

 

 

[엑셀2007을 기준]

 

최대 총 관측치(행) :1,048,576 개

최대 총 변수(열) : 16,384 개

그리 크지 않은 데이터라면 충분히 분석할수가 있다. 하지만 리소스가 부족하다느니 가끔씩 힘들어할때도 있다..ㅋ

 

엑셀의 데이터-데이터분석-통계 데이터분석 에 있는 19개의 목록들에 대해서 알아보도록 하자. 아래그림참조

 

 

 

 

위의 창을 보면 총 19가지의 분석 도구 목록들이 있다.

이것들이 뭘 출력해주는지에 대해 간단히 알아보도록 하자.

 

1. 분산 분석 : 일원 배치법

두개이상의 표본에 대해 단순 분산 분석을 실행한다. 표본이 2개일 경우에는 t-test를 사용하지만 3개이상일 경우에는 t-test로 간단하게 일반화 할 수 없으므로 일원 배치법 분산 분석 모델을 사용하게 된다.

각각의 결과표와 함께 분산분석표가 함께 출력된다.

 

2. 분산 분석 : 반복 있는 이원 배치법

인자가 2개인 이원배치에서 수준조합에 반복이 있는 경우를 분석한다. 처리별 요약표와 분산분석표가 출력됨

 

3. 분산 분석 : 반복 없는 이원 배치법

인자가 2개인 이원배치에서 반복이 없는 경우를 분석한다. 처리별 요약표와 분산분석표가 출력됨

 

4. 상관 분석

상관계수 행렬을 출력함

 

5. 공분산 분석

공분산행렬을 출력함

 

6. 기술 통계법

일변량 기초통계량을 출력함

평균, 표준오차, 중앙값, 최빈값, 표준편차, 분산, 첨도, 왜도, 범위, 최소값, 최대값, 합, 관측수,

몇번째 큰값, 몇번째 작은값, 신뢰 수준을 출력해줌.

 

7. 지수 평활법

이전 예측값을 기준으로 이전 예측 오차를 수정한 새 예측값을 구함

시계열자료를 지수평활법에 의해 평활함. 차트도 작성 가능

 

8. F-검정 : 분산에 대한 두 집단

두 표본 F검정을 하여 두 모집단의 분산을 비교함. 분산의 동일성 검정

 

9. 푸리에 분석

고속푸리에변환(FFT)기법으로 데이터를 변환하는 방법으로 선형 시스템 문제를 해결하고 주기적인 데이터를 분석함

변환된 데이터의 역이 원래 데이터가 되는 역변환 기능 지원

 

10. 히스토그램

데이터 셀 범위와 각 계급에 대한 도수 및 누적 도수를 계산.

특정값 발생 빈도수를 표시

 

11. 이동 평균법

시계열 자료에서 지난 기간 동안 변수의 평균값을 기준으로 특정 기간의 값을 예측함

시계열자료를 이동평균법에 의해 평활. 출력표와 히스토그램작성 가능

판매량, 재고량 같은 추세를 예측함

 

12. 난수 생성

이용자가 정한 분포의 난수를 생성

정규분포, 이항분포, 포아송분포, 베르누이분포, 일양분포, 패턴분포, 이산분포등

초기값지정시 동일난수 생성가능

 

13. 순위와 백분율

데이터에서 각 값에 대한 순위와 백분율 순위를 표로 출력.

상대적 위치 및 비모수 통계분석에도 활용가능

 

14. 회귀 분석

최소자승법으로 선형회귀분석을 실시함.

최대 16개까지 독립변수와 종속변수의 관계를 분석하고 예측하는 것이 가능

회귀계수의 추정치를 포함 유의성 검정, 분산분석표, 결정계수, 회귀직선의 유의성 검정을 위한

F-검정 결과 및 잔차와 표준화잔차, 잔차플롯과 정규확률도등 출력 가능

 

15. 표본 추출

모집단에 대한 표본을 추출함

 

16. t-검정 : 쌍체비교

대응비교 t-test와 같은 의미.

실험 전 후 같은 표본이 쌍을 이룰때 표본에 대해 평균 차이에 대한 t-검정을 실시.

이표본 스튜던트 t-검정을 수행 처리 전, 후 관측 결과가 모집단 평균이 동일한 분포인지 확인 가능

t-검정에서 두 모집단의 분산이 동일하다는 가정을 하지 않음

 

17. t-검정 : 등분산 가정 두집단

이표본 스튜던트 t-검정 실시. 두 데이터가 같은 분포에서 나온 것으로 가정 - 등분산적 t-검정

t-분포 이용

 

18. t-검정 : 이분산 가정 두집단

이표본 스튜던트 t-검정 실시. 두 모집단의 분산이 알려져있지 않고 다른 경우 평균 차에 대한 가설검증

두 표본이 모집단 평균이 같은 분포에서 추출되었는지 여부 확인가능

 

19. z-검정 : 평균에 대한 두집단

모분산을 알고 있을 경우 두 모집단의 평균 차에 대한 가설검증.

양측 검정 결과시 단측검정 결과에 2를 곱함.

검정 통계량의 분포는 표준정규분포(z-분포)를 이용

 

www.sasbigdata.com 김진휘

 

  

댓글