본문 바로가기

통계학8

[R프로그램] rep함수 R프로그램의 rep함수에 대해서 알아보자. rep(반복할 값, 반복횟수) 로 나타낼수가 있다. 반복적인 값을 입력할 경우에 사용되며 더미(dummy) 변수로 값을 생성할 때 자주 사용된다. 위의 사진을 예를 들면 7이란 값을 10번 반복하겠다는 말이다. 결과를 봐도 7이라는 값이 10개가 생성됬음을 알 수 있다. rep의 times 옵션은 반복수를 말하는데 입력해도 되고 안해도 상관 없다. 문자형 데이터도 가능하다. jin이라는 문자를 3번 반복한다는 것인데 역시나 jin이라는 값이 3개가 생성이 되었다. each옵션은 간단하게 설명하자면 각각 반복해라는 옵션이다. 위의 사진을 예로 들면 0부터 2의 값을 각각 3번씩 반복하라는 의미이다. 결과도 마찬가지로 0을 3번, 1을 3번 2를 3번 각각 반복하여.. 2014. 4. 11.
[R프로그램] seq 함수 R프로그램의 seq함수에 대해서 알아보자. seq(from=시작, to=끝, by=간격) 이렇게 표현할 수가 있는데 시작부분과 끝부분을 정한뒤 간격을 입력해주면 그 조건에 맞게 값을 생성하는 것이다. 위의 사진을 보면 0을 시작으로 10까지 2간격으로 값을 생성한 것이다. from, to, by를 입력하지 않고 수치만 입력해도 무방하다. 위의 사진은 0을 시작으로 10까지 값의 길이?를 5개만 출력하라는 것이다. 시작과 끝의 값을 기준으로 간격이 일정한 값 5개를 생성하는 것이다. from과 to는 맨 위의 사진과 동일하게 입력하지 않아도 무방하지만 마지막 length는 입력해야한다. 이유는 미입력시 5를 by(간격)로 인식하여 결과값이 0, 5, 10으로 생성이 되기 때문이다. 위의 사진은 간단하게 수.. 2014. 4. 11.
[R프로그램] 수열 생성하는 방법 R프로그램을 이용하여 수열을 생성하는 방법을 알아보자. 수열은 설명하면 일정한 규칙으로 자연수를 정의역으로 하는 함수인데 이해하기 쉽게 규칙이 있으면 그 규칙에 맞게 일정하게 숫자가 늘어나거나 줄어드는 것으로 뭐 여러 등차, 등비, 조화수열 등으로 구분할 수 있다. 위의 사진을 보면 수열을 간단하게 생성해 본 사진이다. 1:7은 1부터 7까지 +1씩 증가한다는 말이다. 결과처럼 1, 2, 3, 4, 5, 6, 7 의 결과가 나옴을 알 수가 있다. 1:5의 값인 즉 1, 2, 3, 4, 5를 jin 이라는 변수로 할당을 하였다. 위의 사진은 이전과 반대인 높은 숫자부터 낮은 숫자 즉, 역으로 수열을 생성할때 사용한다. 방식은 같으며 높은 숫자부터 입력하면 된다.(위의 사진 참조) www.sasbigdata.. 2014. 4. 11.
[BIGDATA] 빅데이터(bigdata), 공공데이터, 통계청사이트 소개 빅데이터(bigdata)라는 단어가 핫이슈가 되면서 정부3.0부터 공공기관, 기업, 금융, 마케팅 등등 모든 분야가 이 빅데이터라는 단어에 민감해지고 예민하게 반응하기 시작했다. 최근 빅데이터를 중심으로 공공데이터 개방, 공공데이터 활용, 공공데이터 포털등에 관심도가 높아지며, 막대한 자금을 투자해 빅데이터를 활용하고자 엄청난 연구들을 하고 있다. 빅데이터, 공공데이터관련 등 여러 나라의 통계청 사이트등을 소개하며, 나름 매력있는 곳들을 소개해 보겠다. 1. 서울 열린 데이터 광장 > http://data.seoul.go.kr/index.jsp 우리동네 공공데이터를 최초 개방합니다. 서울시의 모든 공공데이터를 개방합니다. 경제에 도움이 되는 서울시 공공 정보가 펑펑 쏟아집니다. 이 세가지의 글이 가장 먼.. 2014. 1. 29.
[BIGDATA] 빅데이터의 시각화(bigdata visualization) 빅데이터(bigdata)의 시각화 빅데이터의 시각화(bigdata visualization)가 무슨말인가? 간단하게 설명하면 빅데이터를 분석하면 고객이나 상대가 원하는 분석결과를 추출할 것이다. 이 분석결과를 누가 봐도 한눈에 쉽게 이해할 수 있게 도표나 그림 같은 시각적 수단을 통하여 정보를 효과적으로 전달하는 것을 말하는 것이다. 각종 통계 컨퍼런스에서도 빅데이터의 시각화가 자주 거론 되고 있다. 충북대학교 정보통계학과/비즈니스데이터융합학과 나종화 교수님의 말씀 : 하드웨어는 사면 된다. 하지만 분석결과를 시각화 하는 것은 각종 지식과 경험이 필요하며, 부가적인 가치가 높기 때문에 살 수가 없다. 그렇기 때문에 빅데이터에서의 시각화는 매우 중요하다. 시각화의 대표적인 예를 아래 그림을 통해 알아보자... 2013. 12. 6.
[Statistics, 통계] 변수(variable) 변수 : 하나 이상의 자료값을 갖는 것 위의 그림처럼 빨간부분이 변수이고, 파란부분이 각 변수들에 대한 측정값인 변수값 또는 관측치라고 한다. 예를 들어 기초통계학 과목을 수강하는 100명의 학생들에 대하여 키와 몸무게를 측정한 데이터가 있다고 하면 키와 몸무게는 변수이고, 학생들에 대한 키와 몸무게의 측정값(ex: 180,78)들은 변수값(관측치)이 되는 것이다. 데이터베이스 분야에서는 변수에 대응하는 개념으로 필드(Field)라는 용어를 사용하기도 한다. www.sasbigdata.com 김진휘 2013. 11. 28.
[Statistics, 통계] 통계적 자료분석 단계 자료(data)를 가지고 통계적으로 분석을 할 때 어떠한 단계를 통하여 분석을 하게 되는지 알아 보자. 1. 자료의 수집단계 통계적 자료 분석을 시행하기 위해서는 우선적으로 분석 목적에 적합한 자료를 수집하는 것이 매우 중요하다. 2. 자료의 입력단계 분석목적에 맞게 자료를 입력하는데 대부분 통계패키지는 패키지별 고유의 자료 입력 양식을 가지고 있다. 3. 입력자료의 확인 자료의 입력 후 원하는 양식으로 입력이 되었는지 확인을 한다. 통계패키지 출력결과와 원본을 대조하여 확인하는 것이 가장 이상적이고 정확하지만 데이터의 양이 많을수록 현실적으로 불가능하기 때문에 요약통계량(빈도,평균,최소,최대등)을 이용해 대략적으로 확인해 볼 수 있다. 4. 적절한 통계적 모형 설정 분석전 산점도, 히스토그램, 탐색적 .. 2013. 11. 27.
[BIGDATA] 데이터 사이언티스트(data scientist) 스탠퍼드대의 경제경영대학원 애티교수는 '수학과 통계학이 현대 경제의 영역 대부분에서 이처럼 중요해진 적은 없다'고 평가 현재 통계학과 및 데이터정보학과를 중심으로 컴퓨터공학, 수학, 경제학과, 산업공학과, 의과대학등 다양한 전공 출신들이 데이터 사이언티스트(data scientist)로 활동하고 있다. 데이터 사이언티스트(data scientist)는 방대한 데이터에서 새로운 가치를 만들어 내는 일을 주로 하기 때문에 이공계 분야의 지식뿐만이 아닌 인문과학, 사회과학등 다양한 분야의 전문성을 필요로 한다. 데이터 사이언티스트(data scientist)는 통찰력이 있어야 한다. 그 이유는 기존의 데이터 분석뿐만 아닌 한 단계 더 발전하여 새로운 가치를 창출하는 일들을 하기 때문이다. 넘쳐나는 빅데이터(b.. 2013. 11. 21.