본문 바로가기

분류 전체보기163

[R프로그램] R 프로그램 설치방법 알아보기 R 설치방법, R프로그래밍 설치하는 방법. R프로그래밍이 무료이고 다운받아서 해보고 싶은데 사이트가 영어에 다운받기가 복잡하다. R을 어떻게 다운 받고 설치하는지 쉽게 알아 보자. 1. www.r-project.org R의 공식홈페이지에 접속한다. 그러면 위의 사진과 같은 홈페이지가 나타난다. 2. 왼쪽에 카테고리가 나오는데 CRAN을 클릭한다. 3. 그러면 여러 국가와 그 밑에 사이트들이 나오게 되는데 각자에게 맞는 나라 밑의 사이트를 클릭한다. (ex) KOREA 밑에 있는 사이트 아무거나 클릭 4. [ Download and Install R ] - Download R for Linux - Download R for (Mac) OS X - Download R for Windows 이렇게 세가지가 나.. 2014. 1. 27.
[SAS] SAS ERROR : Utility file open failed ERROR : Utility file open failed NOTE : 오류가 발생하여 SAS 시스템은 현재 스텝의 실행을 중지합니다. WARNING : 데이터 셋 XXX 이(가) 불완전합니다. 이 스텝은 0개의 관측치와 x개의 변수가 있을 때 중단되었습니다. WARNING : 데이터셋 'XXX' 은(는) 현재 스텝의 종료(으)로 인하여 변경되지 않았습니다. SAS에서 빅데이터(BIGDATA)를 다루면서 가장 일반적으로 PROC SORT를 실행 할 시 볼 수 있는 에러가 ERROR : Utility file open failed 라는 문구이다. 프로그램 코딩에도 문제가 없으며, Sorting하려는 데이터도 문제가 없는데 에러가 떠서 혼란스러울 것이다. 유틸리티 파일을 여는데 실패했다고 하는데 무엇이 문제.. 2014. 1. 21.
[SAS] SAS수식 산술연산자 SAS에서도 덧셈, 뺄셈, 곱셈, 제곱, 나누기 등등 일반적인 연산이 가능하다. SAS 수식은 data단계에서 사용되며, SAS 시스템에서 정의된 연산자를 이용하여 SAS수식을 만들수가 있다. 연산의 우선순위는 수학연산 순위나 일반적인 컴퓨터 언어의 순위와 동일하다. 만약 결측치가 있는 값에 산술연산자를 사용할 시 결과는 결측치가 출력된다. 2014. 1. 20.
[SAS] SAS 로그창의 세가지 로그 유형(WARNING, ERROR, NOTE) SAS를 실행하면서 문제가 발생 했을 시에 어디가 잘못된 것인지 몰라서 헤매는 경우가 종종있다. 이런 사람들의 대부분은 로그창을 확인하지 않고, 로그창이 무엇을 표현하는지 모르는 경우가 많다. SAS를 실행하면 대표적으로 출력 창, 로그 창, 확장편집기 창 세가지로 창이 구분이 된다. 자세한 내용은 아래주소를 통해 참조하자. http://sasbigdata.com/8 로그 창에는 프로그램에 대한 경고라던지 오류 등에 대해 SAS를 실행할 때 일어나는 여러 가지 사항들을 출력하는 역할을 한다. 그러므로 코딩 후 프로그램을 실행하고 난 뒤 항상 출력창 확인 이전에 로그창을 먼저 확인하여 제대로 실행이 되었는지를 확인하는 습관이 매우 중요하다. 로그창에는 위의 사진처럼 WARNING, ERROR, NOTE 세.. 2013. 12. 12.
[SAS] SAS에서 숫자값이 십진수로 변경될 때 입력값 그대로 출력하기 SAS를 이용하다 보면 숫자값이 큰경우 자동으로 출력결과가 십진수로 변경되는 경우가 생긴다. 한자리수까지 정확한 수치를 보고 싶은데 십진수로 변환되어 곤란한 경우가 많다. 큰 숫자값이 십진수로 자동 변환될 경우 원래 입력값 그대로 출력하는 방법을 알아보자. 보통 위의 그림처럼 숫자값이 클 경우 오른쪽 결과처럼 십진수로 변경되어 출력됨을 자주 보게 된다. 이것을 입력한 값 그대로 출력시켜 보자. 가장 간단하게 proc print에서 format문을 사용한다. 그러면 결과가 위의 그림 오른쪽 부분처럼 입력했던 값 그대로 출력됨을 볼 수가 있다. 왜 17자리를 하였는가? 어디까지 가능한지 몇번 실험을 해보았는데 포맷문의 숫자 변환은 17자리 1경까지만 정확하게 나오며, 경단위를 넘어갈시 기준이 불분명하며 잘못.. 2013. 12. 11.
[SAS] SAS를 이용해 관측치 재배열(array) 기존의 데이터가 행을 기준으로 보면 1행, 2행 모두 크기 순도 아닌 임의의 데이터이다. 이런 데이터를 행 별로 크기가 큰 순서대로 다시 변수에 넣어 재배열 하고 싶다. sas를 이용해서 행별로 크기가 큰 순서대로 재배치 시켜보자. array와 call sortn을 통해 몇줄 안되는 코딩으로 간단하게 크기순으로 재배열 할 수가 있다. 행별로 관측치 값들을 크기순으로 변수에 재배치 하는 방법 추가수정) 위의 배열구문에서 array x{*} _all_; 구문은 없어도 되는 구문입니다.코딩중 실수로 들어갔네요. 배열의 괄호는 [], {}, () 이 세가지중 어떤 것을 사용하셔도 무방합니다. 관측치가 작은 값을 순으로 재배열하고 싶으신 경우에는 array y{*} a1-a7; 로 하시면 되고, 교과서적인 인과관.. 2013. 12. 11.
[BIGDATA] 빅데이터의 시각화(bigdata visualization) 빅데이터(bigdata)의 시각화 빅데이터의 시각화(bigdata visualization)가 무슨말인가? 간단하게 설명하면 빅데이터를 분석하면 고객이나 상대가 원하는 분석결과를 추출할 것이다. 이 분석결과를 누가 봐도 한눈에 쉽게 이해할 수 있게 도표나 그림 같은 시각적 수단을 통하여 정보를 효과적으로 전달하는 것을 말하는 것이다. 각종 통계 컨퍼런스에서도 빅데이터의 시각화가 자주 거론 되고 있다. 충북대학교 정보통계학과/비즈니스데이터융합학과 나종화 교수님의 말씀 : 하드웨어는 사면 된다. 하지만 분석결과를 시각화 하는 것은 각종 지식과 경험이 필요하며, 부가적인 가치가 높기 때문에 살 수가 없다. 그렇기 때문에 빅데이터에서의 시각화는 매우 중요하다. 시각화의 대표적인 예를 아래 그림을 통해 알아보자... 2013. 12. 6.
[SAS] sas를 이용해 두변수의 데이터 하나의 변수로 합치는 방법 각각 두개의 변수의 데이터들을 붙여서 하나의 변수 데이터로 만드는 방법입니다. 예를 들어 변수가 k1, k2, k3가 있습니다. k1의 데이터와 k2의 데이터를 붙여서 k라는 변수로 만들어 보겠습니다. 아래의 그림을 참조하시면 되겠습니다. jin이라는 데이터셋에는 k1,k2,k3 변수 세개가 있습니다. 그리고 아래의 사진과 같이 데이터들이 있는데 변수 k1과 변수 k2를 합쳐서 k라는 변수로 만들어 보겠습니다. retain은 변수들을 원하는 순서대로 나열해주는 명령어 입니다. keep은 원하는 변수만 나타내주는 명령어 입니다. compress는 공백을 제거해 주는 함수 입니다. k라는 변수를 생성하는데 k1과 k2 변수를 compress 시키고 ||라는 것이 두개의 데이터를 붙인다는 것입니다. || 이게.. 2013. 12. 3.
[BIGDATA] 정부 3.0과 통계의 역할 컨퍼런스 후기. 통계청.한국통계진흥원 2013년 11월 29일 논현동에 위치한 건설회관에서 정부 3.0과 통계의 역할이라는 주제로 컨퍼런스가 있어 참석하였다. 역시나 참석자 대부분은 빅데이터와 통계쪽에 직업을 가지고 있거나 관심있는 사람들 위주였다. 입구에 있길래 사진 한방 찍음. 목차는 아래와 같이 보기 편하게 PPT로 따로 만들었다. 개인적으로는 세션2 빅데이터 부분이 가장 관심이 높아 참석하였다. 전체적으로 발표내용은 공공데이터, 빅데이터, 통계, 교육 이렇게 4가지 단어로 표현 할 수 있겠다. 여기서도 volume(대규모), velocity(실시간 생성), variety(숫자, 문자, 영상) 3V로 빅데이터를 소개 하였고, 빅데이터 시각화 부분에서는 3V에 추가적으로 기업에서는 이윤을 추구하기 때문에 Value(가치)의 중요성을 말하.. 2013. 12. 3.
[BIGDATA] 빅데이터 자격증 데이터사이언티스트 국가공인자격 빅데이터(bigdata)라는 단어가 이슈가 되면서 데이터사이언티스트라는 직업도 함께 이슈가 되었다. 데이터사이언티스트(data scientist)를 양성해야되는데 이런 트렌드에 의해 파생되어 가장 빠르게 발생할 수 있는 것은? 역시나 그에 관련된 자격증이다. 미래창조과학부와 정보화진흥원은 2014년 빅데이터 분석에 필수적인 요소들에 대한 국가공인시험을 마련해 시범적으로 실시한 후 2015년에 미비점을 보완하여 데이터사이언티스트 국가공인시험을 본격 도입할 계획이라고 발표했다. 2015년 새로 생길 빅데이터 자격증 데이터사이언티스트 국가공인자격 그렇다면? 과연 기존의 현직에 있는 실무자들의 반응은? 실무자들이 가만히 두고 보고 있었겠는가? 역시나 난리가 났다. 개발자들의 반박 자격증이 필드에서 꼭 필요한지 .. 2013. 11. 28.
[Statistics, 통계] 자료의 종류(이산형 자료, 순서형 자료, 연속형 자료) 자료는 특성에 따라서 크게 3가지로 분류 할 수 있다. 자료의 종류는 크게 이산형 자료, 순서형 자료, 연속형 자료 세가지로 분류할 수 있다, 1. 이산형 자료(명목자료, 질적자료) 자료값이 양적인 크기가 아닌 속성이나 그룹을 나타내는 자료. 예를 들어 성별(남,여), 종교(불교, 기독교, 천주교), 지역(서울, 부산, 대전) 등을 나타내는 자료들이 속하며, 주로 그룹 분류시 이용된다. - 변수가 성별(gender)이면 관측치는 (남자=1, 여자=2) - 변수가 종교(religion)이면 관측치는 (불교=1, 기독교=2, 천주교=3) 2. 순서형 자료 서열이나 순위를 나타내는 자료. 시험점수를 석차로 나타낸 자료 또는 키가 큰 순서대로 배열, 몸무게가 많은 순으로 배열등 등위로 나타낸 자료가 속함. 원자.. 2013. 11. 28.
[Statistics, 통계] 변수(variable) 변수 : 하나 이상의 자료값을 갖는 것 위의 그림처럼 빨간부분이 변수이고, 파란부분이 각 변수들에 대한 측정값인 변수값 또는 관측치라고 한다. 예를 들어 기초통계학 과목을 수강하는 100명의 학생들에 대하여 키와 몸무게를 측정한 데이터가 있다고 하면 키와 몸무게는 변수이고, 학생들에 대한 키와 몸무게의 측정값(ex: 180,78)들은 변수값(관측치)이 되는 것이다. 데이터베이스 분야에서는 변수에 대응하는 개념으로 필드(Field)라는 용어를 사용하기도 한다. www.sasbigdata.com 김진휘 2013. 11. 28.