본문 바로가기

전체 글163

[Statistics, 통계] 통계적 자료분석 단계 자료(data)를 가지고 통계적으로 분석을 할 때 어떠한 단계를 통하여 분석을 하게 되는지 알아 보자. 1. 자료의 수집단계 통계적 자료 분석을 시행하기 위해서는 우선적으로 분석 목적에 적합한 자료를 수집하는 것이 매우 중요하다. 2. 자료의 입력단계 분석목적에 맞게 자료를 입력하는데 대부분 통계패키지는 패키지별 고유의 자료 입력 양식을 가지고 있다. 3. 입력자료의 확인 자료의 입력 후 원하는 양식으로 입력이 되었는지 확인을 한다. 통계패키지 출력결과와 원본을 대조하여 확인하는 것이 가장 이상적이고 정확하지만 데이터의 양이 많을수록 현실적으로 불가능하기 때문에 요약통계량(빈도,평균,최소,최대등)을 이용해 대략적으로 확인해 볼 수 있다. 4. 적절한 통계적 모형 설정 분석전 산점도, 히스토그램, 탐색적 .. 2013. 11. 27.
[BIGDATA] 정부3.0과 통계의 역할 2013년 11월 29일(금) 건설회관(논현동) 2층 중회의실에서 통계청 주최, 한국통계진흥원에서 주관하는 정부 3.0과 통계의 역할에 대한 국가통계활용도 제고를 위한 컨퍼런스가 진행됩니다. 공공데이터 활용 확산 방안 및 빅데이터와 통계교육의 변화에 따른 컨퍼런스이니 관심있으신 분들은 컨퍼런스에 참가해보시기 바랍니다. 참가방법은 한국통계진흥원에 접속하셔서 사전참가등록을 하셔야 참석이 가능하십니다. sasbigdata.com 2013. 11. 26.
[SAS] SAS를 이용해 데이터셋의 변수마다 원하는 소수점자리 지정하기 SAS를 하다보면 EXCEL에 비해서 소수점자리 맞추는 것이 상대적으로 조금 까다로운 편이다. 변수들은 많은데 변수들 마다 각각 원하는 소수점 자리수를 지정할 수는 없을까? 가능하다. 변수마다 원하는 소수점 자리수를 지정하는 방법을 알아 보도록 하자. 주석을 참고하며 코딩을 보면 이해에 도움이 될 것이다.(초록색 글씨) a라는 데이터 셋이 있는데 숫자값들이 제각각이다. 이들을 변수별로 원하는 소수점 자리수를 지정하여 출력해 보는 작업이다. 위의 그림은 ace, k, j, h라는 4개의 변수가 있는데 변수 k와 j는 소수점 셋째자리까지 출력하겠다. 변수 h는 소수점 둘째자리까지 출력하겠다.라고 정의하고 실행후 출력한 화면이다. 만약 포멧에서 지정하지 않은 변수는 원래 값 그대로 출력이 된다. sasbigd.. 2013. 11. 26.
[Statistics, 통계] 중심극한정리(Central Limit Theorem) 통계에서 가장 중요한 정리중 하나인 중심극한정리(Central Limit Theorem)에 대해서 알아보자. 중심극한정리(Central Limit Theorem) 평균이 뮤이고 분산이 시그마 제곱인 모집단에서 표본의 크기가 n인 확률표본의 표본평균은 n이 충분히 크면 근사적으로 정규분포를 따르게 된다. 모집단이 정규분포이면 표본의 크기에 상관없이 표본평균의 분포는 정규분포이다. 모집단이 정규분포가 아니더라도 표본의 크기가 30이상이 되면 표본평균의 분포가 모집단의 분포와 상관없이 n이 커짐에 따라 정규분포에 근사해 진다. 표본이 아닌 표본평균입니다. 표본평균이 가장 중심극한정리에서 핵심단어이니 확실히 알아두시길 바랍니다. sasbigdata.com 김진휘 2013. 11. 25.
[SAS] SAS에서 EXCEL 파일, 데이터 가져오기 오류 해결 방법 SAS에서 파일 - 데이터 가져오기 - EXCEL 자료를 불러 올때 오류가 생기는 경우가 있다. 이 경우 대부분 원인을 찾지 못하고 텍스트로 변환시키던지 다른 방법을 통해 가져온다. 클릭을 통해 쉽게 가져오는 방법이 있는데 원인을 찾아 고칠 생각은 하지 않고 다른 방법으로 가져오는데 오늘 그 원인을 해결하는 방법을 스크린샷과 함께 아주 쉽게 파헤쳐 보자. SAS9.1버젼을 기준으로 작성하였으며, 쉽게 설명하기 위해 많은 사진 첨부로 인해 스크롤 압박이 있습니다. 1. 아래 그림처럼 이런 문제가 생길 것이다. 원인 해결을 통해 이 오류를 잡아보자. 2. SAS 설치파일인 setup아이콘을 더블클릭한다. 3. 설치 언어 선택창이 뜰 것이다. 우리는 한국인이니깐 한국어를 선택합니다. 각자 원하는 언어 선택후 .. 2013. 11. 25.
[BIGDATA] 빅데이터(bigdata) 패션업계에도 침투 빅데이터(bigdata)가 이용되지 않는 곳은 없다. 패션업계에서도 빅데이터 분석을 도입하고 있다고 한다. 윌스트리트저널 최근 각종 의류 업체들이 새로운 유행에 뒤쳐지지 않기 위해 빅데이터 전문 분석 업체의 문을 두드리고 있다. 빅데이터(bigdata) 분석의 주된 핵은 IT계열 분야였다. 하지만 빅데이터(bigdata)의 중요성이 커지면서 자연스럽게 빅데이터(bigdata)의 시장영역 또한 광범위하게 확대 되면서 패션업계까지 영향을 미치게 된 것이다. 빅데이터(bigdata) 분석업체에서는 IT분야 업체 고객을 주력으로 분석해왔으나 시장영역이 급속도로 확장되면서 새로운 시장들이 생기고 호황을 누릴 수 밖에 없게 된 것이다. 이 전문업체들은 패션 업계를 타겟으로 급속도로 변하는 시대에 방대한 정보를 분석.. 2013. 11. 22.
[BIGDATA] 빅데이터(bigdata) 차세대 10대 기술로 선정 세계경제포럼, 정부 지식경제부, 시장조사전문업체 가트너등 많은 곳에서 빅데이터(bigdata)를 차세대 10대 기술 중 하나로 손꼽았다. 이 말의 의미는 그만큼 빅데이터의 중요성이 커지고 있다는 것이다. 21세기의 원유라고도 비유되는 빅데이터(bigdata)에 대하여 기관과 기업, 보건, 의학, 광고 마케팅, 스포츠, 에너지, 범죄예방등 모든 영역으로 확산되고 있는 실정이다. 그리고 결정적인 의사결정을 내릴 경우 패턴과 분석등을 통해 검증을 요구하기 때문에 빅데이터에 대한 의존도는 더욱더 커지고 있다. 기술조사 업체 IDC 2020년 한 해에 생성되는 디지털 데이터 분량은 40조 기가바이트(4만 엑사바이트)로 2005년 대비 300배 이상 급증할 것으로 추정 즉, 전문가들은 기업의 매니지먼트에서 빅데이터.. 2013. 11. 22.
[BIGDATA] 퀀트(금융데이터 분석가)시대 이후 빅데이터(bigdata) 데이터 사이언티스트(data scientist) 시대 퀀트(Quantitative Analyst, 금융 데이터 분석가) 1980~90년대에 뉴욕의 윌스트리트에서 퀀트(Quantitative Analyst, 금융 데이터 분석가)가 주목을 받기 시작하자 시대에 맞추어 각 대학들이 금융공학 관련 학과들을 개설하기 시작하였다. 현재 빅데이터(bigdata)와 데이터 사이언티스트(data scientist)가 주목을 받기 시작하자 국외를 비롯해 국내에서도 빠르게 빅데이터 학과, 데이터사이언스 학과 및 대학원들이 급속도로 개설되고 있다. 기존의 통계학과나 데이터정보학과에서도 빅데이터를 다룰 수 있는 프로그램 과목을 중요시 여기고 있으며, 국가에서도 데이터사이언스들을 육성하기 위해 교육 및 컨퍼런스, 세미나가 열리고, 자격증 또한 생길 예정이다. 전문가들은 퀀트시대보다.. 2013. 11. 22.
[BIGDATA] 데이터 사이언티스트(data scientist) 스탠퍼드대의 경제경영대학원 애티교수는 '수학과 통계학이 현대 경제의 영역 대부분에서 이처럼 중요해진 적은 없다'고 평가 현재 통계학과 및 데이터정보학과를 중심으로 컴퓨터공학, 수학, 경제학과, 산업공학과, 의과대학등 다양한 전공 출신들이 데이터 사이언티스트(data scientist)로 활동하고 있다. 데이터 사이언티스트(data scientist)는 방대한 데이터에서 새로운 가치를 만들어 내는 일을 주로 하기 때문에 이공계 분야의 지식뿐만이 아닌 인문과학, 사회과학등 다양한 분야의 전문성을 필요로 한다. 데이터 사이언티스트(data scientist)는 통찰력이 있어야 한다. 그 이유는 기존의 데이터 분석뿐만 아닌 한 단계 더 발전하여 새로운 가치를 창출하는 일들을 하기 때문이다. 넘쳐나는 빅데이터(b.. 2013. 11. 21.
[BIGDATA] 빅데이터 전문가(Bigdata Specialist) 데이터 사이언티스트(Data Scientist) 데이터(Data)의 쓰나미 속에서 기업에 돈이 되는 정보를 추출해내는 '데이터 사이언티스트(Data Scientist)'가 미국을 중심으로 전세계 인기 직업으로 뜨고 있다. 인터넷 보급과 소셜 네트워크 서비스(SNS)의 확산 등으로 기업 및 정부 등이 수집하는 데이터 양이 폭증하고 있지만 이를 분석할 전문적인 인력은 부족하다. '빅데이터(bigdata) 전문가는 귀하신 몸' 위와 같은 제목의 기사들이 터져 나오고 있으며, 국내 빅데이터 시장에서 빅데이터 전문가를 찾기가 상당히 어렵다는 것이다. 빅데이터 전문가의 수요와 필요성 * 컨설팅 업체인 맥킨지 글로벌 인스티튜트(McKinsey Global Institute) - 2020년까지 미국에서만 필요한 데이터 사이언티스트(Data Scientist)등 전문.. 2013. 11. 20.
[BIGDATA] 빅데이터(bigdata)란 무엇인가? 빅데이터(bigdata)란 무엇인가? IBM에 따르면 현재 우리는 하루에 250경 바이트 이상의 데이터를 생성하고 있다. 시간이 지날수록 데이터(data)의 양은 기하급수적으로 증가 할 것이다. SNS댓글부터 사진, 동영상, 거래 내역등 모든 것이 데이터라고 할 수 있다. 그렇기에 우리는 살아가면서 자신도 모르는 사이에 데이터를 지속적으로 생성하고 있는 것이다. 지금 내가 이 글을 쓰고 게시하는 것도 데이터의 생성이라고 볼 수 있다. 이렇게 쌓여가는 엄청난 방대한 양의 데이터들의 집합체를 빅데이터(bigdata)라고 한다. 빅데이터(bigdata)는 처음 Volume(양), Velocity(속도), Variety(다양성)이 세가지를 V3로 대부분 정의 하였다. 하지만 지금은 Veracity(정확성, 진실.. 2013. 11. 20.
[SAS] SAS 국제 공인 자격증 취득에 대해서 SAS에도 역시나 자격증이란게 존재합니다. SAS 국제자격증의 종류에 대해서 사진으로 간단하게 알아봅시다. [ SAS 국제자격증의 종류 ] SAS 국제자격증 종류는 여러 종류가 있는데 일반적으로 가장 먼저 취득하는 자격증이 SAS Foundation의 SCBP - SAS Certified Base Programmer for SAS 9 그냥 편하게 sas base자격이라고 하는데 통계학 전공자나 데이터관련 전공자들은 많이 도전하는 자격이다. 나또한 SCBP는 대학시절 국제자격증의 로망으로 인해 취득하였다. 딱히 큰 메리트는 없는 듯 싶다... 그다음 연계해서 도전하는 것이 SCAP - SAS Certified Advanced Programmer for SAS 9 이것 또한 그냥 sas advanced라고 .. 2013. 11. 19.