본문 바로가기

통계30

[BIGDATA] 빅데이터(bigdata) 패션업계에도 침투 빅데이터(bigdata)가 이용되지 않는 곳은 없다. 패션업계에서도 빅데이터 분석을 도입하고 있다고 한다. 윌스트리트저널 최근 각종 의류 업체들이 새로운 유행에 뒤쳐지지 않기 위해 빅데이터 전문 분석 업체의 문을 두드리고 있다. 빅데이터(bigdata) 분석의 주된 핵은 IT계열 분야였다. 하지만 빅데이터(bigdata)의 중요성이 커지면서 자연스럽게 빅데이터(bigdata)의 시장영역 또한 광범위하게 확대 되면서 패션업계까지 영향을 미치게 된 것이다. 빅데이터(bigdata) 분석업체에서는 IT분야 업체 고객을 주력으로 분석해왔으나 시장영역이 급속도로 확장되면서 새로운 시장들이 생기고 호황을 누릴 수 밖에 없게 된 것이다. 이 전문업체들은 패션 업계를 타겟으로 급속도로 변하는 시대에 방대한 정보를 분석.. 2013. 11. 22.
[BIGDATA] 빅데이터(bigdata) 차세대 10대 기술로 선정 세계경제포럼, 정부 지식경제부, 시장조사전문업체 가트너등 많은 곳에서 빅데이터(bigdata)를 차세대 10대 기술 중 하나로 손꼽았다. 이 말의 의미는 그만큼 빅데이터의 중요성이 커지고 있다는 것이다. 21세기의 원유라고도 비유되는 빅데이터(bigdata)에 대하여 기관과 기업, 보건, 의학, 광고 마케팅, 스포츠, 에너지, 범죄예방등 모든 영역으로 확산되고 있는 실정이다. 그리고 결정적인 의사결정을 내릴 경우 패턴과 분석등을 통해 검증을 요구하기 때문에 빅데이터에 대한 의존도는 더욱더 커지고 있다. 기술조사 업체 IDC 2020년 한 해에 생성되는 디지털 데이터 분량은 40조 기가바이트(4만 엑사바이트)로 2005년 대비 300배 이상 급증할 것으로 추정 즉, 전문가들은 기업의 매니지먼트에서 빅데이터.. 2013. 11. 22.
[BIGDATA] 퀀트(금융데이터 분석가)시대 이후 빅데이터(bigdata) 데이터 사이언티스트(data scientist) 시대 퀀트(Quantitative Analyst, 금융 데이터 분석가) 1980~90년대에 뉴욕의 윌스트리트에서 퀀트(Quantitative Analyst, 금융 데이터 분석가)가 주목을 받기 시작하자 시대에 맞추어 각 대학들이 금융공학 관련 학과들을 개설하기 시작하였다. 현재 빅데이터(bigdata)와 데이터 사이언티스트(data scientist)가 주목을 받기 시작하자 국외를 비롯해 국내에서도 빠르게 빅데이터 학과, 데이터사이언스 학과 및 대학원들이 급속도로 개설되고 있다. 기존의 통계학과나 데이터정보학과에서도 빅데이터를 다룰 수 있는 프로그램 과목을 중요시 여기고 있으며, 국가에서도 데이터사이언스들을 육성하기 위해 교육 및 컨퍼런스, 세미나가 열리고, 자격증 또한 생길 예정이다. 전문가들은 퀀트시대보다.. 2013. 11. 22.
[BIGDATA] 빅데이터 전문가(Bigdata Specialist) 데이터 사이언티스트(Data Scientist) 데이터(Data)의 쓰나미 속에서 기업에 돈이 되는 정보를 추출해내는 '데이터 사이언티스트(Data Scientist)'가 미국을 중심으로 전세계 인기 직업으로 뜨고 있다. 인터넷 보급과 소셜 네트워크 서비스(SNS)의 확산 등으로 기업 및 정부 등이 수집하는 데이터 양이 폭증하고 있지만 이를 분석할 전문적인 인력은 부족하다. '빅데이터(bigdata) 전문가는 귀하신 몸' 위와 같은 제목의 기사들이 터져 나오고 있으며, 국내 빅데이터 시장에서 빅데이터 전문가를 찾기가 상당히 어렵다는 것이다. 빅데이터 전문가의 수요와 필요성 * 컨설팅 업체인 맥킨지 글로벌 인스티튜트(McKinsey Global Institute) - 2020년까지 미국에서만 필요한 데이터 사이언티스트(Data Scientist)등 전문.. 2013. 11. 20.
[SAS] SAS 국제 공인 자격증 취득에 대해서 SAS에도 역시나 자격증이란게 존재합니다. SAS 국제자격증의 종류에 대해서 사진으로 간단하게 알아봅시다. [ SAS 국제자격증의 종류 ] SAS 국제자격증 종류는 여러 종류가 있는데 일반적으로 가장 먼저 취득하는 자격증이 SAS Foundation의 SCBP - SAS Certified Base Programmer for SAS 9 그냥 편하게 sas base자격이라고 하는데 통계학 전공자나 데이터관련 전공자들은 많이 도전하는 자격이다. 나또한 SCBP는 대학시절 국제자격증의 로망으로 인해 취득하였다. 딱히 큰 메리트는 없는 듯 싶다... 그다음 연계해서 도전하는 것이 SCAP - SAS Certified Advanced Programmer for SAS 9 이것 또한 그냥 sas advanced라고 .. 2013. 11. 19.
[SAS] SAS를 이용해 데이터 중복제거하기 proc sql 사용 SAS데이터를 핸들링 하면서 가장 많이 하는 작업중 하나가 중복제거 작업입니다. 보통 가장 일반적으로 사용하는 것이 proc sort에서 nodupkey를 옵션으로 걸어서 사용을 많이합니다. 그렇다면 중복제거가 proc sort의 nodupkey만 있는 것이냐? 아니다! proc sql의 distinct문이 있다. 그런데 왜 두개가 따로 있는것인가? 뭐 따지고 보자면 중간의 정렬과정인 sorting작업이 sql에서는 해줄 필요가 없기때문에 sql문에 아마도 대용량 데이터에서는 더 빠른 처리 결과를 낼 것이다. 그럼 proc sql의 distinct를 이용하여 데이터의 중복제거를 하는 방법을 알아보자. 아래와 같이 중복이 있는 데이터 셋을 생성하였다. 위의 5개변수와 10개의 관측치를 가진 데이터를 이용하.. 2013. 11. 18.
[BIGDATA] bigdata(빅데이터)의 정의 3V, 4V, 5V에 대하여 Bigdata(빅데이터)라는 신조어가 생기면서 Bigdata를 어떻게 정의를 할 것이냐를 두고 말이 많다. 가장 처음 나온게 3V - volume(양), variety(다양성), velocity(속도) 라고 대부분 정의하였다. 하지만 시간이 흐르면서 추가되기 시작하였고... 지금은 5V까지 나와서 말이 많다. 간단하게 흐름을 알아보자. 위의 구조처럼 처음 3V를 시작으로 4V 그리고 지금 5V까지 Bigdata의 정의에 대해 말이 나오고 있다. 4V에서 Veracity(진실성, 정확성)를 추가한 경우와 Value(가치)를 추가한 두가지 경우가 대립하게 되었고, 결국에는 이 모든 것을 포함해 5V가 나오게 된 것이다. IBM에서는 Veracity를 추가해 4V로 bigdata(빅데이터)를 설명하고 있다. .. 2013. 11. 18.
[SAS] SAS를 이용해 두개의 데이터셋의 변수들이 일치하는 기준으로 merge해서 붙이기 SAS를 이용해 두개의 데이터셋의 변수들이 일치하는 기준으로 merge해서 붙이기 이게 무슨 말인가? 두개의 데이터셋이 있는데 변수들의 값이 일치하는 것끼리 붙여버리는 것입니다. 말로 설명하는데는 한계가 있으니 사진을 참고 하시기 바랍니다. ex1과 ex2라는 두개의 데이터 셋이 있습니다. 같은 변수도 있고 다른 변수들도 있는데~ key와 name이라는 변수들이 일치하는 기준으로 두개의 데이터셋을 하나로 합치는 것입니다. ex3을 보시면 제대로 붙었다는 것을 확인 할 수가 있습니다. sort와 merge는 자주 사용하는 것이니 잘 알아두시면 유용하게 쓰일거라 생각됩니다. 2013. 11. 15.
[My Story] SAS와 커뮤니케이션 스킬 SAS에 대한 글을 작성 할 때 마다 항상 고민이 됩니다. 주어진 데이터에 대해 설명을 하고 거기에 대한 코딩 해석과 정보에 대해 전달을 하고 싶지만 이 모든 것을 그림과 텍스트를 통해서 전달하려니 이만 저만 어려운 것이 아닙니다. 업무를 진행하면서도 통계와 SAS에 대해 잘 모르는 사람과 일을 할 시에 상대가 요구하는 것이 무엇인지 정확하게 파악하는 것이 중요한데 상대도 SAS의 구조에 대해 잘 모르니 이렇게? 저렇게?해서 해달라고 요청을 하지만 중간에 말 한마디 전달이 잘못되면 작업을 다시 해야되는 경우가 많습니다. 그만큼 커뮤니케이션 스킬이 중요한 것 같습니다. 지금은 이 블로그도 시작단계이기 때문에 제가 전달하고자 하는 정보가 100% 전달되지는 않을 것입니다. 앞으로 지속적으로 발전하여 SAS,.. 2013. 11. 15.
[SAS] SAS를 이용해 joinkey별로 code에 중복자료가 있을시 모두 출력하기 SAS를 이용해서 joinkey별로 code에 중복자료가 있을 경우 중복된 값 뿐만 아닌 중복값에 해당하는 joinkey데이터를 모두 불러오는 방법을 알아 보도록 하겠습니다. 위의 사진과 같이 데이터가 조인키별로 코드가 있는 데이터가 있습니다. 만약 조인키별 코드가 중복값이 있을 경우 그에 해당하는 조인키에 대한 관측치 모두를 출력해 보도록 하겠습니다. 위와 같이 sas 코딩 후 실행을 시키면 코드중복이 있는 조인키에 대한 모든 값들을 출력할 수가 있습니다. 조인키 3과 4는 코드가 중복된 것이 없기에 출력이 되지 않습니다. statsbigdata.com 김진휘 2013. 11. 15.
[SAS] SAS를 이용해 joinkey별 동일한 code의 갯수를 비교후 많은 것들만 출력 SAS를 이용해서 조인키별로 동일한 code값을 많이 가진 값만 데이터를 출력하는 방법이다. 바로 앞에 게시했던 데이터를 이용하며, 연결되어 코딩을 실시하였다. http://statsbigdata.com/13 코딩은 위의 게시글과 연결된다고 보면 된다. 위와 같은 데이터와 조건을 가지고 출력결과와 같이 데이터를 생성해 보고자 한다. 코딩을 해보자. 저번 게시글의 코딩에서 연결된 것이다. 이번 게시글에 관련된 코딩은 주석으로 표시한 두번째 데이터셋 관련 코드이다. 당연히 실행하기 위해서는 연결된 것이니 코딩은 전체적으로 다 입력해야하겠죠?? 위의 사진과 같이 조인키별 코드가 많은 것에 대한 각각의 값들을 출력해 보았다. statsbigdata.com 김진휘 2013. 11. 15.
[SAS] SAS를 이용해 조인키별로 그룹에 대해 값과 합계 구하기 SAS를 이용해서 조인키(joinkey)별로 코드의 갯수가 많은 것에 대한 값의 합계를 구해보자. 위와 같은 데이터가 주어진다면 오른쪽 출력결과와 같이 joinkey별로 동일한 code의 갯수를 비교후 많은 code에 대한 값(amt)의 합계를 출력해 보는 것이다. 위와 같이 코딩하면 스크린샷처럼 조인키별 코드값이 큰 것들에 대한 amt의 합계를 출력할 수 있다. statsbigdata.com 김진휘 2013. 11. 15.