본문 바로가기

BigData74

[SAS] SAS를 이용해 데이터 중복제거하기 proc sql 사용 SAS데이터를 핸들링 하면서 가장 많이 하는 작업중 하나가 중복제거 작업입니다. 보통 가장 일반적으로 사용하는 것이 proc sort에서 nodupkey를 옵션으로 걸어서 사용을 많이합니다. 그렇다면 중복제거가 proc sort의 nodupkey만 있는 것이냐? 아니다! proc sql의 distinct문이 있다. 그런데 왜 두개가 따로 있는것인가? 뭐 따지고 보자면 중간의 정렬과정인 sorting작업이 sql에서는 해줄 필요가 없기때문에 sql문에 아마도 대용량 데이터에서는 더 빠른 처리 결과를 낼 것이다. 그럼 proc sql의 distinct를 이용하여 데이터의 중복제거를 하는 방법을 알아보자. 아래와 같이 중복이 있는 데이터 셋을 생성하였다. 위의 5개변수와 10개의 관측치를 가진 데이터를 이용하.. 2013. 11. 18.
[BIGDATA] bigdata(빅데이터)의 정의 3V, 4V, 5V에 대하여 Bigdata(빅데이터)라는 신조어가 생기면서 Bigdata를 어떻게 정의를 할 것이냐를 두고 말이 많다. 가장 처음 나온게 3V - volume(양), variety(다양성), velocity(속도) 라고 대부분 정의하였다. 하지만 시간이 흐르면서 추가되기 시작하였고... 지금은 5V까지 나와서 말이 많다. 간단하게 흐름을 알아보자. 위의 구조처럼 처음 3V를 시작으로 4V 그리고 지금 5V까지 Bigdata의 정의에 대해 말이 나오고 있다. 4V에서 Veracity(진실성, 정확성)를 추가한 경우와 Value(가치)를 추가한 두가지 경우가 대립하게 되었고, 결국에는 이 모든 것을 포함해 5V가 나오게 된 것이다. IBM에서는 Veracity를 추가해 4V로 bigdata(빅데이터)를 설명하고 있다. .. 2013. 11. 18.