popo의 갓생살기 프로젝트/빅데이터 분석기사

[빅데이터분석기사 기출9] 데이터 전처리 및 데이터 정제

popodailylife 2023. 2. 9. 23:18

 

지난 포스팅까지 빅데이터 분석 기획 파트를 올렸다면, 오늘부터는 새로운 파트인 빅데이터 탐색 부분 시작이다. 빅데이터분석기사를 공부하는 후기들을 살펴보면, 보통 파트1부분은 쉬운 부분이고, 파트2부터는 통계적인 지식이 필요하기 때문에 전공자와 비전공자에 따라서 난이도를 다르게 느낄 수 있다고 한다. 나 역시 포스팅을 위해서 미리 공부를 해본 결과, 파트1은 단순 암기로 해결이 가능하다면, 파트2는 개념에 대한 이해가 가미되어야 한다고 많이 느꼈다. 나는 내 스스로 반전공자라고 생각하기 때문에, 빅데이터 탐색 부분에서 역시 기출에 나온 개념을 소개하면서도, 중간 중간에 추가적인 설명이 필요한 부분은 길게 부연설명을 하고자 한다.


1. 데이터 전처리(Preprocessing)

: 데이터를 정제한 후 분석변수를 처리하는 과정으로 데이터 분석을 위해서 필수적으로 수행해야 하는 단계이다.

 - 데이터 전처리 과정에서 오류가 발생할 경우 데이터 분석 전체의 신뢰성을 떨어트리는 문제점이 있기 때문에, 오류가 발생하지 않도록 분석결과에 따라서 데이터 전처리를 반복적으로 수행하기도 한다.

 - 데이터 전처리의 종류는 데이터 정제, 데이터 통합, 데이터 변환, 데이터 축소, 데이터 이산화 등이 있다.

 

2. 데이터 정제(Cleansing)

: 데이터 전처리 과정 중 하나로, 데이터 분석을 시작하기 전에 오류를 일으킬 수 있는 결측값을 대체/제거하여 처리하는 과정이다.   - 데이터 정제를 통해 데이터 분석 결과의 오류를 방지하고 신뢰도를 높일 수 있다.

 

3. 데이터 정제가 필요한 값

결측값과 이상값의 차이점, 각각의 처리 방법을 알고 있어야 한다

  1) 결측값(Missing Value)

: 영어로 miss 했다는 것처럼, 필수적인 데이터가 누락된 값

 - 처리방법 : 데이터를 제거하거나, 결측값을 중심경향성 통계량(평균, 최빈값 등)으로 대체

 - 예를 들어, '이름 / 나이 / 성별 / 지역'을 나타내는 데이터셋에서 '홍길동 /      / 남성 / 서울시' 와 같이 나이에 대한 결측값을 가진 데이터를 발견했다. 이 경우, 데이터 자체를 삭제하거나, 비어있는 나이 값을 다른 데이터들의 평균 나이값으로 대체해서 쓸 수 있다.

  2) 이상값(Outier)

: 일반적인 데이터 값의 범위를 벗어난(out한) 값

 - 주로 데이터 수집시 측정 과정이나 입력 과정에서의 오류에서 발생한다

 - 처리방법 : 값이 상한보다 높으면 상한값으로, 하한보다 낮으면 하한값으로 대체하여 처리