본문 바로가기
popo의 갓생살기 프로젝트/빅데이터 분석기사

[빅데이터분석기사 기출11] 파생변수와 변수변환(로그/지수변환, 비닝, 더미변수화, 스케일링)

by popodailylife 2023. 2. 12.

데이터를 사용할 때에는 분석 기획에 맞도록 적절하게 변수를 재정의하거나, 분석방법에 맞게 변수를 연속형 또는 범주형 데이터로 변환하는 과정이 필요하다. 오늘 포스팅에서는 파생변수 생성방법과 변수변환 방법을 살펴봄으로써 필요한 데이터를 처리하는 방법을 공유하고자 한다.


파생변수

정의 : 기존 변수에 함수, 조건문 등을 사용하여 재정의한 변수

파생변수 생성 방법

1. 변수 분해 : 기존 데이터를 분해하여 일부만 사용하는 방법 ex) '서울특별시마포구' → '서울특별시' 

2. 변수 결합 : 두 개 이상의 변수를 결합하여 사용하는 방법 ex) 키, 몸무게, 나이 데이터를 이용하여 비만도 계산

3. 조건문 사용 : 특정 조건에 따라 기존변수를 재정의하는 방법

                       ex) 성적데이터를 90점 이상이면 A, 80~90점이면 B, 70~80점이면 C, 70점 미만은 D로 계산

 


변수변환 방법

1. 로그/지수 변환 : 한쪽으로 치우친 변수는 로그/지수로 변환하여 분석모형을 적합하게 변환한다.

2. 비닝(Binning) : 연속데이터를 범주형으로 변환하기 위해서는 데이터를 몇개의 Bin으로 분할아여 계산한다.

3. 더미 변수화 : 범주형데이터를 연속데이터로 변환하기 위해서는 변수 별로 값이 있을 경우에는 1로, 없으면 0으로 표시한 더미변수들을 만들어서 사용한다.

4. 스케일링 : 데이터를 특정 구간으로 바꾸는 척도법으로, 최소-최대 정규화 방법과 z-score 정규화 방법이 있다.

   1) 최소-최대 정규화 방법 : 데이터의 가장 작은 값을 0, 가장 큰 값을 1로 두고 나머지 값들은 비율에 따라 0과 1사이의 값으로 스케일링 하는 방법으로, (x - 최소값) / (최대값 - 최소값) 으로 계산한다. 최소-최대 정규화 방법은 이상치에 최약하다는 단점이 있다.

   2) z-score 정규화 방법 : 평균을 0, 분산 및 표준편차를 1로 만들어 데이터를 변환하는 방법으로, (x - 평균) / (표준편차)로 계산한다. 이에 따라 평균보다 작으면 음수, 평균보다 크면 양수로 나타난다.