본문 바로가기
popo의 갓생살기 프로젝트/빅데이터 분석기사

[빅데이터분석기사 기출12] 클래스 불균형 데이터 처리방법(과소표집, 과대표집, SMOTE)

by popodailylife 2023. 2. 14.

 

가끔 통계자료들을 살펴보다보면, 표본이 작을수밖에 없는 변수들이 있다. 예를 들어, 내가 불법 콘텐츠 유통 사이트 이용과 관련해서 조사를 실시한다고 생각해보자. 대다수가 불법사이트를 이용한 적이 없다고 응답할 것이고, 소수는 실제 이용경험이 있다고 응답할 것이다. 이때 내가 관심있는 불법 사이트 이용자의 수가 적기 때문에 클래스 불균형이 발생한다.

오늘 포스팅에서는 이러한 클래스 불균형의 문제점을 해결하기 위한 방법으로 과소표집, 과대표집, SMOTE를 소개한다.


클래스 불균형

데이터의 각 클래스별 데이터 비율이 불균형하게 분포 되어 있는 것. 

 

불균형 데이터 처리 방법

1. 과소표집(Under-Sampling)

다수 클래스의 데이터를 무작위로 일부만 선택하여 데이터의 비율을 맞추는 방법을 말한다.

이는 정상데이터 소실이 크다는 점 단점을 가진다.

2. 과대표집(Over-Sampling)

소수 클래스의 데이터를 무작위로 복제하여 데이터의 비율을 맞추는 방법으로, 딥러닝 분석시 주로 사용되는 방법이다.

이 방법은 과적합문제가 발생할 수 있다는 문제점을 가진다.

3. SMOTE(Synthetic Minority Oversampling Technique)

과대표집 방법 중 하나로, 알고리즘을 통해 소수데이터에 새로운 데이터를 생성하는 방법이다.

과소표집과 과대표집의 보완방법으로 쓰인다.