일반적으로 데이터를 바라볼 때에는 정규분포와 비교하여 분포도를 살펴본다. 데이터 분포의 모양에 따라서 정규분포와 같이 대칭적일수도 있으며, 한쪽으로 쏠려있는 경우도 많다. 오늘 포스팅에서는 데이터 분포의 비대칭성을 나타내는 왜도와 첨도에 대해 설명하겠다.
정규분포(Normal Distribution)
정규분포는 아래 그래프의 점선과 같이 평균값을 중심으로 좌우대칭의 종 모양을 이루는 것으로, 평균과 평균 근처에 많은 도수가 몰려있고, 멀어질수록 도수가 매우 적어지는 것을 의미한다.
왜도(Skewness)
왜도는 위 그래프의 빨간색 선과 같이 데이터 분포가 왼쪽 또는 오른쪽으로 한쪽으로 뾰족한 정도를 의미한다.
정규분포는 왜도가 0이며,
왼쪽꼬리가 긴 분포의 왜도는 0보다 작고, 중심경향성의 통계량이 '평균 < 중위수 < 최빈값'의 특성을 갖는다.
오른쪽꼬리가 긴 분포의 왜도는 0보다 크고, 중심경향성의 통계량이 '최빈값 < 중위수 < 평균'의 특성을 갖는다.
첨도(Kurtosis)
첨도는 위 그래프의 파란색 선과 같이 데이터 분포가 위쪽 또는 아랫쪽으로 뾰족한 정도를 의미한다.
정규분포의 첨도는 0이며,
평평한 분포는 첨도가 0보다 작고,
뾰족한 분포는 첨도가 0보다 크다.
'popo의 갓생살기 프로젝트 > 빅데이터 분석기사' 카테고리의 다른 글
[빅데이터분석기사 기출17] 표본추출방법(단순 무작위 표본추출, 계통 표본추출, 층화 표본추출, 군집 표본추출) (0) | 2023.02.23 |
---|---|
[빅데이터분석기사 기출16] 자료의 속성과 척도(명목척도, 순서척도, 구간척도, 비율척도) (0) | 2023.02.21 |
[빅데이터분석기사 기출14] 산포도의 통계량(범위, 분산, 표준편차, 변동계수, 사분위수 범위) (0) | 2023.02.17 |
[빅데이터 분석기사 기출13] 상관관계의 표현방법(산점도, 상관계수) (0) | 2023.02.15 |
[빅데이터분석기사 기출12] 클래스 불균형 데이터 처리방법(과소표집, 과대표집, SMOTE) (0) | 2023.02.14 |