[빅데이터분석기사 기출] 확률분포, 이산확률분포, 연속확률분포
확률분포란?
확률분포는 어떤 확률 변수가 가질 수 있는 모든 값들과 그 값들이 나타날 확률의 분포를 나타내는 함수이다. 즉, 어떤 사건이 일어날 확률을 수학적으로 표현한 것을 의미한다. 확률분포는 변수의 종류에 따라 이산확률분포와 연속확률분포로 나눠진다.
이산확률분포(Discrete Probability Distribution)
이산확률분포는 확률변수가 이산적인(셀 수 있거나 유한개) 값을 가질 때 사용되는 확률분포를 말한다.
예를 들어, 동전던지기는 두 개의 값(앞면, 뒷면)을 가지기 때문에 이산확률분포를 살펴볼 수 있다.
1) 이항 분포(Binomial Distribution)
일정한 조건(독립성, 동일한 확률, 고정된 횟수)에서 n번 중 k번 성공할 확률을 계산한다.
이항분포의 기댓값은 E(x) = np 이며, 분산은 V(x) = np(1=p) 이다.
2) 포아송 분포(Poisson Distribution)
단위 시간 또는 공간 안에서 발생하는 사건의 수를 나타내는 분포이다. 단위시간당 또는 단위면적당 사건의 평균 횟수가 몇 번인지 확률변수로 정의한 경우에 포아송분포를 따른다고 한다.
3) 기하 분포(Geometric Distribution)
동일한 조건(독립성, 동일한 확률)에서 첫 번째 성공까지 걸리는 시행 횟수를 계산한다.
연속확률분포(Continuous Probability Distribution)
연속확률분포는 확률변수가 연속적인 값(무한한 갯수의 값)을 가질 때 사용되는 확률 분포이다.
연속확률변수에서는 확률밀도함수(PDF)를 사용하여 확률을 나타낸다.
예를 들어, 키와 몸무게는 무한한 값까지 가능하다.
1) 정규 분포(Normal Distribution)
가우스 분포라고도 하며, 평균을 중앙으로 하여 분포의 곡선이 좌우 대칭으로 나타나는 분포이다. 정규 분포는 그래프상 종 모양을 가지며, 중심극한정리에 따라서 여러 확률 변수의 합은 일반적으로 정규분포를 따른다.
정규분포의 왜도는 0이며, 첨도는 3이다.
2) 표준정규분포(Z-분포)
평균이 0이고 분산이 1일 정규 분포를 의미한다. 표준정규분포는 정규분포를 표준화하여, 어떤 값이 표준정규분포에서 얼마 표준편차만큼 떨어져 있는지 측정하기 위해 사용된다. 이러한 표준정규분포는 모집단의 분포를 알기 힘들 경우에 통계 분석에서 자주 사용된다.
3) t-분포
모집단의 표준편차를 알기 힘들 때, 표본으로부터 표본편차를 추정하여 모집단의 평균에 대한 추정을 할 때 사용되는 확률 분포이다. 정규분포와 유사한 모양을 가지지만, 자유도에 따라서 모양이 달라진다. 자유도는 표본의 크기에 따라 결정되는데, 표본의 크기가 클수록 자유도가 커져 정규분포에 가까워진다.