본문 바로가기

빅데이터분석기사기출11

[빅데이터분석기사 기출17] 표본추출방법(단순 무작위 표본추출, 계통 표본추출, 층화 표본추출, 군집 표본추출) 데이터 분석을 할 때에 모든 분석 대상에 대한 데이터를 확보해서 분석을 하면 가장 정확한 결과를 알 수 있지만, 실질적으로 모든 데이터를 확보하는 것에 한계가 있다. 이에 대부분의 데이터 분석은 전체 모수에서 일부를 선택하는 표본 추출 기법을 사용해서 부분 집단을 분석해서 전체를 추정한다. 오늘은 표본 추출 기법을 살펴보겠다. 1. 단순 무작위 표본추출(Simple Random Sampling) 임의 표본추출방법 중에 가장 기본적인 방법으로, 모집단에서 정해진 규칙 없이 표본을 추출하는 방법이다. 표본들이 동알한 확률로 선택될 수 있도록 표본을 추출한다. 일반적으로 모집단에 대한 사전 지식이 많지 않을 때 사용한다. 예) 번호표 추첨 2. 계통 표본추출(Systematic Samping) 모집단에서 시간.. 2023. 2. 23.
[빅데이터분석기사 기출16] 자료의 속성과 척도(명목척도, 순서척도, 구간척도, 비율척도) 오늘은 자료를 측정하는 과정에서 가장 기초적이고 중요한 단계인 자료 속성과 척도의 종류에 대해 살펴보려고 한다. 데이터를 분석할 때, 내가 사용하는 자료가 어떤 자료인지, 그리고 어떤 척도인지에 따라서 데이터 처리방식이 다르기 때문에 그 의미와 처리방식에 대해서 이해하고 있어야 한다. 척도(Scale) 척도는 측정대상을 분류할 때 사용하는 단위이다. 자료의 속성 일반적으로 자료의 속성은 질적자료와 양적 자료로 구분한다. 질적자료는 일반적으로 문자, 기호, 측정대상을 분류하는 목적에서의 숫자로 표현되는 자료를 의미하며, 명목척도(Nominal Scale)나 순서척도(Ordinal Scale)로 자료의 특성이 구분된다. 양적자료는 일반적으로 측정이나 계산이 가능한 숫자의 형태로 표현되는 자료를 의미하며, 구.. 2023. 2. 21.
[빅데이터분석기사 기출15] 데이터 분포를 나타내는 통계량 일반적으로 데이터를 바라볼 때에는 정규분포와 비교하여 분포도를 살펴본다. 데이터 분포의 모양에 따라서 정규분포와 같이 대칭적일수도 있으며, 한쪽으로 쏠려있는 경우도 많다. 오늘 포스팅에서는 데이터 분포의 비대칭성을 나타내는 왜도와 첨도에 대해 설명하겠다. 정규분포(Normal Distribution) 정규분포는 아래 그래프의 점선과 같이 평균값을 중심으로 좌우대칭의 종 모양을 이루는 것으로, 평균과 평균 근처에 많은 도수가 몰려있고, 멀어질수록 도수가 매우 적어지는 것을 의미한다. 왜도(Skewness) 왜도는 위 그래프의 빨간색 선과 같이 데이터 분포가 왼쪽 또는 오른쪽으로 한쪽으로 뾰족한 정도를 의미한다. 정규분포는 왜도가 0이며, 왼쪽꼬리가 긴 분포의 왜도는 0보다 작고, 중심경향성의 통계량이 '평.. 2023. 2. 20.
[빅데이터분석기사 기출14] 산포도의 통계량(범위, 분산, 표준편차, 변동계수, 사분위수 범위) 일반적으로 기초통계라고 하면 평균, 중위수, 최빈값으로 설명되는 중심경향성(Central Tendency)을 통해 데이터를 살펴본다. 그러나 이러한 중심경향성은 데이터의 값들이 얼마나 흩어져있는지에 따라서 다르게 해석될 수 있기 때문에, 데이터 탐색시 값들의 산포도를 항상 고려해야한다. 산포도를 표현하는 통계량은 범위, 분산, 표준편차, 변동계수, 사분위수 범위가 있다. 산포도 데이터 값들의 흩어진 정도를 표현하는 통계량 1. 범위(Range) 최대 데이터 값에서 최소 데이터 값을 뺀 차이로 나타낸다. 2. 분산(Variance) 편차를 활용하여 산포도를 확인하는 방법으로, 데이터 간의 차이가 클수록 분산이 크다. 분산을 계산할 때에는 편차(데이터 값과 평균값의 차이)의 합이 0이므로, 편차의 제곱을 활.. 2023. 2. 17.