우리가 흔하게 이야기하는 'A와 B가 관련이 있다.' 라는 말을 데이터를 다루는 학문에서는 '상관관계가 있다'라고 표현한다. 오늘은 이런 상관관계의 종류, 표현 방법에 대해서 살펴보는 포스팅을 하려고 한다.
상관관계의 종류
1. 양의 상관관계 : 두 변수 중 하나의 값이 증가할 때, 다른 변수의 값도 증가하는 경향을 보이는 상관관계을 의미한다.
2. 음의 상관관계 : 두 변수 중 하나의 값이 증가할 때, 다른 변수의 값은 반대하는 경향을 보이는 상관관계를 의미한다.
상관관계 표현 방법
1. 산점도(Scatter Plot) 활용 : 산점도는 주로 변수 사이의 관계를 살펴보는 데에 사용한다. 예를 들어 한국고등학교 학생들의 2023년도 대학수학능력시험 국어와 수학 점수를 조사한다고 생각하면, 표본으로 선정된 학생들의 성적을 산점도에 한 축에는 국어성적, 한 축에는 수학성적을 점으로 표시하는 것이다.
2. 상관계수(Correlation Coefficient) 활용 : 상관계수는 두 변수 사이의 상관관계의 정도를 나타내는 수치로, 상관계수의 절댓값이 1에 가까울수록 강한 상관관계를 보이는 것을 의미하고, 0에 가까울수록 상관관계가 없음을 의미한다. 이때 상관계수가 양수일 경우에는 양의 상관관계를 보이며, 음수일 경우에는 음의 상관관계를 보인다.
상관계수의 절댓값에 따라 해석은 학문이나 연구자의 입장에 따라 약간의 차이는 있지만, 일반적으로 아래와 같다.
- 상관계수의 절댓값이 0.7보다 크거나 같고, 1보다 작을 때 : 매우 강한 상관관계가 있다.
- 상관계수의 절댓값이 0.3보다 크거나 같고, 0.7보다 작을 때 : 보통의 상관관계가 있다.
- 상관계수의 절댓값이 0.1보다 크거나 같고, 0.3보다 작을 때 : 약한 상관관계가 있다.
- 상관계수의 절댓값이 0.1보다 작을 때 : 상관관계가 거의 없다.
'popo의 갓생살기 프로젝트 > 빅데이터 분석기사' 카테고리의 다른 글
[빅데이터분석기사 기출15] 데이터 분포를 나타내는 통계량 (0) | 2023.02.20 |
---|---|
[빅데이터분석기사 기출14] 산포도의 통계량(범위, 분산, 표준편차, 변동계수, 사분위수 범위) (0) | 2023.02.17 |
[빅데이터분석기사 기출12] 클래스 불균형 데이터 처리방법(과소표집, 과대표집, SMOTE) (0) | 2023.02.14 |
[빅데이터분석기사 기출11] 파생변수와 변수변환(로그/지수변환, 비닝, 더미변수화, 스케일링) (0) | 2023.02.12 |
[빅데이터분석기사 기출10] 차원축소(주성분 분석, 선형판별분석, 특이값 분해, 요인분석, 독립성분 분석, 다차원척도법) (0) | 2023.02.10 |