본문 바로가기
popo의 갓생살기 프로젝트/빅데이터 분석기사

[빅데이터 분석기사 기출13] 상관관계의 표현방법(산점도, 상관계수)

by popodailylife 2023. 2. 15.

우리가 흔하게 이야기하는 'A와 B가 관련이 있다.' 라는 말을 데이터를 다루는 학문에서는 '상관관계가 있다'라고 표현한다. 오늘은 이런 상관관계의 종류, 표현 방법에 대해서 살펴보는 포스팅을 하려고 한다.


상관관계의 종류

1. 양의 상관관계 : 두 변수 중 하나의 값이 증가할 때, 다른 변수의 값도 증가하는 경향을 보이는 상관관계을 의미한다.

2. 음의 상관관계 : 두 변수 중 하나의 값이 증가할 때, 다른 변수의 값은 반대하는 경향을 보이는 상관관계를 의미한다.

 

상관관계 표현 방법

1. 산점도(Scatter Plot) 활용 : 산점도는 주로 변수 사이의 관계를 살펴보는 데에 사용한다. 예를 들어 한국고등학교 학생들의 2023년도 대학수학능력시험 국어와 수학 점수를 조사한다고 생각하면, 표본으로 선정된 학생들의 성적을 산점도에 한 축에는 국어성적, 한 축에는 수학성적을 점으로 표시하는 것이다.

2. 상관계수(Correlation Coefficient) 활용 : 상관계수는 두 변수 사이의 상관관계의 정도를 나타내는 수치로, 상관계수의 절댓값이 1에 가까울수록 강한 상관관계를 보이는 것을 의미하고, 0에 가까울수록 상관관계가 없음을 의미한다. 이때 상관계수가 양수일 경우에는 양의 상관관계를 보이며, 음수일 경우에는 음의 상관관계를 보인다.

 

상관계수의 절댓값에 따라 해석은 학문이나 연구자의 입장에 따라 약간의 차이는 있지만, 일반적으로 아래와 같다.

   - 상관계수의 절댓값이 0.7보다 크거나 같고, 1보다 작을 때 : 매우 강한 상관관계가 있다.

   - 상관계수의 절댓값이 0.3보다 크거나 같고, 0.7보다 작을 때 : 보통의 상관관계가 있다.

   - 상관계수의 절댓값이 0.1보다 크거나 같고, 0.3보다 작을 때 : 약한 상관관계가 있다.

   - 상관계수의 절댓값이 0.1보다 작을 때 : 상관관계가 거의 없다.