본문 바로가기

popo의 갓생살기 프로젝트23

[빅데이터 분석기사 기출13] 상관관계의 표현방법(산점도, 상관계수) 우리가 흔하게 이야기하는 'A와 B가 관련이 있다.' 라는 말을 데이터를 다루는 학문에서는 '상관관계가 있다'라고 표현한다. 오늘은 이런 상관관계의 종류, 표현 방법에 대해서 살펴보는 포스팅을 하려고 한다. 상관관계의 종류 1. 양의 상관관계 : 두 변수 중 하나의 값이 증가할 때, 다른 변수의 값도 증가하는 경향을 보이는 상관관계을 의미한다. 2. 음의 상관관계 : 두 변수 중 하나의 값이 증가할 때, 다른 변수의 값은 반대하는 경향을 보이는 상관관계를 의미한다. 상관관계 표현 방법 1. 산점도(Scatter Plot) 활용 : 산점도는 주로 변수 사이의 관계를 살펴보는 데에 사용한다. 예를 들어 한국고등학교 학생들의 2023년도 대학수학능력시험 국어와 수학 점수를 조사한다고 생각하면, 표본으로 선정된.. 2023. 2. 15.
[빅데이터분석기사 기출12] 클래스 불균형 데이터 처리방법(과소표집, 과대표집, SMOTE) 가끔 통계자료들을 살펴보다보면, 표본이 작을수밖에 없는 변수들이 있다. 예를 들어, 내가 불법 콘텐츠 유통 사이트 이용과 관련해서 조사를 실시한다고 생각해보자. 대다수가 불법사이트를 이용한 적이 없다고 응답할 것이고, 소수는 실제 이용경험이 있다고 응답할 것이다. 이때 내가 관심있는 불법 사이트 이용자의 수가 적기 때문에 클래스 불균형이 발생한다. 오늘 포스팅에서는 이러한 클래스 불균형의 문제점을 해결하기 위한 방법으로 과소표집, 과대표집, SMOTE를 소개한다. 클래스 불균형 데이터의 각 클래스별 데이터 비율이 불균형하게 분포 되어 있는 것. 불균형 데이터 처리 방법 1. 과소표집(Under-Sampling) 다수 클래스의 데이터를 무작위로 일부만 선택하여 데이터의 비율을 맞추는 방법을 말한다. 이는 .. 2023. 2. 14.
[빅데이터분석기사 기출11] 파생변수와 변수변환(로그/지수변환, 비닝, 더미변수화, 스케일링) 데이터를 사용할 때에는 분석 기획에 맞도록 적절하게 변수를 재정의하거나, 분석방법에 맞게 변수를 연속형 또는 범주형 데이터로 변환하는 과정이 필요하다. 오늘 포스팅에서는 파생변수 생성방법과 변수변환 방법을 살펴봄으로써 필요한 데이터를 처리하는 방법을 공유하고자 한다. 파생변수 정의 : 기존 변수에 함수, 조건문 등을 사용하여 재정의한 변수 파생변수 생성 방법 1. 변수 분해 : 기존 데이터를 분해하여 일부만 사용하는 방법 ex) '서울특별시마포구' → '서울특별시' 2. 변수 결합 : 두 개 이상의 변수를 결합하여 사용하는 방법 ex) 키, 몸무게, 나이 데이터를 이용하여 비만도 계산 3. 조건문 사용 : 특정 조건에 따라 기존변수를 재정의하는 방법 ex) 성적데이터를 90점 이상이면 A, 80~90점이.. 2023. 2. 12.
[빅데이터분석기사 기출10] 차원축소(주성분 분석, 선형판별분석, 특이값 분해, 요인분석, 독립성분 분석, 다차원척도법) 이번 포스팅 주제는 전공자일수록 이해가 쉬운, 비전공자에게는 막연하고 어렵게 느껴질 수밖에 없는 주제인 '차원축소'이다. 어렵게 느껴질 수 있지만, 빅데이터를 공부하기 위해서는 필수적으로 습득해야하는 지식이고, 그만큼 빅데이터분석기사 시험에서 기출로도 다뤄진 개념이다. 차원축소(Dimensionality Reduction) 1) 개념 : 고차원의 데이터를 저차원의 데이터로 변환하기 위해서 데이터 변수의 개수를 줄이는 통계 기법 2) 왜 필요할까? : 데이터의 변수가 늘어나게 되면 차원이 커지거나, 독립변수 간 강한 상관관계를 보일 경우(다중공선성이 있을 경우) 모델의 정확도가 떨어져 신뢰도가 떨어지기 때문에 변수의 개수를 줄이는 방법으로 모델의 정확도를 높이기 위해서이다. 차원축소의 종류 1. 주성분 분.. 2023. 2. 10.