빅데이터분석기사 기출4 [빅데이터 분석기사 기출13] 상관관계의 표현방법(산점도, 상관계수) 우리가 흔하게 이야기하는 'A와 B가 관련이 있다.' 라는 말을 데이터를 다루는 학문에서는 '상관관계가 있다'라고 표현한다. 오늘은 이런 상관관계의 종류, 표현 방법에 대해서 살펴보는 포스팅을 하려고 한다. 상관관계의 종류 1. 양의 상관관계 : 두 변수 중 하나의 값이 증가할 때, 다른 변수의 값도 증가하는 경향을 보이는 상관관계을 의미한다. 2. 음의 상관관계 : 두 변수 중 하나의 값이 증가할 때, 다른 변수의 값은 반대하는 경향을 보이는 상관관계를 의미한다. 상관관계 표현 방법 1. 산점도(Scatter Plot) 활용 : 산점도는 주로 변수 사이의 관계를 살펴보는 데에 사용한다. 예를 들어 한국고등학교 학생들의 2023년도 대학수학능력시험 국어와 수학 점수를 조사한다고 생각하면, 표본으로 선정된.. 2023. 2. 15. [빅데이터분석기사 기출12] 클래스 불균형 데이터 처리방법(과소표집, 과대표집, SMOTE) 가끔 통계자료들을 살펴보다보면, 표본이 작을수밖에 없는 변수들이 있다. 예를 들어, 내가 불법 콘텐츠 유통 사이트 이용과 관련해서 조사를 실시한다고 생각해보자. 대다수가 불법사이트를 이용한 적이 없다고 응답할 것이고, 소수는 실제 이용경험이 있다고 응답할 것이다. 이때 내가 관심있는 불법 사이트 이용자의 수가 적기 때문에 클래스 불균형이 발생한다. 오늘 포스팅에서는 이러한 클래스 불균형의 문제점을 해결하기 위한 방법으로 과소표집, 과대표집, SMOTE를 소개한다. 클래스 불균형 데이터의 각 클래스별 데이터 비율이 불균형하게 분포 되어 있는 것. 불균형 데이터 처리 방법 1. 과소표집(Under-Sampling) 다수 클래스의 데이터를 무작위로 일부만 선택하여 데이터의 비율을 맞추는 방법을 말한다. 이는 .. 2023. 2. 14. [빅데이터분석기사 기출8] 데이터 저장 플랫폼(데이터 웨어하우스, 데이터 레이크) 지난 포스팅에서 데이터의 저장방식까지 살펴보았다면, 이번 포스팅에서는 데이터의 저장 플랫폼에 대해 살펴보고자 한다. 빅데이터의 특성상 그 양이 방대하기 때문에, 일반적으로 많은 IT 기업들에서는 거대한 양의 데이터를 한꺼번에 저장하고 관리하는 플랫폼을 활용한다. 그 중 대표적인 저장플랫폼으로 데이터 웨어하우스와 데이터 레이크가 있다. 데이터 웨어하우스(DW : Data Warehouse) 데이터 웨어하우스는 직역했을 때 말그대로 데이터의 창고역할을 수행하는 데이터 저장플랫폼으로, 기업의 업무시스템에서 발생하는 데이터들을 통합 관리하여 의사결정도구의 기초 데이터로 사용되는 데이터의 집합체이다. 기업의 전반적인 활동 영역에서 수집한 데이터들을 다양한 관점에서 통합 데이터를 생성하고, 주제 영역별로 요약 데이.. 2023. 2. 8. [빅데이터분석기사 기출1] 데이터의 유형 및 수집 기술 데이터는 그 구조에 따라 크게 세 가지로 구분할 수 있으며, 데이터에 따라서 수집기술에 차이가 있다. 1. 정형데이터 : 정형화된 스키마 구조를 가지고 고정된 필드에 저장되어 있는 행과 열로 수성된 데이터를 말한다. 예) 관계형 데이터베이스(RDB), 스프레드 시트 등 (수집기술) ETL, FTP, Open API → 여기서 ETL은 문제에서 자주 접하였다 1) RDB : 관계형 데이터베이스를 의미하며, 데이터를 테이블 형태로 표현하는 데이터 베이스를 의미한다. 구조적으로 단순하기 때문에 주로 사용자와 프로그래머 간의 의사소통시에 사용된다. 2) 스프레드 시트 : 우리가 흔하게 접하는 엑셀을 생각하면 된다. 행과 열의 구조로 되어있으며, 여러가지 계산 및 도표, 통계 등의 작업을 처리할 수 있게 도와주는.. 2023. 1. 25. 이전 1 다음