popo의 갓생살기 프로젝트23 [빅데이터분석기사 기출9] 데이터 전처리 및 데이터 정제 지난 포스팅까지 빅데이터 분석 기획 파트를 올렸다면, 오늘부터는 새로운 파트인 빅데이터 탐색 부분 시작이다. 빅데이터분석기사를 공부하는 후기들을 살펴보면, 보통 파트1부분은 쉬운 부분이고, 파트2부터는 통계적인 지식이 필요하기 때문에 전공자와 비전공자에 따라서 난이도를 다르게 느낄 수 있다고 한다. 나 역시 포스팅을 위해서 미리 공부를 해본 결과, 파트1은 단순 암기로 해결이 가능하다면, 파트2는 개념에 대한 이해가 가미되어야 한다고 많이 느꼈다. 나는 내 스스로 반전공자라고 생각하기 때문에, 빅데이터 탐색 부분에서 역시 기출에 나온 개념을 소개하면서도, 중간 중간에 추가적인 설명이 필요한 부분은 길게 부연설명을 하고자 한다. 1. 데이터 전처리(Preprocessing) : 데이터를 정제한 후 분석변수.. 2023. 2. 9. [빅데이터분석기사 기출8] 데이터 저장 플랫폼(데이터 웨어하우스, 데이터 레이크) 지난 포스팅에서 데이터의 저장방식까지 살펴보았다면, 이번 포스팅에서는 데이터의 저장 플랫폼에 대해 살펴보고자 한다. 빅데이터의 특성상 그 양이 방대하기 때문에, 일반적으로 많은 IT 기업들에서는 거대한 양의 데이터를 한꺼번에 저장하고 관리하는 플랫폼을 활용한다. 그 중 대표적인 저장플랫폼으로 데이터 웨어하우스와 데이터 레이크가 있다. 데이터 웨어하우스(DW : Data Warehouse) 데이터 웨어하우스는 직역했을 때 말그대로 데이터의 창고역할을 수행하는 데이터 저장플랫폼으로, 기업의 업무시스템에서 발생하는 데이터들을 통합 관리하여 의사결정도구의 기초 데이터로 사용되는 데이터의 집합체이다. 기업의 전반적인 활동 영역에서 수집한 데이터들을 다양한 관점에서 통합 데이터를 생성하고, 주제 영역별로 요약 데이.. 2023. 2. 8. [빅데이터분석기사 기출7] 데이터 적재 과정, 데이터 저장 방식 우리가 수집한 수많은 데이터들은 모두 사용되는 것이 아니라, 보통 분석 대상 및 범위에 따라 필요한 데이터만을 추려내어 사용한다. 이에 따라 오늘 포스팅에서는 데이터의 적재 과정과 저장방식에 대해 설명하고자 한다. 데이터의 적재 과정 빅데이터 기획과정에서는 데이터에 대한 품질을 확인한 후 원천데이터를 수집한다. 그 이후 ETL(Extraction(데이터 추출), Transformation(데이터 변환), Loading(데이터 적재))작업을 수행한다. ETL작업은 그 순서대로 진행되며, 원천데이터에서 필요한 것을 뽑아내고, 저장하는 형식에 맞게 변환하고, 그것을 저장하는 과정이라고 이해하면 된다. ETL은 대표적인 내부 데이터 수집 방법으로, ETL연산은 중복을 제거하고 일관성을 확보하는 목적의 정제를 진.. 2023. 2. 6. [빅데이터분석기사 기출6] 데이터 품질 요소, 데이터 변환 품질 검증 우리가 다루는 데이터는 어떤 수준에 있는지 평가를 하기 위해서는 그 기준이 필요하다. 이번 포스팅에서는 데이터의 품질을 파악할 수 있는 데이터 품질 요소와 데이터 변환 품질을 검증하는 방법을 살펴보도록 하겠다. 데이터 품질 요소 1. 정확성 : 값이 정의된 기준에 맞도록 저장되어 있는지? 2. 유효성 : 데이터가 정해진 유효기준을 충족하는지? 3. 완전성 : 데이터 필수항목에 누락이 없는지? 4. 정합성 : 시스템 내 동일 데이터끼리 서로 일치하는지? 5. 유일성 : 데이터 구분 기준에 따라 중복이 없는지? 6. 유용성 : 사용자가 만족할만한 수준의 최신 데이터가 쉽게 접근하여 사용될 수 있는지? 7. 적시성 : 사용자가 필요한 시점에 지연없이 데이터를 제공하는지? 8. 보안성 : 데이터 접근, 개인정보.. 2023. 2. 5. 이전 1 2 3 4 5 6 다음