popo의 갓생살기 프로젝트/빅데이터 분석기사

[빅데이터분석기사 기출1] 데이터의 유형 및 수집 기술

popodailylife 2023. 1. 25. 14:29

 

데이터는 그 구조에 따라 크게 세 가지로 구분할 수 있으며,

데이터에 따라서 수집기술에 차이가 있다.


 

1. 정형데이터

: 정형화된 스키마 구조를 가지고 고정된 필드에 저장되어 있는 행과 열로 수성된 데이터를 말한다.

   예) 관계형 데이터베이스(RDB), 스프레드 시트 등

   (수집기술) ETL, FTP, Open API  → 여기서 ETL은 문제에서 자주 접하였다

 

    1) RDB : 관계형 데이터베이스를 의미하며, 데이터를 테이블 형태로 표현하는 데이터 베이스를 의미한다. 구조적으로 단순하기 때문에 주로 사용자와 프로그래머 간의 의사소통시에 사용된다.

    2) 스프레드 시트 : 우리가 흔하게 접하는 엑셀을 생각하면 된다. 행과 열의 구조로 되어있으며, 여러가지 계산 및 도표, 통계 등의 작업을 처리할 수 있게 도와주는 프로그램이다.

 

2. 반정형데이터

: 스키마 구조 형태를 가지고 메타데이터를 포함하며, 값과 형식이 일관되지 않은 데이터를 말한다.

   예) HTML, XML 웹로그, JSON파일, RSS, 센서 데이터 등 → XML, HTML, JSON은 외워두는게 좋다

   (수집기술) Sensing, Streaming, Flume, Scribe, Chukwa

 

    1) HTML : 웹 문서를 만들기 위해 사용하는 가장 단순한 형태의 웹 언어를 의미한다.

    2) XML : 우리가 인터넷을 이용하면서 흔하게 보는 HTML을 개선하여 만든 언어로, 구조화된 문서를 웹에 구현시키는 인터넷 프로그래밍 언어를 의미한다.

    3) 웹 로그 : 웹 사이트에 방문자가 남긴 자료를 의미하며, 웹 서버에는 액세스 로그, 에러 로그, 리퍼럴 로그, 에이전트 로그 등 다양한 자료들이 파일 형태로 기록된다.

    4) JSON 파일 : 웹과 프로그램 사이에 경량의 데이터 교환을 위해 데이터의 객체를 속성-값 쌍의 형태로 표현하는 방식으로, 자바스크립트 언어로부터 파생되었다.

    5) RSS : 뉴스와 같이 콘텐츠 업로드가 빈번하게 발생하는 정보를 쉽게 확인하고 이용할 수 있도록 만들어진 XML 기반의 데이터 형식을 말한다.

    6) 센서 데이터 : 각종 센서를 통해 얻어진 데이터들을 의미한다.

 

3. 비정형데이터

: 스키마 구조 형태 없이 고정된 필드에 저장되지 않는 데이터를 말한다.

   예) SNS, 웹게시판, 텍스트, 이미지, 오디오, 비디오 등 → 우리가 쉽게 접하는 것이라고 이해하기

   (수집기술) Crawling, RSS, Open API, FTP, Scrapy, Apache Kafka → Crawling, RSS, FTP는 중요 키워드

 

    1) SNS : Social Network Services의 약자로, 페이스북, 인스타그램과 같이 사람 사이의 관계망을 구축해주는 온라인 서비스를 의미한다.

    2) 웹 게시판 : 인터넷으로 연결된 다수의 사용자들이 각종 정보를 공유할 수 있도록 구축한 게시판을 의미한다.

    3) 텍스트 : 문자 코드로만 이루어진 데이터를 의미한다.