[데이터자격시험용-필수요약정리]

빅데이터 분석기획 - 데이터수집 및 저장계획

indongspace 2024. 4. 2. 05:53

 

데이터 수집 및 전환

 

1. 데이터 수집

★ 데이터 유형에 따른 빅데이터 수집기법(★) - 종류 꼭 기억해두기!

1. 정형데이터

2. 반정형데이터

3. 비정형데이터

 

 

2. 데이터 변환

- ETL : DW, DM에 저장하기 위해 Extract(추출), Transform(변환), Load(적재) 하는 기술

           데이터 이동 및 변환이 주 목적임

 

 

3. 데이터 비식별화

- 5가지 처리기법 및 예시까지 외우기!(★)

 

 

4. 데이터 품질검증

정형데이터의 품질기준(5가지 암기!)

1. 완전성 : 데이터 누락이 없어야 함

2. 유일성 : 데이터 중복이 없어야 함

3. 유효성 : 정해진 데이터 범위 혹은 도메인을 만족해야 함

4. 일관성 : 데이터 구조, 형태가 일관되어야 함

5. 정확성 : 실제 객체의 표현값을 정확히 반영해야 함

 

 

 

 

데이터 적재 및 저장

 

1. 데이터 적재 : ETL 중 L에 해당(Load)

- 추출(Extract) : 원천 데이터로부터 데이터를 가져오는 것

- 변환(Transform) : 데이터를 가져와 데이터레이크, 데이터웨어하우스에 저장할 수 있도록 공통된 형식으로 만드는 작업

- 적재(Load) : 형식이 지정된 데이터를 데이터레이크, 데이터웨어하우스 등에 적재

 

2. 데이터 저장

1) 빅데이터 저장 기술(★, 꼭 알아두기!)

- NoSQL : 기존 RDBMS 중심의 데이터 저장 기술로 비정형 데이터의 저장과 관리가 힘들어서 등장

   - Not-only-SQL의 줄임말로 키 값을 이용하여 데이터를 간단하게 저장함(SQL 사용하지 않음)

 

 

 

※ 데이터레이크, 데이터웨어하우스, 데이터마트

1) 데이터 레이크

- 다양한 원천데이터를 한 곳에 모음

- ETL 없음(데이터 형식에 상관없이 저장)

 

2) 데이터 웨어하우스

- 원천데이터 ETL 과정을 거쳐 DW에 적재

- 데이터를 공통 형식으로 관리하는 저장소

- 시간에 따른 변경 이력 데이터를 보유

 

3) 데이터 마트

- DW에서 데이터를 꺼내 사용자에게 제공

- 재무/생산 등 특정 업무에 초점을 맞추어 구축된 작은 규모의 DW

 

 

 

※ 데이터 거버넌스

- 개요

: 전사 차원의 모든 데이터에 대해 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것을 말함

 

- 구성요소

1. 원칙(Principle) : 데이터를 유지관리하기 위한 지침 / 보안, 품질기준, 변경 관리 등

2. 조직(Organization) : 데이터를 관리할 조직의 역할과 책임

3. 프로세스(Process) : 데이터 관리를 위한 활동과 체계

 

 

※ 데이터 리터러시

- 데이터를 이해하고 분석하여 활용할 수 있는 능력(문제를 해결할 수 있는 능력)

 

 

※ IT 거버넌스

- 조직의 정보기술이 조직의 전략과 목표를 유지하고 확대하는 것을 보장하는 리더쉽, 조직구조, 프로세스로 구성되어 있음

 

 

#추가문장

- 분산파일시스템은 대용량 분산 처리가 가능하다.