데이터 수집 및 전환
1. 데이터 수집
★ 데이터 유형에 따른 빅데이터 수집기법(★) - 종류 꼭 기억해두기!
1. 정형데이터
2. 반정형데이터
3. 비정형데이터
2. 데이터 변환
- ETL : DW, DM에 저장하기 위해 Extract(추출), Transform(변환), Load(적재) 하는 기술
데이터 이동 및 변환이 주 목적임
3. 데이터 비식별화
- 5가지 처리기법 및 예시까지 외우기!(★)
4. 데이터 품질검증
정형데이터의 품질기준(5가지 암기!)
1. 완전성 : 데이터 누락이 없어야 함
2. 유일성 : 데이터 중복이 없어야 함
3. 유효성 : 정해진 데이터 범위 혹은 도메인을 만족해야 함
4. 일관성 : 데이터 구조, 형태가 일관되어야 함
5. 정확성 : 실제 객체의 표현값을 정확히 반영해야 함
데이터 적재 및 저장
1. 데이터 적재 : ETL 중 L에 해당(Load)
- 추출(Extract) : 원천 데이터로부터 데이터를 가져오는 것
- 변환(Transform) : 데이터를 가져와 데이터레이크, 데이터웨어하우스에 저장할 수 있도록 공통된 형식으로 만드는 작업
- 적재(Load) : 형식이 지정된 데이터를 데이터레이크, 데이터웨어하우스 등에 적재
2. 데이터 저장
1) 빅데이터 저장 기술(★, 꼭 알아두기!)
- NoSQL : 기존 RDBMS 중심의 데이터 저장 기술로 비정형 데이터의 저장과 관리가 힘들어서 등장
- Not-only-SQL의 줄임말로 키 값을 이용하여 데이터를 간단하게 저장함(SQL 사용하지 않음)
※ 데이터레이크, 데이터웨어하우스, 데이터마트
1) 데이터 레이크
- 다양한 원천데이터를 한 곳에 모음
- ETL 없음(데이터 형식에 상관없이 저장)
2) 데이터 웨어하우스
- 원천데이터 ETL 과정을 거쳐 DW에 적재
- 데이터를 공통 형식으로 관리하는 저장소
- 시간에 따른 변경 이력 데이터를 보유
3) 데이터 마트
- DW에서 데이터를 꺼내 사용자에게 제공
- 재무/생산 등 특정 업무에 초점을 맞추어 구축된 작은 규모의 DW
※ 데이터 거버넌스
- 개요
: 전사 차원의 모든 데이터에 대해 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것을 말함
- 구성요소
1. 원칙(Principle) : 데이터를 유지관리하기 위한 지침 / 보안, 품질기준, 변경 관리 등
2. 조직(Organization) : 데이터를 관리할 조직의 역할과 책임
3. 프로세스(Process) : 데이터 관리를 위한 활동과 체계
※ 데이터 리터러시
- 데이터를 이해하고 분석하여 활용할 수 있는 능력(문제를 해결할 수 있는 능력)
※ IT 거버넌스
- 조직의 정보기술이 조직의 전략과 목표를 유지하고 확대하는 것을 보장하는 리더쉽, 조직구조, 프로세스로 구성되어 있음
#추가문장
- 분산파일시스템은 대용량 분산 처리가 가능하다.
'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글
[2024 빅분기 실기] 메타코드 강의 후기 | 3유형 (2) (0) | 2024.06.16 |
---|---|
[2024 빅분기 실기] 메타코드 강의 후기 | 3유형 (1) (2) | 2024.06.16 |
빅데이터 분석기획 - 데이터 분석 계획 (0) | 2024.04.02 |
빅데이터 분석기획 - 빅데이터의 이해 (0) | 2024.04.02 |
빅데이터 탐색 - 데이터전처리(분석변수처리) (0) | 2024.04.01 |