본문 바로가기
정보관리기술사

(IT 이슈) 데이터웨어하우스(DW)

by 정보봇따리 2020. 11. 27.
728x90
반응형
SMALL


Ⅰ. 차원 모델링
가. 차원 모델링 : 비즈니스 관점에서 정보를 조직화, 논리적/물리적 설계, 모델링
- 차원(Dimension) : 주제를 설명하는 최소화된 데이터(Descriptive Data), 사실(Fact) 테이블에서 찾고자 하는 데이터 레코드에 접근하기 위한 수단
- 사실(Fact) : 중심 테이블(Major Table)로, 특정 주제별 업무 관련 실질적 데이터를 수량화한 표현의 데이터 컬럼
- 측정 규준(Metric) : 저장 데이터의 계량 단위

나. 스타 스키마와 스노우플레이크 스키마
1. 스타스키마
- 스타스키마 정의 : 데이터 웨어하우스를 구축하는 기본적인 스키마, 팩트테이블과 차원테이블간의 1:N 관계
- PK : 차원 테이블에서 각 행을 유일하게 식별
- 장점 : 사용자들이 직관적으로 이해하기 쉽고 데이터베이스를 통하여 항해(Navigation) 최적화
- 단점 : 1:N 만 지원, 공간이 많이 필요하며 차원 테이블의 확장성이 없음
2. 스노우플레이크 스키마
- 스노우플레이스 스키마 정의 : 스타 스키마의 차원 테이블들을 정규화하는 스키마, 차원 테이블 일부들을 대상으로 부분적인 정규화
- 장점 : 차원 테이블 확장 가능, 저장공간 최소화, 정규화 된 구조들은 더 쉽게 갱신, 유지
- 단점 : STARJoin 을 많이 수행, 직관도가 떨어져 내용을 통한 브라우징이 어려움
다. 차원 테이블 경신
- 오류 정정 : 소스 시스템의 이전 값은 버려져야 함
- 이력 보존 : DW 에서는 이력을 보존해야 하며, 이력을 분할 관리. 모든 변경은 보존되어야 함
- 시험적인 소프트 개정(Tentative Soft Revisions) : 이전/이후의 방향으로 추적하는 능력 제공
라. 집계 사실 테이블
- 단위 사실 테이블로부터 유도된 미리 계산된 요약 테이블
- 스타 스키마 집계 : 주기적으로 데이터 적재 후 SQL Script(또는 ROLAP 도구) 로 수행
- 스노우플레이크 스키마 집계 : 차원 Value 간, 또는 Full 집계, 또는 Sparse 집계(자주 활용하는 Summary Table). 그 외의 질의들은 Fact Table 이용
마. 차원 모델
1. 차원 모델 특징
: Measure+ Dimension
: 대량의 로우 처리 강조
: 수백/수천만/수억 개의 레코드들에 접근
: 복잡한 조인 연산 처리 강조
2. DW를 위한 차원 모델링
: DW 는 전반적인 프로세스의 문제 처리, 관리자들이 비즈니스를 바라보는 관점, 비즈니스 트렌드 반영

Ⅱ. 데이터 추출, 변환, 적재 (ETL, Extract, Transformation, Load)
- 소스 데이터들로부터 데이터를 추출하고, 정제/변환하여 목표 DW에 데이터를 적재하는 기능
1. 데이터 추출(Extract)
- 무수히 많은 이질적인 소스들로부터 데이터를 추출하는 단계, 여러 어려움이 존재
- DW에 초기 완전 적재 뿐 아니라 계속 진행되는 증진적 적재의 어려움
- 소스 증명 확인, 추출 방법 정의, 추출 횟수 결정, 시간 영역 결정 등의 이슈가 있음
- DW 추출 기법 : 정적인 데이터, 즉시 데이터(트랜잭션, 트리거), 지연 데이트

2. 데이터 변환(Transformation)
- 소스 데이터 정제를 포함하여 DW에서 사용가능한 데이터로 전환
- 소스 데이터의 형식, 내용을 검증하여 가치 있는 데이터로 만드는 과정
- 포맷 개정, 필드 해독, 문자 세트 변환, 계산/유도 값 도출, 요약
- 변환 도구 활용, 수동 기법을 통해 변환

3. 데이터 적재(Load)
- 검증 및 변환이 완료된 데이터들을 목표 DW의 DB에 입력하는 과정
- 초기 적재(Initial Load) : 처음으로 DW 테이블에 데이터를 입력
- 증진적 적재(Incremental Load) : 필요에 따라 주지적인 방법으로 계속 진행되는 변경들을 적용
- 완전 재생(Full Refresh): 한 개 혹은 그 이상의 테이블들의 내용을 완전히 지우고 새로 적재
- DW를 위해 유용하고 관심 있는 이력 데이터를 확인하여 적재해야 하고, 추출할 업무 규칙들을 정의하고 정제

Ⅲ. 데이터 품질
가. 데이터 품질
1. 데이터 품질 관리 정의 : “정확하고 일관된 데이터를 필요한 때에 바로 사용하기 위해서” 데이터의 정확성, 완전성 및 일관성을 유지하기 위한 품질관리 활동
2. 데이터 품질 중요 이유
- 의사 결정의 위험 요소 감소 및 신뢰성 보장
- 정보 관리 비용의 절감
- 정보 활용을 통한 생산성 향상
3. 데이터 품질 요소
- 정확성(Accuracy), 무결성(Integrity),일관성(Consistency),완전성(Completeness),명확성(Clarity)
4. 데이터 품질 도구 DBMS 예시
- 무결성 규칙 준수 (Compliance of Integrity Rules) 개체 무결성, 참조 무결성, 도메인 무결성
- 업무 규칙에 일치(Conformance to Business Rules)
- 분실 값들의 최소화(Minimize Missing Values) : 필수 속성의 Null 값 최소화
- 갱신 보안(Update Security) : DB 권한 외의 갱신

나. 데이터 정제
- 데이터 표준을 정의하고 데이터 품질 관련자와 재확인
- 높은 영향력의 오염 소스들을 확인하고, 먼저 정제 작업 수행
- 도구 활용, 외부 전문가 활용, 후원자 및 사용자들의 관심 및 적극적인 참여 유도

728x90
반응형
LIST