제5절 업무 데이터
1. 정의 및 관리 목적
업무 데이터란 기관이나 기업의 업무 및 비즈니스를 수행하는 데 필요한 데이터를 의미하며, 일반적으로 데이터 흐름에 따라 원천, 운영, 분석 데이터로 구분할 수 있다.
2. 세부 관리 대상
가. 원천(Source) 데이터
원천 데이터란 운영 업무 데이터의 원천이 되는 현실 세계의 데이터로, 일반 문서, PC에 저장된 데이터 원천 파일, 이메일 및 팩스 등을 말하며, 통합적 시스템에 의한 관리보다는 원천 업무 데이터 소유주인 개인이나 단체에 의하여 관리되는 데이터를 의미한다. 원천 데이터는 다음과 같은 기준에 따라 관리되어야 한다.
- 보안성
원천 데이터는 시스템이나 프로그램, 데이터베이스 객체에 의해 시스템적으로 관리되지 않아 허용되지 않은 사용자에게 노출될 위험성이 많으므로 중요 원천 데이터의 경우 보안에 각별히 유의해야 한다.
- 안전성
원천 데이터는 재해 발생 시 데이터 손실률이 높고 손실된 원천 데이터의 복구가 매우 어려우므로 중요 원천 데이터의 경우 안전 관리의 수준이 높아야 한다.
- 신뢰성
원천 데이터의 정확성과 신뢰성을 판단할 수 있도록 이와 관련된 근거를 정의하여 관리해야 한다.
데이터베이스 구축에 필요한 원천 데이터를 분류해 각 원천 데이터에 대한 접근 권한과 생성, 변경, 소멸 규칙을 정의한다. 원천 데이터의 검색은 일반적으로 시스템 내에 저장된 데이터를 검색하는 것보다 많은 시간이 소요될 수 있으므로 관리 체계를 명확히 정의해야 한다.
나. 운영(Operation) 데이터
운영 데이터란 기업 및 기관의 목표 달성을 위해 데이터베이스에서 저장, 관리하여 활용하는 데이터로 단순한 입출력 작업 처리상 일시적으로 필요한 임시 데이터는 제외한다. 운영 데이터는 다음과 같은 기준에 따라 관리되어야 한다.
- 정확성
실세계에 존재하는 원천 데이터와 동일한 데이터가 오류 없이 관리되어야 한다.
- 일관성
데이터가 용어 정의, 규정, 표준, 속성 정의, 데이터 형식 등과 일치하여야 한다.
- 최신성
제공 데이터가 가장 최근 형태로 갱신되어야 하고 데이터의 최신성 유지를 위하여 데이터 최신성 등급(매우 중요, 중요, 보통)을 둘 수 있다.
- 완전성
정보 시스템 내의 저장된 데이터는 완전한 형태를 가지고 있어야 하며, 조직의 목표 달성을 위해 요구되는 데이터의 폭과 깊이의 관점에서 이를 제공할 수 있을 만큼의 데이터를 보유하고 있어야 한다.
- 사용 용이성
정보시스템에서 제공하는 인터페이스, 도움말, 고객 지원 기능 등이 사용자가 데이터베이스를 이용하는 데 불편함이 없도록 제공되어야 한다.
- 검색 용이성
정보 시스템에서 원하는 데이터를 추출하여 활용할 수 있도록 검색 관련 제반 기능과 검색 조건에 따른 검색 결과 및 출력 방식이 정확하며 적절하여야 한다.
데이터의 정확성, 일관성, 최신성, 완전성을 보장하기 위해 정의된 관리 기준과 관리 방법에 따라 주기적으로 데이터를 점검 관리한다. 사용 용이성과 검색 용이성은 성능 관리 데이터의 관리 기준과 관리 방법을 따를 수 있다.
다. 분석(Analysis) 데이터
분석 데이터란, 운영 데이터의 추출(Extract), 변환(Transformation), 적재(Loading) 등의 과정을 통해 생성되는 데이터이다. 분석 데이터가 기관이나 조직의 업무나 제반 활동을 신속하게 지원할 수 있도록 하기 위해서는 최신성과 정확성을 갖춰야 하며, 다음과 같은 기준에 따라 관리되어야 한다.
- 분석 주기
분석용 데이터의 원천이 되는 운영 데이터의 분석 및 변환 주기를 결정한다.
- 마감 기한
운영 데이터를 분석용 데이터로 변환하기 위해 이용하는 운영 데이터의 특정 시점을 정의한다.
- 요약 레벨
분석 데이터에 요구되는 요약 수준을 정의한다. 요약 수준은 운영 데이터의 범위와 깊이의 관점에서 고려되어야 한다.
- 주제 지향성
분산되어 관리되는 운영 데이터를 통일된 주제 영역별로 분류할 수 있어야 한다.
- 통합성
분석 데이터를 동일하고 일관된 표준‘( 남/여’,‘ 1/0’,…)에 따라 분류할 수 있어야 한다.
- 시계열성
일정 시간 동안 축적된 데이터를 다양한 시점별로 정의할 수 있어야 한다.
- 비휘발성
데이터의 삭제, 갱신이 자주 일어나지 않고 검색 위주의 데이터로 구성되어야 한다.
운영 데이터를 분석 데이터로 추출, 변환, 적재하는 규칙을 정의한다. 또한 일반적으로 분석되는 데이터의 양이 매우 많을 수 있으므로 사용되는 데이터베이스의 특성에 맞는 관리 방법이 같이 병행 되어야 한다.
장 요약
- 제1절 데이터 품질 관리 프레임워크
- 데이터 품질 요소에는 데이터 값, 데이터 서비스, 데이터 구조, 데이터 관리 프로세스 등이 있으며, 이러한 요소들은 서로 연계되어 조직 데이터 품질에 영향을 준다.
- 제2절 표준 데이터
- 표준 데이터는 용어 및 도메인, 코드, 데이터 관련 요소에 대한 표준을 지정하여 사용하는 표준 관련 데이터로 표준 단어 사전, 표준 도메인 사전, 표준 용어 사전, 표준 코드 등으로 구성된다.
- 제3절 모델 데이터
- 모델 데이터는 데이터 모델을 관리, 운용하기 위해서 필요로 하는 것으로 완전성, 일관성, 추적성, 상호 연계성, 최신성, 호환성을 가져야 한다.
- 제4절 관리 데이터
- 관리 데이터는 데이터를 효과적으로 관리, 유지하기 위한 프로세스에서 파생되는 것으로 사용 관리 데이터, 장애 및 보안 관리 데이터, 성능 관리 데이터, 흐름 관리 데이터, 품질 관리 데이터가 있다.
- 제5절 업무 데이터
- 업무 데이터는 비즈니스를 영위하기 위해 필요로 하는 것으로 원천 데이터, 운영 데이터, 분석 데이터로 구성된다.
연습문제
문제 1. A기업에서는 업무상 일정한 의미를 갖고 있는 최소 단위의 단어(Word)를 정의한 표준 단어 사전을 구축하려고 한다. 이를 통해 동일한 단어를 서로 다른 의미로 사용하는 경우나 하나의 단어에 다양한 의미를 부여하는 경우 등의 문제를 방지하고자 한다. 다음 중 표준 단어 사전 구축에 대한 내용으로 거리가 먼 것은?
- ① 표준 단어는 정보시스템의 대상 업무 범위에서 사용하고 있거나, 일반적으로 사용되는 사전적 의미의 단어에서 추출해야 한다.
- ② 기업 내에서 구축하는 표준 단어는 업무에 사용되는 것이므로 경우에 따라서는 약어와 방언을 사용할 수 있도록 업무 의존성을 지니고 있어야 한다.
- ③ 표준 단어는 기업에서 새로운 업무를 정의할 때 참조할 수 있어야 한다.
- ④ 표준 단어는 이음동의어를 가질 수 있으나 표준 단어로 선언된 단어는 유사한 의미를 갖는 동의어들을 대표할 수 있어야 한다.
표준단어는 정보시스템의 대상 업무 범위에서 사용하고 있거나 일반적으로 사용되는 사전적 의미의 단어 가운데서 추출해야 한다. 그러나 지나치게 업무에 의존적이거나 방언의 사용은 피해야하며 약어의 사용도 최소화해야 한다. 또한 표준 단어는 일반인도 단어의 의미를 이해할 수 있는 일반성을 가지고 있어야 한다.
문제 2. 기업의 데이터에 대한 구조를 표현하고 있는 데이터로 데이터 참조 모델, 개념 데이터 모델, 논리 데이터 모델, 물리 데이터 모델에 대한 메타 데이터 및 DBMS 객체 정보가 속하는 데이터와 가장 관련이 없는 것은?
- ① 완전성
- ② 통합성
- ③ 일관성
- ④ 상호연계성
모델 데이터는 완전성, 일관성, 추적성, 상호 연계성, 최신성, 호환성 등의 기준에 따라 관리되어야 한다.
문제 3. A기업의 관리 데이터는 데이터베이스를 효과적으로 운영·관리하는데 필요한 데이터를 의미한다. 이를 위해 사용 관리 데이터, 장애 및 보안 관리 데이터, 성능 관리 데이터, 흐름 관리 데이터, 품질 관리 데이터 등을 정의하였다. 다음 중 각 관리 데이터에 대한 정의로 거리가 먼 것은?
- ① 사용 관리 데이터란 데이터베이스의 활용 가치와 사용자의 만족도를 극대화하기 위해서 필수적으로 관리되어야 할 데이터를 의미한다.
- ② ‘장애 및 보안 관리 데이터’ 란 데이터베이스의 정상적인 상태 유지나 효과적인 사용을 방해하는 사건을 사전에 예방하거나 사건 발생 시에 신속한 복구가 이루어질 수 있도록 하기 위해서 관리되어야 할 데이터를 의미한다.
- ③ ‘성능 관리 데이터란 데이터베이스의 성능을 개선시키기 위해 필수적으로 관리해야 할 데이터를 의미한다.
- ④ 흐름 관리 데이터’ 란 데이터의 정합성을 확보하고, 데이터의 품질 유지 및 개선을 위한 작업을 수행하기 위해 기본적으로 관리되어야 할 데이터를 의미한다.
흐름 관리 데이터란 임의의 정보시스템 데이터를 다른 정보시스템으로 이동할 때 소스 데이터와 타깃 데이터 간의 매핑 정보를 관리하는 데이터를 의미한다. 품질 관리 데이터란 데이터의 정합성 확보 및 데이터 품질의 유지, 개선을 위해서 기본적으로 관리되어야 할 데이터를 의미한다. 품질관리 데이터를 관리함으로써 데이터의 비효율적 사용을 예방하고 운용 중에 발생할 수 있는 데이 ..터의 부정합성으로 인해 데이터의 품질저하를 예방할 수 있으므로 운용 시스템 전반의 데이터를 고품질로 유지할 수 있다.
문제 4. 시스템이나 프로그램, 데이터베이스 객체에 의해 시스템으로 관리되지 않는 정보로서 문서의 임의 수정 및 변조가 데이터 품질에 영향을 줄 수 있는 대상으로 일반 문서, PC에 저장된 데이터 파일, 이메일, 팩스 등과 가장 밀접한 관련이 있는 것은?
- ① 원전 데이터
- ② 운영 데이터
- ③ 분석 데이터
- ④ 개발 데이터
원천 데이터는 운영 데이터의 원천이 되는 현실 세계의 데이터로서, 현실 세계에 많을수록 업무규칙과 시스템에서 관리되는 데이터 정합성의 품질 저하를 유발할 수 있다. 그러므로 대량 생산보다는 데이터의 정확성과 신뢰성을 유지하고 만약에 발생될 수 있는 데이터 손실에 대비할 수 있는 수준으로 관리해야 한다.
문제 5. 전사적 데이터웨어하우스와 같은 통합 시스템을 구축하기 위해 표준 요소별로 전사적으로 통합된 표준을 관리하고, 표준에 따라 각 시스템이 구축되어 있는지를 지속적으로 모니터링해야 하고, 정의된 표준에 의해 데이터 모델 및 데이터베이스 스키마가 전영역에 걸쳐 일관되게 적용되고 있는지 확인해야 되는 성격과 관련 있는 것은?
- ① 모델 데이터
- ② 관리 데이터
- ③ 표준 데이터
- ④ 업무 데이터
표준 데이터는 통합성과 일관성에 따라 관리되어야 한다.
문제 6. 다음 중 데이터 품질관리 프레임워크의 구성요소로서, 상호 연계되어 정보시스템의 데이터 품질에 영향을 주고 있는 데이터 품질관리 요소로 적합하지 않은 것은?
- ① 데이터 값
- ② 데이터 구조
- ③ 데이터 표준
- ④ 데이터 관리 프로세스
데이터 품질관리 프레임워크에서 다루는 데이터 품질관리 요소는 데이터 값, 데이터 구조, 데이터 관리 프로세스이다.
문제 7. 표준 단어 사전에 대한 관리 기준으로 거리가 먼 것은?
- ① 표준성
- ② 업무지향성
- ③ 일반성
- ④ 대표성
표준 단어는 정보시스템 구축 대상 업무 범위에서 사용하고 있거나 일반적으로 사용되는 사전적 의미의 단어 가운데에서 추출해야 하니, 지나치게 업무에 의존적이거나 방언을 사용하지 않아야 한다. 또한 약어의 사용도 최소화해야 한다.
문제 8. 다음 문장의 빈 칸에 적합한 것은?업무에서 자주 사용되는 단어의 조합을 의미하는 것으로,는 전사적으로 사용하는 엔터티와 속성을 대상으로 표준 단어 사전에 정의된 단어를 조합하여 정의한다.를 정의함으로써 기업 내부에서 서로 상이한 업무 간에 의사소통이 필요한 경우, 이해 부족으로 유발되는 문제점을 최소화할 수 있다.
- ① 표준 단어
- ② 표준 용어
- ③ 표준 도메인
- ④ 표준 코드
표준 용어에 대한 설명이다.
문제 9. 운영 데이터의 추출(Extract), 변환(Transformation), 적재(Loading) 등의 과정을 통해 생성되는 데이터로, 기관이나 조직의 업무나 제반 활동을 신속하게 지원하기 위해최신성과 정확성이 요구되는 것은?
- ① 원천 데이터
- ② 관리 데이터
- ③ 표준 데이터
- ④ 분석 데이터
분석 데이터에 대한 설명이다.
문제 10. 어떤 조직에서 관리하고 있는 고객 데이터를 이용하여 매월 대금청구서를 발송하면발송한 청구서 중 평균적으로 5% 정도는 반송이 되고 있다. 관리하고 있는 고객의주소 데이터를 검사한 결과 주소가 비어있거나 정의되지 않은 오류 주소값이 발견되지 않았다면, 이 주소 데이터에 대해 의심할 수 있는 품질 기준 항목은 무엇인가?
- ① 정확성
- ② 완전성
- ③ 최신성
- ④ 일관성
운영 데이터에 대한 품질 기준을 이해하고 있는지 여부를 묻는 문제로, 정확성은 원천 데이터와의 일치 여부이고, 완전성은 데이터가 완전한 형태로 업무에 활용할 수 있는 상태로 보유하고 있는지의 여부이다. 최신성은 저장 데이터가 가장 최신의 형태와 값을 유지하고 있는지의 여부이며, 일관성은 데이터가 용어 정의, 표준, 속성 정의, 데이터 형식 등에 부합하는지 여부이다. 문제에서 요구하는 것은 주소 데이터가 오류나 null 값 없이 모두 완전하게 저장되어 있지만 최신의 값과 일치하지 않아 반송되는 경우는 의미하고 있다.