데이터 품질

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 정의
3. 데이터 품질의 차원
4. 역사
5. 이론적 프레임워크
6. 데이터 품질의 중요성
7. 데이터 품질 보증 및 관리
- 7.1. 데이터 품질 보증 (Data Quality Assurance)
- 7.2. 데이터 품질 관리 (Data Quality Control)
8. 데이터 품질 도구 및 기술
9. 데이터 품질 최적 활용
10. 분야별 데이터 품질
11. 관련 단체
참조

1. 개요

데이터 품질은 데이터가 의도된 용도에 얼마나 적합한지를 나타내는 척도이다. 이는 소비자, 비즈니스, 표준 기반 관점에서 정의되며, 접근성, 정확성, 완전성, 일관성, 신뢰성 등 다양한 차원을 포함한다. 데이터 품질은 경제적 손실, 의사 결정 오류와 같은 문제를 야기할 수 있어, 데이터 품질 보증 및 관리, 데이터 품질 도구 및 기술을 통해 관리된다. 데이터 품질은 공공 보건, 오픈 데이터, 의료 데이터 보안 등 다양한 분야에서 중요하게 다루어진다.

더 읽어볼만한 페이지

데이터 품질 - 데이터 무결성
데이터 무결성은 데이터베이스 시스템에서 데이터의 정확성과 유효성을 보장하여 데이터 손상을 방지하고 의도하지 않은 변경을 막는 것을 목표로 하며, 개체, 참조, 범위 무결성 등으로 구분되어 관리되는 핵심 개념이다.
데이터 품질 - 데이터 정제
데이터 정제는 데이터의 유효성, 정확성, 완전성, 일관성, 균일성 확보를 목표로 데이터 감사, 워크플로 사양, 워크플로 실행, 사후 처리 및 제어 단계를 거쳐 데이터의 부정확성과 불일치 문제를 해결하고 신뢰성을 높이는 과정이다.
정보과학 - 시소러스
시소러스는 특정 단어나 개념의 유의어, 상위어, 하위어를 모아놓은 사전으로, 어휘의 의미 관계를 보여주며 글쓰기, 번역 등 다양한 분야에 활용된다.
정보과학 - 지식 표현
지식 표현은 컴퓨터가 인간의 지식을 이해하고 활용하도록 정보를 구조화하는 기술이며, 표현력과 추론 효율성의 균형, 불확실성 처리 등을 핵심 과제로 다양한 기법과 의미 웹 기술을 활용한다.

데이터 품질
개요
정의	데이터 품질은 데이터가 의도된 용도에 적합한 정도를 나타내는 개념이다.
관련 분야	데이터 과학, 정보 관리, 데이터베이스 관리
측정 기준
정확성	데이터가 실제 값과 일치하는 정도
완전성	필요한 모든 데이터가 존재하는 정도
일관성	데이터가 서로 모순 없이 유지되는 정도
적시성	데이터가 필요한 시점에 사용 가능한 정도
유효성	데이터가 정의된 규칙 및 제약 조건을 준수하는 정도
고유성	데이터 내에 중복된 항목이 없는 정도
중요성
비즈니스 의사 결정	정확한 데이터는 효과적인 의사 결정을 지원
운영 효율성	데이터 품질 문제는 오류 및 재작업을 유발하여 비용 증가
규정 준수	데이터 품질은 규제 요구 사항 준수에 필수적
고객 만족도	데이터 품질 저하는 고객 불만 및 신뢰도 하락을 초래
관리
데이터 품질 관리	데이터 품질을 평가, 개선 및 유지하기 위한 프로세스
데이터 거버넌스	데이터 품질 표준 및 정책을 정의하고 시행하는 프레임워크
데이터 프로파일링	데이터의 구조, 내용 및 관계를 분석하여 품질 문제 식별
데이터 정제	오류를 수정하고 불일치를 해결하여 데이터 품질 개선
참고 자료
서적	Data Driven: Profiting from Your Most Important Business Asset Information Governance: Concepts, Strategies, and Best Practices
학술지	BMJ Open Journal of Medical Internet Research

2. 정의

데이터 품질을 정의하는 것은 데이터가 사용되는 다양한 상황과 최종 사용자, 생산자, 데이터 관리자 간의 서로 다른 관점으로 인해 어려움을 겪는다.^[5] 데이터 품질은 크게 소비자 관점, 비즈니스 관점, 표준 기반 관점 등으로 나누어 볼 수 있으며, 각 관점에 따라 세부적인 정의가 달라진다.

일반적으로 데이터 품질은 특정 데이터 집합의 실제 상태와 기대하는 상태를 비교하는 것으로 이해할 수 있다. 여기서 기대하는 상태는 보통 '사용 목적에 적합함', '명세(사양)를 만족함', '소비자 기대를 충족함', '결함이 없음', '요구 사항을 충족함' 등으로 표현된다. 이러한 기대, 명세, 요구 사항 등은 개인이나 집단, 표준화 기구, 법률 및 규정, 비즈니스 정책, 소프트웨어 개발 정책 등에 의해 정의된다.^[5] 또한 데이터 품질은 데이터가 실제 현상을 얼마나 잘 나타내는지를 측정하는 척도로도 볼 수 있다.^[35]

데이터를 특정 용도에 적합하게 만드는 주요 요소로는 완전성, 타당성, 일관성, 적시성, 정확성 등이 꼽힌다.^[36] 즉, 데이터 품질은 특정 용도를 충족하는 능력에 영향을 미치는 데이터의 기능과 특징의 총체이며, 데이터와 관련된 요인들의 우수성을 측정하는 척도의 총합으로 정의할 수도 있다.^[37]

데이터 품질에 관한 이론적 프레임워크도 몇 가지 존재한다. 제품 관점(사양 준수성)과 서비스 관점(고객 만족)을 통합하려는 시도^[38], 기호학적으로 데이터의 형식·의미·이용법의 품질을 평가하는 접근법^[39], 정보 시스템의 존재론적 성질을 분석하여 데이터 품질을 엄밀하게 정의하려는 고도로 이론적인 방법^[40] 등이 있다.

데이터 품질 연구의 상당 부분은 데이터의 속성이나 차원을 적절하게 분류하고 설정하는 데 집중되어 왔다. 예를 들어 정확도, 정당성, 현재성, 완전성, 타당성 등이 그러한 속성에 해당한다. 약 200개에 달하는 관련 용어가 있지만, 이들의 성질, 정의, 측정 방법에 대해서는 아직 명확한 합의가 이루어지지 않은 상태이다.^[41]

2. 1. 소비자 관점

소비자 관점에서 데이터 품질은 다음과 같이 정의할 수 있다.^[5]

데이터 소비자가 사용하기에 적합한 상태.
소비자의 기대를 충족하거나 초과하는 상태.
의도된 사용 목적이나 요구 사항을 충족하는 상태.

2. 2. 비즈니스 관점

비즈니스 관점에서 데이터 품질은 데이터가 의도된 운영, 의사 결정, 계획 등의 목적에 '사용하기에 적합'한 상태를 의미한다.^[6]^[7] 이는 데이터가 사용 목적에 부합하는 '사용 적합성'을 갖추거나, 이를 위해 설정된 '표준을 준수'하는 것을 포함한다.^[6] 또한, 데이터 품질은 기업이 명시적으로 밝힌 비즈니스, 시스템, 기술적 요구 사항을 충족하는 데이터의 능력을 나타내기도 한다.^[8]

2. 3. 표준 기반 관점

데이터라는 객체가 가진 고유한 특성들(품질 차원)이 정해진 요구 사항을 얼마나 만족시키는지를 나타내는 정도이다.^[9]^[5]
특정 응용 프로그램에서 데이터가 얼마나 유용하고, 정확하며, 정밀한지를 의미한다.^[10]

3. 데이터 품질의 차원

데이터 품질에 대한 기대, 명세, 요구 사항은 다음과 같은 다양한 특성 또는 차원으로 표현된다.^[5]^[6]^[7]^[8]^[11]

접근성 또는 가용성
정확성 또는 유효성
비교성
완전성 또는 포괄성
일관성, 연관성, 또는 명확성
신뢰성, 신뢰도 또는 평판
유연성
그럴듯함
관련성, 적절성 또는 유용성
적시성 또는 지연 시간
고유성
유효성 또는 합리성

문헌에 대한 체계적인 검토 결과, 실제 데이터를 사용한 데이터 품질 차원과 방법이 문헌마다 일관성이 부족하며, 데이터의 복잡하고 이질적인 특성으로 인해 품질 평가가 어렵다는 지적이 있다.^[11] 데이터 품질에 관한 이론적 프레임워크는 여러 가지가 존재하는데, 제품 관점(사양 준수)과 서비스 관점(고객 만족)을 통합하려는 시도^[38], 기호학적으로 데이터의 형식·의미·이용법의 품질을 평가하는 접근^[39], 정보 시스템의 존재론적 성질 분석을 통해 데이터 품질을 정의하려는 시도^[40] 등이 있다.

데이터 품질 연구의 상당 부분은 데이터 속성(차원)에 적합한 분류를 설정하는 데 집중되어 있으며, 약 200개에 달하는 관련 용어가 있지만, 그 성질, 정의, 척도에 대한 합의는 아직 부족하다.^[41] 이는 소프트웨어 품질 분야의 용어 문제와 유사한 측면이 있다. 매사추세츠 공과대학교(MIT)에서는 Total Data Quality Management 프로그램을 통해 관련 연구를 활발히 진행하고 있다.

실제로 데이터 품질은 데이터 웨어하우스, 고객 관계 관리(CRM), 비즈니스 인텔리전스(BI), 공급망 관리(SCM) 등 다양한 정보 시스템 전문가가 고려해야 할 중요한 사항이다. 미국에서는 데이터 품질 문제로 인한 비용이 연간 6000억달러 이상으로 추정되기도 했다.^[42] 이에 따라 기업 내 데이터 품질 문제를 전문적으로 다루는 데이터 거버넌스 팀을 운영하는 기업이 늘고 있으며, 경우에 따라 컴플라이언스 부서가 이 역할을 맡기도 한다.

데이터 품질 문제는 단순히 데이터가 잘못된 경우뿐만 아니라, 상호 모순되는 데이터로 인해서도 발생한다. 부문별로 나뉜 시스템을 통합하고 데이터를 집중 관리하는 것이 기업 내 데이터의 일관성을 유지하는 첫걸음이 될 수 있다.

시중에는 데이터 품질 보증을 위한 다양한 제품과 서비스가 등장하고 있다. 데이터 품질 도구는 주로 다음과 같은 기능을 제공한다.

; 데이터 프로파일링

: 품질 문제를 파악하기 위해 데이터를 분석하는 도구

; 데이터 표준화

: 데이터가 정해진 품질 규칙을 따르도록 보장하는 비즈니스 규칙 엔진

; 지오코딩

: 이름과 주소 데이터를 표준 형식으로 수정하거나, 주소를 지도상의 위치 정보로 변환하는 도구

; 매칭 및 링크 도구

: 미묘하게 다른 데이터를 찾아 매칭시키고 수정하는 도구. 퍼지 논리 등을 사용하여 표기 변동을 처리하고 중복 데이터를 찾아낸다. (예: 영어 이름 "Bob"과 "Robert"를 동일하게 인식)

; 감시 도구

: 데이터 품질을 지속적으로 감시하고 보고하며, 규칙에 따라 자동 수정 기능을 제공하는 도구

; 배치 방식과 실시간 방식

: 초기에 전체 데이터를 일괄 처리(배치)하거나, 시스템 운영 중 실시간으로 데이터 품질을 관리하는 방식

2004년에는 국제 정보 및 데이터 품질 협회(International Association for Information and Data Quality, IAIDQ)가 창설되어 데이터 품질 분야의 발전을 도모하고 있다.

3. 1. 접근성 (Accessibility)

데이터 품질의 여러 특성 또는 차원 중 하나로 접근성 또는 가용성이 있다.^[5]^[6]^[7]^[8]^[11] 이는 데이터에 얼마나 쉽게 접근하고 사용할 수 있는지를 나타내는 척도이다.

3. 2. 정확성 (Accuracy)

데이터의 정확성(Accuracy) 또는 유효성(Validity)은 데이터 품질을 평가하는 중요한 기준 중 하나이다.^[5]^[6]^[7]^[8]^[11] 이는 데이터가 실제 세계의 값이나 현상을 얼마나 정확하게 반영하는지를 나타낸다. 데이터 품질은 정확성 외에도 접근성, 완전성, 일관성, 적시성 등 다양한 차원에서 평가된다.^[5]^[6]^[7]^[8]^[11]

3. 3. 비교성 (Comparability)

데이터에 대한 기대, 명세, 요구 사항을 나타내는 여러 데이터 품질의 특성 또는 차원 중 하나로 비교성이 언급된다.^[5]^[6]^[7]^[8]^[11]

3. 4. 완전성 (Completeness)

완전성 또는 포괄성은 데이터 품질의 중요한 차원 중 하나로, 필요한 모든 데이터가 누락 없이 존재하는지를 나타낸다.^[5]^[6]^[7]^[8]^[11] 이는 데이터 집합이 특정 요구 사항이나 명세를 충족시키는 데 필요한 모든 값을 포함하고 있는지를 평가하는 기준이 된다.

3. 5. 일관성 (Consistency)

데이터 품질을 평가하는 여러 기준 중 하나로 일관성이 있다. 이는 데이터가 서로 모순되지 않고 일관된 상태를 유지하는 정도를 의미한다. 데이터 품질의 여러 특성 또는 차원 중 하나로 언급되며, 때로는 연관성 또는 명확성과 함께 묶여 다루어지기도 한다.^[5]^[6]^[7]^[8]^[11]

3. 6. 신뢰성 (Reliability)

데이터 품질의 신뢰성(Reliability^eng)은 해당 데이터를 얼마나 믿을 수 있는지를 나타내는 중요한 지표이다.^[5]^[6]^[7]^[8]^[11] 이는 데이터의 신뢰도 또는 평판과 같은 의미로 사용되기도 하며, 데이터 품질을 평가하는 여러 기대, 명세, 요구 사항 중 하나이다.^[5]^[6]^[7]^[8]^[11]

데이터 품질은 신뢰성 외에도 다음과 같은 다양한 차원으로 표현될 수 있다.^[5]^[6]^[7]^[8]^[11]

접근성 또는 가용성
정확성 또는 유효성
비교성
완전성 또는 포괄성
일관성, 연관성, 또는 명확성
유연성
그럴듯함
관련성, 적절성 또는 유용성
적시성 또는 지연 시간
고유성
유효성 또는 합리성

다만, 문헌에 대한 체계적인 검토 결과, 실제 데이터를 사용한 데이터 품질 차원과 방법이 문헌마다 일관성이 부족하다는 점이 지적되었다. 이는 데이터 자체의 복잡하고 이질적인 특성으로 인해 품질 평가가 어렵기 때문인 것으로 분석된다.^[11]

3. 7. 유연성 (Flexibility)

데이터 품질의 한 차원으로서, 유연성은 데이터가 다양한 용도와 요구 사항에 얼마나 잘 적응하고 활용될 수 있는지를 나타내는 특성이다.^[5]^[6]^[7]^[8]^[11] 데이터가 본래 수집된 목적 외에도 다른 분석이나 시스템 환경에서도 효과적으로 사용될 수 있을 때 유연성이 높다고 평가할 수 있다. 이는 데이터의 재사용성과 확장성을 의미하며, 변화하는 비즈니스 환경이나 새로운 분석 요구에 데이터가 얼마나 민첩하게 대응할 수 있는지를 보여주는 중요한 지표가 된다.

3. 8. 관련성 (Relevance)

데이터 품질의 한 차원인 관련성(Relevance^영어)은 데이터가 특정 목적이나 사용 사례와 얼마나 관련이 있는지, 즉 적절하고 유용한지를 나타낸다. 이는 데이터에 대한 기대, 명세, 요구 사항을 표현하는 여러 데이터 품질 특성 중 하나로 여겨진다.^[5]^[6]^[7]^[8]^[11]

3. 9. 적시성 (Timeliness)

데이터 품질의 여러 특성 또는 차원 중 하나로 적시성 또는 지연 시간이 있다.^[5]^[6]^[7]^[8]^[11]

3. 10. 고유성 (Uniqueness)

데이터 품질을 평가하는 여러 기준 중 하나로, 데이터 집합 내에서 특정 데이터 값이 중복되지 않고 유일하게 존재하는 정도를 의미한다.^[5]^[6]^[7]^[8]^[11] 즉, 동일한 데이터가 여러 번 나타나지 않아야 데이터의 고유성(Uniqueness)이 높다고 할 수 있다.

데이터 품질은 고유성 외에도 접근성, 정확성 또는 유효성, 비교성, 완전성, 일관성, 신뢰성, 유연성, 그럴듯함, 관련성, 적시성 등 다양한 차원으로 평가된다.^[5]^[6]^[7]^[8]^[11]

3. 11. 유효성 (Validity)

데이터 품질을 평가하는 여러 기대, 명세, 요구 사항은 다양한 데이터의 특성 또는 차원으로 표현되며,^[5]^[6]^[7]^[8]^[11] 유효성(Validity)은 이러한 차원 중 하나이다. 일부 문헌에서는 유효성을 정확성과 함께 묶어 '정확성 또는 유효성'으로 표현하거나,^[5]^[6]^[7]^[8]^[11] '유효성 또는 합리성'으로 언급하기도 한다.^[5]^[6]^[7]^[8]^[11]

4. 역사

데이터 품질 관리의 역사는 컴퓨터 데이터 저장소 기술의 발전과 밀접하게 연관되어 있다. 저렴한 저장 기술이 등장하기 전, 대형 메인프레임 컴퓨터는 주로 우편물 배송의 정확성을 높이기 위해 이름과 주소 데이터를 관리하는 데 사용되었다. 이 과정에서 데이터의 오타나 오류를 수정하고, 고객 정보 변경 사항을 추적하는 등 초기적인 데이터 품질 관리가 이루어졌다. 미국에서는 미국 우정청(USPS)의 전국 주소 변경 등록부(NCOA)와 기업 데이터와 상호 참조하여 데이터의 정확성을 높이고 우편 비용을 절감하는 효과를 보았다.

초기에는 이러한 데이터 품질 관리가 외부 전문 서비스를 통해 제공되었으나, 저렴하고 강력한 서버 기술이 보급되면서 점차 기업 내부에서 직접 데이터를 관리하는 방식으로 변화하였다.

이후 데이터 품질의 중요성은 단순히 마케팅 목적의 이름과 주소 정보 관리를 넘어, 공급망 데이터, 거래 데이터 등 기업 활동 전반에 걸친 모든 유형의 데이터로 확장되었다. 예를 들어, 공급망 데이터의 품질을 확보하면 재고 관리 효율화, 비용 절감 등의 효과를 얻을 수 있다. 또한, 연구 중심 기업에서는 연구 방법론 프로토콜 개발, 측정 오류 감소, 데이터 무결성 검증 등 더욱 폭넓은 개념으로 데이터 품질 관리가 이루어진다.

4. 1. 메인프레임 시대

저렴한 컴퓨터 데이터 저장소가 보급되기 이전 시대에는, 주로 대형 메인프레임 컴퓨터를 사용하여 데이터를 관리했다. 특히 배송 서비스 등에서는 고객의 이름과 주소 데이터를 정확하게 유지하는 것이 중요했는데, 이는 우편물이 목적지에 제대로 도달하도록 하기 위함이었다. 메인프레임 시스템은 미리 정의된 비즈니스 규칙을 활용하여 이름과 주소 데이터에서 흔히 발생하는 오타나 오기 오류를 수정했다. 또한, 이사, 사망, 수감, 결혼, 이혼 등 고객의 신상 변화에 따른 정보를 추적하고 관리하는 역할도 수행했다.

미국에서는 정부 기관이 소수의 데이터 서비스 회사에 우편 데이터를 제공하여, 이들 회사가 보유한 고객 데이터를 미국 우정청(USPS)의 전국 주소 변경 등록부(NCOA, National Change of Address registry)와 상호 참조하도록 했다. 이러한 데이터 정제 과정을 통해 대기업들은 고객 데이터를 수동으로 수정하는 데 드는 막대한 비용을 절약할 수 있었다. 청구서나 다이렉트 메일과 같은 마케팅 자료가 의도된 수신자에게 더 정확하게 전달되면서 우편 요금 또한 절감되는 효과를 보았다.

초기에는 이러한 데이터 품질 관리가 주로 외부 전문 서비스를 통해 제공되었으나, 점차 저렴하고 강력한 서버 기술이 보급되면서 기업들이 자체적으로 데이터 품질을 관리하는 방식으로 변화했다.

4. 2. 서버 기술 발전

과거 저렴한 컴퓨터 데이터 저장소나 서버 기술이 널리 보급되기 전에는, 기업들이 주로 대형 메인프레임 컴퓨터를 사용하여 데이터를 관리했다. 특히 우편물 배송 서비스와 관련된 이름 및 주소 데이터 관리가 중요했는데, 이는 우편물이 정확한 목적지로 배송되도록 하기 위함이었다. 당시 메인프레임 시스템은 정해진 비즈니스 규칙에 따라 이름과 주소 데이터에서 흔히 발생하는 오타나 잘못된 기입 오류를 수정하는 역할을 했다. 또한, 이사, 사망, 수감, 결혼, 이혼 등 고객 정보 변경 사항을 추적하여 데이터를 최신 상태로 유지하려 노력했다.

미국에서는 정부 기관이 소수의 전문 서비스 회사에 우편 데이터를 제공하여, 이들 회사가 기업 고객 데이터를 미국 우정청(USPS)의 전국 주소 변경 등록부(National Change of Address, NCOA)와 비교하며 검증하도록 했다. 이러한 외부 데이터 품질 관리 서비스는 대기업들이 고객 데이터를 직접 수동으로 수정하는 데 드는 막대한 비용과 노력을 절감하는 데 크게 기여했다. 기업들은 청구서나 다이렉트 메일 같은 마케팅 자료가 의도된 고객에게 더 정확하게 전달됨으로써 우편 요금을 절약하는 효과를 보았다.

초기에는 이처럼 데이터 품질 관리가 주로 외부 전문 서비스를 통해 이루어졌으나, 이후 저렴하면서도 성능이 뛰어난 서버 기술이 널리 보급되면서 상황이 변화했다. 기업들은 더 이상 외부 서비스에 전적으로 의존하지 않고, 자체적으로 데이터 품질을 관리할 수 있는 역량을 갖추게 되었다. 결과적으로 데이터 품질 관리의 중심은 외부 서비스 제공 업체에서 기업 내부로 점차 이동하게 되었다.

4. 3. 다양한 분야로 확대

과거 데이터 품질 관리는 주로 마케팅 목적에 초점을 맞추었다. 컴퓨터 데이터 저장소 비용이 높았던 시절, 대형 메인프레임 컴퓨터는 우편물이 정확한 수신자에게 도달하도록 이름과 주소 데이터를 관리하는 데 사용되었다. 비즈니스 규칙을 적용하여 흔한 오타나 오류를 수정하고, 이사, 사망 등 고객 정보 변경 사항을 추적했다. 미국 우정청(USPS)의 전국 주소 변경 등록부(NCOA)와 같은 외부 데이터베이스와 상호 참조하여 데이터 정확도를 높였고, 이를 통해 기업들은 다이렉트 메일 발송 비용을 절감할 수 있었다. 초기에는 외부 서비스를 통해 데이터 품질 관리가 이루어졌지만, 저렴하고 강력한 서버 기술이 보급되면서 기업 내부에서 직접 데이터 품질을 관리하는 추세로 변화했다.

그러나 데이터 품질의 중요성은 단순히 이름과 주소 정보에 국한되지 않고 모든 유형의 데이터로 확장되었다. 데이터 품질 원칙은 공급망 데이터, 거래 데이터 등 기업 활동 전반에 걸쳐 중요한 요소로 인식되고 있다. 예를 들어, 공급망 데이터를 특정 표준에 맞춰 관리하면 다음과 같은 가치를 얻을 수 있다.

# 유사하지만 미묘하게 다른 제품의 과잉 재고를 방지한다.

# 실제로는 재고가 있지만 없는 것으로 잘못 파악하는 상황(허위 재고 부족)을 막는다.

# 벤더별 구매량을 정확히 파악하여 거래량 할인을 협상하는 데 유리하다.

# 대규모 조직 내에서 부품의 재고 관리 및 배송에 드는 물류 비용을 절감한다.

이름과 주소 데이터는 우편 시스템 덕분에 국가별 표준 형식이 비교적 잘 갖춰져 있지만, 다른 종류의 데이터는 표준이 없는 경우가 많다. 이러한 데이터에 대해서도 표준화를 시도하려는 노력이 있으며, 비영리 조직인 GS1 등이 이러한 움직임을 주도하고 있다.

또한, 연구 활동을 많이 수행하는 기업의 경우 데이터 품질은 더욱 넓은 의미를 갖는다. 연구 방법론에 대한 프로토콜 개발, 측정 오류 감소, 데이터의 경계 확인, 교차 집계, 모델링 및 이상치 탐지, 데이터 무결성 검증 등 다양한 활동이 데이터 품질 관리 범위에 포함될 수 있다.

5. 이론적 프레임워크

데이터 품질을 이해하기 위한 여러 이론적 프레임워크가 존재한다.

시스템 이론적 접근: 미국 실용주의의 영향을 받은 이 접근 방식은 데이터 품질의 정의를 정보 품질까지 확장하고, 과학 이론을 바탕으로 정확도와 정밀도의 기본 차원의 중요성을 강조한다(Ivanov, 1972).
통계적 공정 관리: "무결점 데이터"(Hansen, 1991)라고 불리는 프레임워크는 통계적 공정 관리의 원칙을 데이터 품질에 적용한다.
제품 및 서비스 관점 통합: 제품 관점(사양 준수)과 서비스 관점(소비자 기대 충족)을 통합하려는 시도도 있다(Kahn et al. 2002).^[38]
기호학 기반 접근: 데이터의 형식, 의미, 사용의 품질을 평가하기 위해 기호학을 기반으로 하는 프레임워크도 존재한다(Price and Shanks, 2004).^[39]
존재론적 접근: 정보 시스템의 존재론적 특성을 분석하여 데이터 품질을 엄격하게 정의하려는 매우 이론적인 접근 방식도 있다(Wand and Wang, 1996).^[40]

상당한 양의 데이터 품질 연구는 데이터의 바람직한 속성(또는 차원)의 다양한 범주를 조사하고 설명하는 데 초점을 맞춘다. 예를 들어 정확도, 정당성, 현재성, 완전성, 타당성 등이 이러한 속성에 해당한다. 이러한 용어가 거의 200개나 확인되었지만, 그 본질(이것이 개념, 목표 또는 기준인지 여부), 정의 또는 측정 방법에 대한 합의는 거의 이루어지지 않았다(Wang et al., 1993).^[41] 이는 소프트웨어 품질에서 다양한 속성("~성")을 정의하고 측정하는 데 겪는 어려움과 유사하다고 볼 수 있다.

MIT에는 리처드 왕(Richard Wang) 교수가 이끄는 정보 품질(MITIQ) 프로그램이 있다. 이 프로그램은 해당 분야에서 많은 연구 결과물을 발표하고 중요한 국제 회의인 정보 품질 국제 회의(ICIQ)를 개최한다. 이 프로그램은 Hansen의 "무결점 데이터" 프레임워크 연구에서 시작되었다(Hansen, 1991).

ISO 8000은 데이터 품질에 관한 국제 표준이다.^[16]

6. 데이터 품질의 중요성

실제로 데이터 품질은 데이터 웨어하우징 및 비즈니스 인텔리전스에서 고객 관계 관리 및 공급망 관리에 이르기까지 광범위한 정보 시스템과 관련된 전문가에게 중요한 문제이다. 데이터 품질 문제로 인해 발생하는 경제적 손실 규모는 상당하며, 한 산업 연구에 따르면 미국 내에서만 연간 총 6000억달러를 초과하는 것으로 추산되었다.^[12]^[42] 이러한 잘못된 데이터는 데이터 입력 오류나 데이터 마이그레이션 및 변환 프로젝트 과정에서 다양한 데이터 소스로부터 발생할 수 있다.^[12]

구체적인 사례로, 2002년 미국 우편 서비스(USPS)와 프라이스워터하우스쿠퍼스는 미국에서 발송되는 우편물의 23.6%가 잘못된 주소로 발송된다고 보고했다.^[13] 또한, 연락처 데이터는 시간이 지남에 따라 정확성이 떨어지기 쉬운데, 미국에서는 매년 4,500만 명 이상이 주소를 변경하는 것이 주요 원인 중 하나이다.^[14]

이러한 데이터 품질 문제의 심각성 때문에, 많은 기업들이 데이터 품질을 전문적으로 관리하는 데이터 거버넌스 팀을 구성하기 시작했다. 일부 조직에서는 이 데이터 거버넌스 기능이 더 큰 규정 준수 기능의 일부로 설립되기도 하는데, 이는 데이터 및 정보 품질이 조직 운영에 얼마나 중요한지를 보여준다.

데이터 품질 문제는 단순히 데이터가 '잘못된' 경우에만 국한되지 않는다. 데이터 간의 '일관성 부족' 역시 심각한 문제를 야기할 수 있다. 기업들은 섀도 시스템을 제거하고 데이터를 데이터 웨어하우스 등에 중앙 집중화하여 데이터 일관성을 확보하려는 노력을 기울이고 있다.

최근에는 기업, 과학자, 연구자들이 공통 데이터의 품질을 개선하기 위해 데이터 큐레이션 커뮤니티에 참여하는 움직임도 나타나고 있다.^[15]

시장은 데이터 품질 보증을 제공하는 방향으로 나아가고 있다. 많은 공급업체들이 품질이 낮은 데이터를 분석하고 복구하는 도구를 개발하고 있으며, 서비스 제공업체는 계약을 통해 데이터를 정리해주고, 컨설턴트는 데이터 품질 문제가 발생하는 것을 사전에 방지하기 위한 프로세스나 시스템 개선 방안을 조언한다. 대부분의 데이터 품질 도구는 다음과 같은 기능을 포함하는 도구 모음을 제공한다.

# '''데이터 프로파일링''': 데이터의 현재 상태를 파악하기 위해 초기 평가를 수행하며, 값의 분포 등을 분석한다.

# '''데이터 표준화''': 데이터가 정해진 표준을 준수하도록 보장하는 비즈니스 규칙 엔진을 사용한다.

# '''지오코딩''': 이름 및 주소 데이터를 미국 및 전 세계 지리 표준에 따라 수정하고 형식화한다. 주소 정보를 지도상의 위치 정보로 변환하기도 한다.

# '''매칭 또는 연결''': 유사하지만 약간 다른 레코드를 비교하여 정렬하고 연결한다. 퍼지 논리를 사용하여 데이터 내에서 중복 항목을 찾아낼 수 있으며, 예를 들어 'Bob'과 'Robert'가 동일 인물일 수 있음을 인식하거나, 같은 주소에 사는 가족 구성원을 연결하는 등의 작업을 수행한다. 여러 데이터 소스에서 최상의 정보를 조합하여 가장 완전한 단일 레코드를 생성할 수도 있다.

# '''모니터링''': 시간이 지남에 따라 데이터 품질을 추적하고 변화를 보고한다. 미리 정의된 비즈니스 규칙에 따라 데이터 변동 사항을 자동으로 수정할 수도 있다.

# '''배치 및 실시간 처리''': 초기 데이터 정리는 대량으로(배치 방식) 이루어지지만, 이후에는 엔터프라이즈 애플리케이션 내에 데이터 정제 프로세스를 구축하여 실시간으로 데이터 품질을 유지하려고 노력한다.

ISO 8000은 데이터 품질에 관한 국제 표준이다.^[16]

7. 데이터 품질 보증 및 관리

데이터 품질을 보증하고 관리하는 것은 데이터의 신뢰성을 높이고 효과적으로 활용하기 위한 필수적인 과정이다. 데이터 품질 보증은 데이터 내의 불일치나 이상 현상을 찾아내기 위해 데이터 프로파일링을 수행하고, 데이터 정제 활동(예: 이상치 제거, 누락 데이터 보간)을 통해 데이터 품질을 개선하는 활동을 의미한다.^[17]^[18] 이러한 활동은 데이터 웨어하우징이나 기존 응용 소프트웨어의 데이터베이스 관리 과정에서 이루어질 수 있다.^[19]

반면, 데이터 품질 관리는 특정 애플리케이션이나 프로세스에서 데이터가 올바르게 사용되도록 제어하는 과정이다. 이는 데이터 품질 보증(QA) 프로세스 전후에 이루어지며, 데이터의 불일치를 발견하고 수정하는 작업을 포함한다. 품질 관리(QC) 프로세스는 품질 보증 과정에서 얻은 정보를 바탕으로 데이터의 사용 여부를 결정하여, 잘못된 데이터로 인해 발생할 수 있는 문제를 예방하는 중요한 역할을 한다.

데이터 품질 문제는 단순히 데이터가 잘못된 경우뿐만 아니라, 데이터 간의 상호 모순으로 인해서도 발생한다. 이러한 문제 해결의 중요성이 커지면서, 최근에는 기업 내 데이터 품질 문제를 전문적으로 다루는 데이터 거버넌스 팀을 운영하는 사례가 늘고 있다. 데이터 품질 문제로 인해 발생하는 사회경제적 비용 또한 상당하며, 한 연구에서는 미국 내 관련 비용이 연간 6000억달러 이상에 달한다고 추정하기도 했다.^[42] 데이터 품질을 효과적으로 보증하고 관리하기 위한 다양한 이론적 접근, 구체적인 방법론, 그리고 관련 도구들이 개발되고 있다. 이에 대한 자세한 내용은 데이터 품질 보증 및 데이터 품질 관리 하위 섹션에서 다룬다.

7. 1. 데이터 품질 보증 (Data Quality Assurance)

데이터 품질 보증은 데이터 내의 불일치 및 기타 이상 현상을 발견하기 위한 데이터 프로파일링 과정이며, 데이터 품질을 개선하기 위해 데이터 정제 활동(예: 이상치 제거, 누락된 데이터 보간)을 수행하는 것을 의미한다.^[17]^[18]

이러한 활동은 데이터 웨어하우징의 일부로 또는 기존 응용 소프트웨어의 데이터베이스 관리의 일부로 수행될 수 있다.^[19] 데이터 품질에 관한 이론적 프레임워크는 몇 가지 존재한다. 어떤 프레임워크는 제품의 관점(사양 준수성)과 서비스의 관점(고객 만족)을 통합하려 하며^[38], 다른 프레임워크는 기호학적으로 데이터의 형식·의미·이용법의 품질을 평가하는 것을 기본으로 한다.^[39] 고도로 이론적인 방법으로는 정보 시스템의 존재론적 성질을 분석함으로써 데이터 품질을 엄밀하게 정의하려는 시도도 있다.^[40]

데이터 품질에 관한 연구의 대부분은 데이터의 속성(및 차원)에 적합한 분류를 조사하고 설정하는 것과 관련되어 있다. 예를 들어, 정확도, 정당성, 현재성, 완전성, 타당성 등이 그것이다. 약 200개나 되는 그러한 용어가 있지만, 그것들의 성질, 정의, 척도에 대해서는 아직 합의가 이루어졌다고 보기 어렵다.^[41] 이는 소프트웨어 품질에서 다양한 "○○성"이라는 용어들이 가지는 문제와 유사하다고 볼 수 있다.

매사추세츠 공과대학교(MIT)에서는 리처드 왕(Richard Wang)을 중심으로 하는 '총체적 데이터 품질 관리'(Total Data Quality Management) 프로그램을 운영하며, 다수의 논문을 발표하고 이 분야의 국제 회의를 여러 차례 개최하고 있다.

실제로 데이터 품질은 데이터 웨어하우스, 고객 관계 관리(CRM)의 비즈니스 인텔리전스(BI), 공급망 관리(SCM) 등 다양한 정보 시스템과 관련된 전문가들이 고려해야 할 중요한 사항이다. 한 연구에 따르면, 미국에서 데이터 품질 문제로 인해 발생하는 비용은 매년 6000억달러 이상으로 추정된다.^[42] 최근에는 기업 내 데이터 품질 문제를 전문적으로 다루는 데이터 거버넌스 팀을 신설하는 기업들이 나타나고 있다. 일부 기업에서는 컴플라이언스를 담당하는 부서가 데이터 거버넌스 기능을 함께 수행하기도 하며, 데이터 및 정보 품질의 중요성이 점차 확산되고 있다.

데이터 품질의 문제는 단순히 데이터가 잘못된 경우뿐만 아니라, 상호 모순된 데이터도 마찬가지로 문제를 일으킨다. 부문별로 분산된 시스템을 통합하고 데이터를 집중 관리하는 것은 기업 내 데이터의 일관성을 유지하는 첫걸음이 된다.

시장에서 데이터 품질 보증을 제공하는 제품과 서비스가 등장하고 있다. 다양한 벤더들이 데이터 품질을 분석하고 개선하는 도구를 판매하고 있으며, 서비스 제공업체들은 계약에 따라 데이터 정제 서비스를 제공하고, 컨설턴트들은 데이터 품질 저하의 원인을 제거하기 위한 조언을 제공한다. 데이터 품질 도구는 다음과 같은 요소들로 구성된다.

; 데이터 프로파일링 : 품질 문제를 인식하기 위해 초기에 데이터를 분석하는 도구.

; 데이터 표준화 : 데이터가 정해진 품질 규칙을 따르도록 보장하는 비즈니스 규칙 엔진.

; 지오코딩 : 이름과 주소 데이터에 특화된 도구로, 데이터를 우편 주소 표준 형식에 맞게 수정한다. 주소 정보를 지도상의 위치 정보로 변환하는 도구를 의미하기도 한다.

; 매칭 및 링크 도구 : 미묘하게 다른 데이터를 찾아내어 일치시키고 수정하는 도구. 퍼지 논리를 사용하여 데이터 내의 표기 변동을 처리하고 중복 데이터를 찾아낸다. 예를 들어, 영어 이름 "Bob"과 "Robert"를 동일하게 판단할 수 있다. 또한, 서로 다른 데이터 소스에 있는 정보 중 가장 상세한 것을 최적의 데이터로 선택하여 기록할 수 있다.

; 감시 도구 : 데이터 품질을 지속적으로 감시하고 현재 상태를 보고하는 도구. 설정된 비즈니스 규칙에 따라 표기 변동 등을 자동으로 수정할 수도 있다.

; 배치 방식과 실시간 방식 : 데이터는 초기에 전체적으로 정제(배치 방식)될 수 있다. 기업들은 높은 데이터 품질을 전제로 시스템을 구축하려는 경향이 있으며, 이 경우 앞서 언급한 감시 도구 등을 사용하여 높은 데이터 품질 상태를 유지한다(실시간 방식).

2004년에는 정보 및 데이터 품질 국제 협회(International Association for Information and Data Quality, IAIDQ)가 창설되었다.

7. 2. 데이터 품질 관리 (Data Quality Control)

데이터 품질 관리는 애플리케이션이나 프로세스에서 데이터 사용을 제어하는 과정이다. 이 과정은 데이터 품질 보증(QA) 프로세스 전후에 수행되며, 데이터의 불일치를 발견하고 수정하는 작업을 포함한다.

QA 프로세스 전에는 입력 데이터를 제한하는 등의 조치가 이루어진다. QA 프로세스 후에는 다음과 같은 통계 지표들이 수집되어 품질 관리(QC) 프로세스에 활용된다.

불일치의 심각성
불완전성
정확성
정밀도
누락 / 알 수 없음

데이터 QC 프로세스는 QA 프로세스에서 얻은 정보를 바탕으로 해당 데이터를 분석, 애플리케이션 또는 비즈니스 프로세스에 사용할지 여부를 결정한다. 예를 들어, QC 프로세스에서 데이터에 오류나 불일치가 과도하게 발견되면, 해당 데이터를 사용하지 않도록 하여 잠재적인 문제를 예방한다. 항공기의 자동 조종 시스템에 여러 센서로부터 유효하지 않은 측정값이 입력될 경우 추락으로 이어질 수 있듯이, QC 프로세스는 데이터 사용의 안전성을 확보하는 중요한 역할을 한다.

데이터 품질에 관한 여러 이론적 프레임워크가 존재한다. 어떤 프레임워크는 제품 관점(사양 준수성)과 서비스 관점(고객 만족)을 통합하려 시도하며^[38], 다른 프레임워크는 기호학적 관점에서 데이터의 형식, 의미, 이용법의 품질을 평가하는 것을 기본으로 한다^[39]. 또한, 정보 시스템의 존재론적 성질을 분석하여 데이터 품질을 엄밀하게 정의하려는 고도로 이론적인 접근법도 있다^[40].

데이터 품질 연구의 상당 부분은 데이터의 속성(또는 차원)에 적합한 분류를 찾고 설정하는 것과 관련된다. 여기에는 정확도, 정당성, 현재성, 완전성, 타당성 등이 포함된다. 약 200개에 달하는 관련 용어가 존재하지만, 이들의 성질, 정의, 측정 방법에 대해서는 아직 명확한 합의가 이루어지지 않았다^[41]. 이는 소프트웨어 품질 분야에서 다양한 '성'으로 끝나는 용어들의 문제와 유사하다고 볼 수 있다.

매사추세츠 공과대학교(MIT)에서는 Richard Wang을 중심으로 Total Data Quality Management 프로그램을 운영하며 다수의 논문을 발표하고 관련 국제 회의를 개최하는 등 이 분야 연구를 선도하고 있다.

실제로 데이터 품질은 데이터 웨어하우스, 고객 관계 관리(CRM)의 비즈니스 인텔리전스, 공급망 관리(SCM) 등 다양한 정보 시스템 관련 전문가들이 반드시 고려해야 할 중요한 사항이다. 한 연구에 따르면 미국에서 데이터 품질 문제로 인해 발생하는 비용은 연간 6000억달러 이상으로 추산된다^[42]. 이러한 중요성 때문에 최근 기업 내 데이터 품질 문제를 전문적으로 다루는 데이터 거버넌스 팀을 신설하는 기업들이 늘고 있다. 일부 기업에서는 기업 컴플라이언스 부서가 데이터 거버넌스 기능을 함께 수행하기도 한다.

데이터 품질 문제는 단순히 데이터가 잘못된 경우뿐만 아니라, 데이터 간의 상호 모순으로 인해서도 발생한다. 부문별로 개별 시스템을 운영하는 대신 데이터를 중앙에서 집중 관리하는 것은 기업 내 데이터의 일관성을 유지하기 위한 첫걸음이 될 수 있다.

시장에는 데이터 품질 보증을 위한 다양한 제품과 서비스가 등장하고 있다. 여러 벤더들이 데이터 품질을 분석하고 개선하는 도구를 판매하고 있으며, 서비스 제공 업체들은 계약에 따라 데이터 클렌징 서비스를 제공하고, 컨설턴트들은 데이터 품질 저하의 원인을 제거하기 위한 자문을 제공한다. 주요 데이터 품질 도구는 다음과 같다.

데이터 품질 도구
도구 유형	주요 기능
데이터 프로파일링	초기 데이터 분석을 통해 품질 문제 식별
데이터 표준화	비즈니스 규칙 엔진을 사용하여 데이터가 품질 규칙을 따르도록 보증
지오코딩	이름과 주소 데이터를 표준 형식(예: 우편 주소)으로 수정하거나 지도 위치 정보로 변환
매칭 및 링크 도구	퍼지 논리 등을 사용하여 미묘하게 다른 데이터를 식별하고 연결(매칭)하여 중복 제거 및 데이터 통합 (예: Bob과 Robert 동일 처리, 부부 고객 주소 연결)
감시 도구	데이터 품질을 지속적으로 모니터링하고 보고하며, 규칙에 따라 자동 수정 수행

데이터 품질 개선 작업은 일반적으로 초기에 전체 데이터를 대상으로 일괄 처리하는 배치 방식과, 시스템 운영 중 실시간으로 품질을 관리하는 방식으로 나뉜다. 기업들은 높은 데이터 품질을 전제로 시스템을 구축하려는 경향이 있으며, 이를 위해 앞서 언급된 감시 도구 등을 활용하여 데이터 품질을 지속적으로 높은 수준으로 유지하고자 한다.

2004년에는 정보 및 데이터 품질 분야의 국제 협회인 International Association for Information and Data Quality (IAIDQ)가 창설되었다.

8. 데이터 품질 도구 및 기술

시장에서 데이터 품질 보증을 제공하는 제품과 서비스가 등장하고 있다. 다양한 벤더로부터 데이터 품질을 분석하고 개선하기 위한 도구가 판매되고 있으며, 서비스 프로바이더는 계약에 따라 데이터 클렌징 서비스를 제공하고, 컨설턴트는 데이터 품질 문제의 근본 원인을 해결하기 위한 자문을 제공한다. 데이터 품질 도구는 일반적으로 다음과 같은 기능을 포함한다.

; 데이터 프로파일링

: 데이터 품질 문제를 식별하기 위해 초기 단계에서 데이터를 분석하는 도구이다.

; 데이터 표준화

: 데이터가 정의된 품질 규칙을 준수하도록 보장하는 비즈니스 규칙 엔진이다.

; 지오코딩

: 주로 이름과 주소 데이터에 사용되며, 데이터를 우편 주소 표준 형식에 맞게 수정한다. 주소 정보를 지도상의 위치 정보(좌표)로 변환하는 기능도 포함될 수 있다.

; 매칭 도구와 링크 도구

: 서로 미묘하게 다른 데이터를 식별하고 연결하여 일관성을 유지하는 도구이다. 퍼지 논리를 사용하여 데이터 내의 다양한 표기법 차이를 처리하고 중복된 데이터를 찾아낸다. 예를 들어, 영어 이름 "Bob"과 "Robert"를 동일 인물로 판단할 수 있다. 또한, 서로 다른 데이터 기록 간의 관계(예: 부부 관계)를 파악하여 링크를 생성하고, 여러 데이터 소스 중 가장 상세하고 정확한 정보를 최상의 데이터로 선택하여 기록하는 기능도 수행한다.

; 감시 도구

: 데이터 품질을 지속적으로 모니터링하고 현재 상태를 보고하는 도구이다. 설정된 비즈니스 규칙에 따라 표기 오류 등을 자동으로 수정하기도 한다.

데이터 처리 방식은 크게 두 가지로 나뉜다. 초기에는 전체 데이터를 대상으로 클렌징 작업을 수행하는 배치 방식이 사용된다. 이후에는 데이터 품질을 높은 수준으로 유지하기 위해 앞서 언급된 감시 도구 등을 활용하여 실시간으로 데이터를 관리하는 실시간 방식이 적용될 수 있다.

이름과 주소 데이터는 우편 시스템 덕분에 국가별로 표준화된 형식이 비교적 잘 갖춰져 있지만, 다른 종류의 데이터는 공통된 표준이 부족한 경우가 많다. 이러한 데이터에 대해서도 표준화를 추진하려는 노력이 있으며, 비영리 단체인 GS1이 이러한 활동을 주도하고 있다.

데이터 품질 분야의 전문가 육성과 정보 교류를 위해 2004년에는 국제 정보 및 데이터 품질 협회(International Association for Information and Data Quality|IAIDQ^eng)가 창설되었다.

9. 데이터 품질 최적 활용

'''데이터 품질(DQ)'''은 데이터 관리의 무결성을 확보하는 데 중요한 역할을 한다. 이는 기존 데이터 관리 운영 방식으로는 발견하기 어려운 예외 사항을 데이터 모니터링을 통해 찾아내어 데이터 거버넌스를 지원하는 핵심 기능 중 하나이다. 데이터 품질 검사는 문제 발생 시 수정 단계를 효과적으로 관리하기 위해 개별 속성 수준에서 정의될 수 있다.

조직이 데이터 품질의 범위를 명확히 설정하지 않으면, 데이터 품질 검사와 비즈니스 규칙이 중복될 위험이 있다. 따라서 비즈니스 팀은 중복을 피하기 위해 데이터 품질의 적용 범위를 정확히 이해해야 한다. 만약 '''비즈니스 로직'''이 데이터 품질 검사와 동일한 기능을 수행하고 같은 목적을 달성한다면, 해당 데이터 품질 검사는 불필요하게 중복되는 것이다. 조직의 데이터 품질 범위는 데이터 품질 전략에서 명확히 정의되고 효과적으로 구현되어야 한다. 때로는 과거에 반복적으로 발생했던 예외 사항을 처리하기 위해 특정 데이터 품질 검사가 비즈니스 규칙으로 전환될 수도 있다.

지속적인 데이터 품질 검사가 필요할 수 있는 데이터 흐름 영역의 예시는 다음과 같다.

'''완전성''' 및 '''정밀도''': 모든 데이터에 대해 각 소스 시스템의 필수 속성이 입력되는 시점에 검사를 수행할 수 있다. 일부 속성 값은 트랜잭션이 처음 생성된 후 시간이 지나서 생성되기도 하는데, 이 경우 검사 시점을 관리하기 어려워진다. 해당 속성의 출처와 트랜잭션의 다른 핵심 속성 조건이 충족된 직후에 검사를 수행하는 것이 좋다.
'''유효성''': 조직 내 참조 데이터를 참조하는 속성을 가진 모든 데이터는 유효성 검사를 통해 새로운 값이나 불일치하는 값을 발견할 수 있다. 이는 참조 데이터의 정의된 유효 값 집합과 비교하여 검증하는 방식으로 이루어진다. 검사 결과는 MDM 체계 하에서 관리되는 참조 데이터를 업데이트하는 데 활용될 수 있다.
'''정확성''': 외부 제3자로부터 제공받은 모든 데이터는 정확성 검사를 거칠 수 있다. 이 검사는 데이터가 입력된 후 여러 단계를 거치더라도, 해당 데이터가 기업 인텔리전스에 대해 승인되거나 저장되기 전에 관리될 때 특히 유용하다.
'''일관성''': 마스터 데이터를 참조하는 모든 데이터 열은 일관성 검사를 위해 검증될 수 있다. 데이터 입력 시점에 수행되는 데이터 품질 검사는 MDM 프로세스를 위한 새로운 데이터를 발견하는 데 도움이 되지만, 입력 시점 이후에 수행되는 검사는 일관성 실패(예외 상황은 아님)를 발견하는 데 중점을 둔다.
'''적시성''': 데이터가 변환되는 과정에서 여러 타임스탬프와 해당 위치 정보가 기록된다. 이 정보들을 서로 비교하고, 정의된 서비스 수준 계약(SLA)에 대한 값, 지연 시간, 운영상의 중요성 등을 검증할 수 있다. 이러한 적시성 검사는 데이터 가치 하락률을 줄이고 데이터 이동 타임라인 관련 정책을 최적화하는 데 활용될 수 있다.
'''합리성''': 복잡한 비즈니스 로직은 일반적으로 여러 프로세스에서 더 단순한 로직으로 분리되어 처리된다. 특정 값 범위 내에 있거나 정적인 상호 관계(집계된 비즈니스 규칙) 내에서 논리적 결과를 도출하는 복잡한 로직에 대한 합리성 검사는 중요하다. 이를 통해 복잡하지만 중요한 비즈니스 프로세스, 데이터의 이상치, 통상적인 비즈니스(BAU, business as usual) 기대치에서의 벗어남 등을 발견하고 잠재적인 데이터 문제로 이어질 수 있는 예외 상황을 파악할 수 있다. 이 검사는 대량의 데이터 속에서 간단한 일반 집계 규칙을 확인하는 것일 수도 있고, 조직의 핵심 비즈니스와 관련된 트랜잭션 속성 그룹에 대한 복잡한 로직을 검증하는 것일 수도 있다. 합리성 검사에는 높은 수준의 비즈니스 지식과 통찰력이 요구된다. 합리성 문제의 발견은 비즈니스 또는 데이터 거버넌스 정책 및 전략 변경을 지원하는 근거가 될 수 있다.

'''적합성''' 검사 및 '''무결성 검사'''는 모든 비즈니스 요구사항에서 반드시 다루어야 하는 것은 아니며, 데이터베이스 아키텍처 설계자의 판단에 따라 엄격하게 적용될 수 있다.

데이터 이동 과정 중 데이터 품질 검사가 불필요한 경우도 있다. 예를 들어, 데이터베이스에서 이미 널(null) 값을 허용하지 않는 열에 대해 완전성 및 정밀도 검사를 수행하는 것은 중복이다. 마찬가지로, 서로 다른 소스에서 데이터를 결합할 때 시간에 따른 데이터 정확성을 검증해야 하지만, 이는 비즈니스 규칙의 영역이며 데이터 품질 범위에 포함되지 않아야 한다.

안타깝게도 소프트웨어 개발 관점에서 데이터 품질은 종종 비기능적 요구사항으로 간주되는 경향이 있다. 이로 인해 중요한 데이터 품질 검사나 프로세스가 최종 소프트웨어 솔루션에 제대로 반영되지 않는 경우가 많다. 특히 웨어러블 기기나 체내 통신망과 같은 헬스케어 분야에서는 방대한 양의 데이터가 생성되는데^[20], 데이터 품질을 보장하기 위해 요구되는 세부 수준은 매우 높지만 종종 과소평가된다. 이는 대다수의 m헬스 앱, EHR, 기타 건강 관련 소프트웨어 솔루션에서도 마찬가지로 나타나는 문제이다. 데이터 품질 검사를 위한 일부 오픈 소스 도구가 존재하기는 한다.^[21] 이러한 문제가 발생하는 주된 이유는 소프트웨어 아키텍처 내에서 데이터 품질 확보를 위한 엄격한 기준을 적용하는 데 추가적인 비용이 발생하기 때문이다.

10. 분야별 데이터 품질

데이터 품질은 다양한 분야에서 중요한 문제로 다루어지고 있으며, 각 분야의 특성에 따라 고유한 과제와 관리 방안이 요구된다. 예를 들어, 의료 분야에서는 모바일 기기(mHealth)의 확산으로 건강 데이터의 보안 및 개인 정보 보호 문제가 데이터 품질과 직결되는 새로운 과제로 부상하고 있다.^[2]^[23] 또한, 공중 보건 영역에서는 질병 퇴치 목표 달성과 책임성 강화를 위해 정확하고 신뢰할 수 있는 데이터 확보가 필수적이며, 이를 위한 표준화된 데이터 품질 평가 도구의 필요성이 커지고 있다.^[24]^[25]^[27] 오픈 데이터 분야 역시 위키백과, 위키데이터와 같은 개방형 정보원의 데이터 품질을 분석하고 향상시키기 위한 다양한 연구가 진행 중이다.^[30]^[33]

10. 1. 공공 보건 분야

데이터 품질은 최근 몇 년 동안, 특히 책임성에 대한 요구가 증가하면서 공중 보건 프로그램의 주요 초점이 되었다.^[24] 에이즈, 결핵, 말라리아와 같은 질병 퇴치를 위한 목표를 달성하기 위해서는 프로그램 시행과 관련된 양질의 데이터를 생산하는 강력한 모니터링 및 평가 시스템이 필수적이다.^[25] 이러한 프로그램과 프로그램 감사자들은 데이터 품질을 결정하고,^[26] 보고된 데이터의 품질을 검증하며, 지표에 대한 기본 데이터 관리 및 보고 시스템을 평가하는 과정을 표준화하고 간소화하는 도구를 점점 더 필요로 하고 있다.^[27] 예를 들어, 세계보건기구(WHO)와 MEASURE Evaluation의 데이터 품질 검토 도구가 있다.^[28] WHO, 글로벌 펀드, 세계 백신 면역 연합(GAVI), MEASURE Evaluation은 다양한 질병 및 프로그램 전반에 걸쳐 데이터 품질 보증에 대한 조화로운 접근 방식을 만들기 위해 협력해 왔다.^[29]

10. 2. 오픈 데이터 분야

오픈 데이터 소스, 예를 들어 위키백과, 위키데이터, DBpedia 등에서 데이터 품질을 분석하는 여러 과학 연구가 있다. 위키백과의 경우, 품질 분석은 문서 전체를 대상으로 이루어질 수 있으며,^[30] 이러한 품질 평가는 다양한 방법을 통해 수행된다. 그중 일부는 랜덤 포레스트,^[31] 서포트 벡터 머신^[32] 등을 포함한 머신 러닝 알고리즘을 활용한다.^[32] 반면, 위키데이터, DBpedia 및 기타 LOD 소스에서 데이터 품질을 평가하는 방법은 위키백과와는 다른 접근 방식을 따른다.^[33]

10. 3. 의료 데이터 보안 및 개인 정보 보호

의료 분야에서 모바일 기기(mHealth)를 사용하는 것은 건강 데이터의 보안 및 개인 정보 보호에 새로운 과제를 제기하며, 이는 데이터 품질에 직접적인 영향을 미친다.^[2] mHealth는 특히 저소득 및 중간 소득 국가에서 의료 서비스를 제공하기 위한 중요한 전략으로 점점 더 주목받고 있다.^[22] 모바일 폰과 태블릿은 데이터를 거의 실시간으로 수집, 보고 및 분석하는 데 사용된다. 하지만 이러한 모바일 기기는 개인적인 활동에도 흔히 사용되므로 데이터 침해로 이어질 수 있는 보안 위험에 더 취약해진다. 적절한 보안 조치가 없다면 이러한 개인적인 사용이 건강 데이터의 품질, 보안 및 기밀성을 위협할 수 있다.^[23]

11. 관련 단체

전자상거래 코드 관리 협회 (ECCMA)는 국제 표준 구현을 통해 데이터 품질 향상에 기여하는 회원 기반의 국제 비영리 단체이다. ECCMA는 데이터 품질 및 자재와 서비스 마스터 데이터 교환에 대한 국제 표준인 ISO 8000 및 ISO 22745 개발의 프로젝트 리더 역할을 맡고 있다. 또한, 전 세계 데이터 품질 및 데이터 거버넌스 분야의 전문가들이 협력하여 정보를 명확하게 식별하는 데 사용되는 글로벌 오픈 표준 사전을 구축하고 유지 관리할 수 있는 플랫폼을 제공한다. 이러한 사전은 정보가 서로 다른 컴퓨터 시스템 간에 전달될 때 그 의미가 손실되지 않도록 돕는다.^[34]

참조

_[1] 서적 Data Driven: Profiting from Your Most Important Business Asset https://books.google[...] Harvard Business Press 2013-12-30
_[2] 논문 Protocol for a systematic review and qualitative synthesis of information quality frameworks in eHealth 2019-03
_[3] 논문 Information Quality Frameworks for Digital Health Technologies: Systematic Review 2021-05-17
_[4] 서적 Information Governance: Concepts, Strategies, and Best Practices https://books.google[...] John Wiley and Sons 2020-04-18
_[5] 서적 Data Quality Management with Semantic Technologies Springer 2020-04-18
_[6] 서적 Data Quality and Record Linkage Techniques Springer Science & Business Media 2020-04-18
_[7] 서적 Modern Data Strategy Springer 2020-04-18
_[8] 서적 Data Quality: Dimensions, Measurement, Strategy, Management, and Governance https://books.google[...] Quality Press 2020-04-18
_[9] 웹사이트 ISO 9000:2015(en) Quality management systems — Fundamentals and vocabulary https://www.iso.org/[...] International Organization for Standardization 2020-04-18
_[10] 논문 NIST Big Data Interoperability Framework: Volume 4, Security and Privacy https://nvlpubs.nist[...] National Institute of Standards and Technology 2020-04-18
_[11] 논문 Assessing the practice of data quality evaluation in a national clinical data research network through a systematic scoping review in the era of real-world data 2020-12-09
_[12] 웹사이트 Liability and Leverage - A Case for Data Quality http://www.informati[...] Information Management 2010-06-25
_[13] 웹사이트 Address Management for Mail-Order and Retail http://www.direction[...] Directions Magazine 2010-06-25
_[14] 웹사이트 USPS | PostalPro http://ribbs.usps.go[...] 2010-06-25
_[15] 간행물 "The Role of Community-Driven Data Curation for Enterprises" Springer US 2010
_[16] 웹사이트 ISO/TS 8000-1:2011 Data quality -- Part 1: Overview http://www.iso.org/i[...] International Organization for Standardization 2016-12-08
_[17] 웹사이트 Can you trust the quality of your data? https://spotlessdata[...] spotlessdata.com
_[18] 웹사이트 What is Data Cleansing? - Experian Data Quality https://www.edq.com/[...] 2017-02-09
_[19] 웹사이트 Lecture 23 Data Quality Concepts Tutorial – Data Warehousing http://globletrainin[...] Watch Free Video Training Online 2016-12-08
_[20] 논문 Data management within mHealth environments: Patient sensors, mobile devices, and databases 2012
_[21] 논문 Multisite Evaluation of a Data Quality Tool for Patient-Level Clinical Datasets 2016-11-30
_[22] 간행물 Improving data quality in mobile community-based health information systems: Guidelines for design and implementation https://www.measuree[...] MEASURE Evaluation, University of North Carolina 2017
_[23] 간행물 mHealth for health information systems in low- and middle-income countries: Challenges and opportunities in data quality, privacy, and security https://www.measuree[...] MEASURE Evaluation, University of North Carolina 2016
_[24] 간행물 Data quality for monitoring and evaluation systems https://www.measuree[...] MEASURE Evaluation, University of North Carolina 2016
_[25] 간행물 Routine health information systems: A curriculum on basic concepts and practice - Syllabus https://www.measuree[...] MEASURE Evaluation, University of North Carolina 2016
_[26] 웹사이트 Data quality assurance tools https://www.measuree[...] 2017-08-08
_[27] 웹사이트 Module 4: RHIS data quality https://www.measuree[...] 2017-08-08
_[28] 웹사이트 Data quality https://www.measuree[...] 2017-08-08
_[29] 간행물 Monitoring and evaluation of health systems strengthening http://www.who.int/h[...] WHO 2009
_[30] 논문 "The Sum of All Human Knowledge": A Systematic Review of Scholarly Research on the Content of Wikipedia https://backend.orbi[...] 2020-01-21
_[31] 서적 Proceedings of the 9th International Symposium on Open Collaboration 2013
_[32] 서적 Proceedings of the 2009 joint international conference on Digital libraries - JCDL '09
_[33] 논문 Linked data quality of DBpedia, Freebase, OpenCyc, Wikidata, and YAGO https://content.iosp[...] 2017-11-30
_[34] 뉴스 Home https://eccma.org/ ECCMA 2018-10-03
_[35] 문서 GIS Glossary http://www.fw.umn.ed[...]
_[36] 웹사이트 Government of British Columbia http://www.cio.gov.b[...]
_[37] 웹사이트 Glossary of Quality Assurance Terms http://www.hanford.g[...]
_[38] 논문 Information Quality Benchmarks: Product and Service Performance http://mitiq.mit.edu[...] 2002-04
_[39] 논문 A Semiotic Information Quality Framework http://vishnu.sims.m[...] 2004
_[40] 논문 Anchoring Data Quality Dimensions in Ontological Foundations http://web.mit.edu/t[...] 1996-11
_[41] 컨퍼런스 Data Quality Requirements Analysis and Modelling 1993
_[42] 보고서 Data Warehousing Special Report: Data quality and the bottom line http://www.adtmag.co[...] 2002
_[43] 서적 Data Driven: Profiting from Your Most Important Business Asset https://books.google[...] Harvard Business Press 2013-12-30
_[44] 저널 Protocol for a systematic review and qualitative synthesis of information quality frameworks in eHealth 2019-03
_[45] 저널 Information Quality Frameworks for Digital Health Technologies: Systematic Review 2021-05-17
_[46] 서적 Information Governance: Concepts, Strategies, and Best Practices https://books.google[...] John Wiley and Sons 2020-04-18