데이터 매핑

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

데이터 매핑은 서로 다른 데이터 형식을 연결하거나 변환하는 기술을 의미한다. X12, R2RML과 같은 표준을 통해 데이터 교환을 용이하게 하며, 시맨틱 웹 기술을 활용하여 자동화를 추구한다. 데이터 매핑 방식으로는 수동 코딩 및 그래픽 매핑, 데이터 기반 매핑, 시맨틱 매핑 등이 있으며, 데이터의 흐름을 추적하는 데이터 계보도 중요한 요소이다.

데이터 매핑
📚 더 읽어볼만한 페이지
  • 데이터 매핑 - 객체 관계 매핑
    객체 관계 매핑(ORM)은 객체 지향 프로그래밍에서 객체와 관계형 데이터베이스 간의 데이터 매핑을 위한 프로그래밍 기법이며, 개발 생산성 향상에 기여하지만 성능 저하 및 데이터베이스 설계 문제의 원인이 되기도 한다.
  • 데이터 매핑 - 데이터 랭글링
    데이터 랭글링은 데이터 분석을 위해 원시 데이터를 정제하고 변환하는 과정으로, 구조화, 정리, 강화, 유효성 검사 및 게시 단계를 거치며 분석 시간 단축, 정확도 향상, 의사 결정 개선 등의 이점을 제공한다.

2. 표준

X12 표준은 산업에 관계없이 한 기업이 다른 모든 기업과 데이터를 교환할 수 있도록 설계된 일반적인 전자 데이터 교환(EDI) 표준이다. 이 표준은 공인 표준 위원회 X12(ASC X12)에서 관리하며, 미국 국립 표준 협회(ANSI)는 EDI 표준을 설정하기 위해 공인되었다. X12 표준은 종종 ANSI ASC X12 표준이라고 불린다.

W3C는 관계형 데이터베이스의 데이터를 자원 기술 프레임워크(RDF)로 표현된 데이터로 매핑하기 위한 표준으로 [https://www.w3.org/TR/r2rml/ R2RML]을 도입했다.

미래에는 RDF, 웹 온톨로지 언어(OWL) 및 표준화된 메타데이터 레지스트리와 같은 시맨틱 웹 언어를 기반으로 하는 도구가 데이터 매핑을 더욱 자동화된 프로세스로 만들 것이다. 각 애플리케이션이 메타데이터 게시를 수행한다면 이 프로세스는 가속화될 것이다. 완전 자동화된 데이터 매핑은 매우 어려운 문제이다 (시맨틱 번역 참조).

2.1. X12

X12 표준은 산업에 관계없이 한 기업이 다른 모든 기업과 데이터를 교환할 수 있도록 설계된 일반적인 전자 데이터 교환(EDI) 표준이다. 이 표준은 공인 표준 위원회 X12(ASC X12)에서 관리하며, 미국 국립 표준 협회(ANSI)는 EDI 표준을 설정하기 위해 공인되었다. X12 표준은 종종 ANSI ASC X12 표준이라고 불린다.

W3C는 관계형 데이터베이스의 데이터를 자원 기술 프레임워크(RDF)로 표현된 데이터로 매핑하기 위한 표준으로 [https://www.w3.org/TR/r2rml/ R2RML]을 도입했다.

미래에는 RDF, 웹 온톨로지 언어(OWL) 및 표준화된 메타데이터 레지스트리와 같은 시맨틱 웹 언어를 기반으로 하는 도구가 데이터 매핑을 더욱 자동화된 프로세스로 만들 것이다. 각 애플리케이션이 메타데이터 게시를 수행한다면 이 프로세스는 가속화될 것이다. 완전 자동화된 데이터 매핑은 매우 어려운 문제이다 (시맨틱 번역 참조).

2.2. R2RML

W3C는 관계형 데이터베이스의 데이터를 자원 기술 프레임워크(RDF)로 표현된 데이터로 매핑하기 위한 표준으로 [https://www.w3.org/TR/r2rml/ R2RML]을 도입했다.

2.3. 시맨틱 웹 기술 (미래 전망)

W3C는 관계형 데이터베이스의 데이터를 자원 기술 프레임워크(RDF)로 표현된 데이터로 매핑하기 위한 표준으로 [https://www.w3.org/TR/r2rml/ R2RML]을 도입했다.

미래에는 RDF, 웹 온톨로지 언어(OWL) 및 표준화된 메타데이터 레지스트리와 같은 시맨틱 웹 언어를 기반으로 하는 도구가 데이터 매핑을 더욱 자동화된 프로세스로 만들 것이다. 각 애플리케이션이 메타데이터 게시를 수행한다면 이 프로세스는 가속화될 것이다. 완전 자동화된 데이터 매핑은 매우 어려운 문제이다 (시맨틱 번역 참조).

3. 데이터 매핑 방식

3.1. 수동 코딩 및 그래픽 매핑

데이터 매핑은 절차적 코드를 사용하거나, XSLT 변환을 생성하거나, 실행 가능한 변환 프로그램을 자동으로 생성하는 그래픽 매핑 도구를 사용하여 다양한 방식으로 수행할 수 있다. 이러한 도구는 사용자가 한 데이터 집합의 필드에서 다른 데이터 집합의 필드로 선을 "그릴" 수 있도록 하는 그래픽 도구이다. 일부 그래픽 데이터 매핑 도구는 사용자가 소스와 대상을 "자동 연결"할 수 있도록 한다. 이 기능은 소스와 대상 데이터 요소 이름이 동일한지 여부에 따라 달라진다. 변환 프로그램은 SQL, XSLT, 자바, 또는 C++로 자동 생성된다. 이러한 종류의 그래픽 도구는 데이터 이동을 지원하기 위해 데이터 맵을 입력하는 주요 수단으로 대부분의 ETL (추출, 변환, 적재) 도구에서 찾아볼 수 있다. 예시로는 SAP BODS와 Informatica PowerCenter가 있다.

3.2. 데이터 기반 매핑

데이터 기반 매핑은 두 데이터 세트 간의 복잡한 매핑을 자동으로 발견하기 위해 휴리스틱과 통계를 사용한다. 이 방식은 두 데이터 소스의 실제 데이터 값을 동시에 평가하여 부분 문자열, 연결, 산술 연산, 케이스 문(case statements) 등 다양한 종류의 변환 로직을 찾아낸다. 또한 발견된 변환 로직을 따르지 않는 데이터 예외도 찾아낸다.

3.3. 시맨틱 매핑

시맨틱 매핑은 메타데이터 레지스트리를 참조하여 데이터 요소의 동의어를 검색할 수 있다는 점을 제외하면 데이터 매퍼의 자동 연결 기능과 유사하다. 예를 들어, 소스 시스템이 FirstName을 나열하지만 대상 시스템이 PersonGivenName을 나열하는 경우, 이러한 데이터 요소가 메타데이터 레지스트리에 동의어로 나열되어 있다면 매핑이 여전히 수행된다. 시맨틱 매핑은 데이터 열 간의 정확한 일치만 발견할 수 있으며, 열 간의 변환 로직이나 예외는 발견하지 못한다.

데이터 계보는 분석 시스템에서 데이터를 수집, 처리 및 출력하는 각 데이터 조각의 수명 주기를 추적한다. 이는 분석 파이프라인에 대한 가시성을 제공하고 오류를 소스까지 추적하는 것을 단순화한다. 또한 단계별 디버깅이나 손실된 출력을 재생성하기 위해 데이터 흐름의 특정 부분 또는 입력을 재생할 수 있다.

4. 데이터 계보

시맨틱 매핑은 메타데이터 레지스트리를 참조하여 데이터 요소의 동의어를 검색할 수 있다는 점을 제외하면 데이터 매퍼의 자동 연결 기능과 유사하다. 예를 들어, 소스 시스템이 FirstName을 나열하지만 대상 시스템이 PersonGivenName을 나열하는 경우, 이러한 데이터 요소가 메타데이터 레지스트리에 동의어로 나열되어 있다면 매핑이 여전히 수행된다. 시맨틱 매핑은 데이터 열 간의 정확한 일치만 발견할 수 있으며, 열 간의 변환 로직이나 예외는 발견하지 못한다.

데이터 계보는 분석 시스템에서 데이터를 수집, 처리 및 출력하는 각 데이터 조각의 수명 주기를 추적한다. 이는 분석 파이프라인에 대한 가시성을 제공하고 오류를 소스까지 추적하는 것을 단순화한다. 또한 단계별 디버깅이나 손실된 출력을 재생성하기 위해 데이터 흐름의 특정 부분 또는 입력을 재생할 수 있다. 실제로 데이터베이스 시스템은 데이터 프로비넌스라고 하는 이러한 정보를 사용하여 이미 유사한 유효성 검사 및 디버깅 문제를 해결해 왔다.

5. 대한민국의 데이터 매핑 현황 및 과제