데이터 웨어하우스

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

데이터 웨어하우스는 기업의 의사 결정을 지원하기 위해 여러 운영 시스템에서 수집된 데이터를 통합하여 저장하는 시스템이다. 1980년대 IBM이 처음 도입했으며, 빌 인몬 등에 의해 개념이 발전했다. 데이터 웨어하우스는 주제 지향성, 통합성, 시계열성, 비휘발성, 용이한 접근성을 특징으로 한다. 구성 요소로는 데이터 소스, 데이터 통합 기술, 아키텍처, 도구 및 애플리케이션, 메타데이터 등이 있으며, 데이터 마트, OLAP, OLTP 등 관련 시스템과 연동된다. 데이터 저장 방식으로는 차원 모델링과 정규화 모델링이 있으며, 설계 방식에는 하향식, 상향식, 하이브리드 방식이 있다. 최근에는 데이터 가상화와 실시간 데이터 웨어하우스 기술이 발전하고 있다.

데이터 웨어하우스

📚 더 읽어볼만한 페이지

비즈니스 인텔리전스 - 예측 분석
예측 분석은 통계학, 기계 학습 등의 분석 기법을 활용하여 과거 및 현재 데이터를 토대로 미래의 사건이나 결과를 예측하는 방법론으로, 다양한 분야에서 의사 결정 지원 및 위험 관리 등에 활용되지만, 인간 행동의 복잡성으로 인한 예측 불가능성에 대한 비판도 존재한다.
비즈니스 인텔리전스 - 메타데이터
메타데이터는 "데이터에 대한 데이터"로서, 데이터를 설명하는 구조화된 정보이며, 디지털 시대에 데이터 검색, 식별, 관리, 보존에 중요한 역할을 수행하고, 표준화된 스키마와 모델을 통해 구성되어 정보 관리를 효율적으로 만든다.
데이터베이스 - 지식 베이스
지식 베이스는 특정 주제 정보를 체계적으로 저장 및 관리하며 규칙 기반 추론으로 새로운 지식 도출에 활용되고, 웹 콘텐츠 관리 및 지식 관리 시스템으로 확장되어 온톨로지를 이용, 인공지능 기술과 결합하여 문제 해결책을 제시하고 경험을 통해 학습하는 시스템이다.
데이터베이스 - 화이트리스트
화이트리스트는 특정 대상만 허용하고 나머지는 차단하는 접근 제어 목록으로, 정보보안, 무역, 금융 등 다양한 분야에서 활용되지만, 목록 선정 기준의 불명확성, 사회적 문제점 등의 위험성으로 투명하고 엄격한 관리가 필요하다.

1. 개요
2. 역사
3. 특징
4. 구성 요소
5. 관련 시스템
6. 데이터 저장 방식
- 6.1. 차원 모델링 (Dimensional Modeling)
- 6.2. 정규화 모델링 (Normalized Modeling)
7. 설계 방법
8. 발전 방향
- 8.1. 데이터 가상화 (Data Virtualization)
- 8.2. 실시간 데이터 웨어하우스

2. 역사

데이터 웨어하우스는 정보(data)와 창고(warehouse)를 합쳐 만든 용어로, 조직 내 방대한 데이터를 효율적으로 관리하고 의사 결정에 활용하기 위한 방법론이다.

데이터 웨어하우스는 관리 하드웨어, 소프트웨어, 데이터 추출 및 변환 도구, 데이터베이스 마케팅 시스템, 메타데이터, 사용자 접근 도구 등으로 구성된다. 기업 정보 자산을 효율적으로 활용하고 전략적 의사 결정을 지원하기 위해 데이터를 시계열적으로 축적하고 통합하는 기술 환경을 제공한다.

데이터 웨어하우스는 경영 의사 결정을 돕는 데이터 집합체로서, 주제 지향성, 통합성, 시계열성, 비휘발성이라는 특징을 갖는다. 데이터를 주제별로 구성하여 사용자가 쉽게 이해하고, 일관된 형태로 변환하여 저장한다. 또한 일정 기간 동안의 데이터 정확성을 유지하며, 일단 저장된 데이터는 변경되지 않는다.

데이터 웨어하우스는 단순한 데이터 저장소를 넘어, 분석 방법까지 포함하여 조직 내 의사 결정을 지원하는 정보 관리 시스템이다. 기업 활동 전반의 정보를 통합 관리하며, 원시 데이터, 데이터 웨어하우스, 클라이언트 계층으로 구성되어 데이터 추출, 저장, 조회 기능을 수행한다.

1990년대에는 하드 디스크 가격이 저렴해지고, PC 및 서버에서 사용할 수 있는 저렴한 CPU를 병렬로 사용하는 기술이 개발되면서 데이터 웨어하우스가 등장했다. 당시에는 아직 기간계 시스템의 CPU와 하드 디스크 가격이 높았고, 데이터 웨어하우스에는 전용 하드웨어 및 소프트웨어가 사용되었지만, 범용 PC로 구성할 수 있게 되면서 데이터를 장기간에 걸쳐 축적한다는 관점을 실현할 수 있게 되었다.

2010년대에는 클라우드 컴퓨팅 기반의 데이터 웨어하우스로 Google BigQuery나 Amazon Redshift 등, 더욱 클라우드 네이티브한 데이터 웨어하우스가 제공되기 시작했다. 초기 비용을 최소화하고, 시간 및 사용 리소스에 따른 종량 과금 방식으로 데이터 웨어하우스를 이용할 수 있게 되면서, 데이터 웨어하우스의 이용 용도가 비약적으로 확대되었다.

데이터 웨어하우징의 주요 발전 과정은 다음과 같다.

👆

좌우로 밀어서 보기

연도	내용
1995년	데이터 웨어하우징을 홍보하는 영리 단체인 The Data Warehousing Institute가 설립되었다.
1996년	랄프 킴볼(Ralph Kimball)은 『The Data Warehouse Toolkit』이라는 책을 출판했다.
1998년	패트릭 라거(Patrik Lager) 등이 참여하여 앙상블(하이브리드) 데이터 웨어하우스 모델링 접근 방식인 초점 모델링을 구현했다.
2000년	댄 린스테드(Dan Linstedt)는 빌 인몬과 랄프 킴볼의 대안으로, 데이터 볼트 모델링을 공개했다. 이는 여러 운영 시스템에서 들어오는 데이터의 장기적인 기록 보관을 제공하고, 소스 데이터 모델의 추적, 감사 및 변경 복원력에 중점을 두었다.
2008년	빌 인몬(Bill Inmon)은 데릭 스트라우스(Derek Strauss) 및 제니아 노이슐로스(Genia Neushloss)와 함께 "DW 2.0: 차세대 데이터 웨어하우징을 위한 아키텍처"를 출판하여 데이터 웨어하우징에 대한 그의 톱다운 방식을 설명하고 데이터 웨어하우징 2.0이라는 용어를 만들었다.
2008년	앵커 모델링은 개념 모델링에 관한 국제 컨퍼런스에서 발표된 논문에서 공식화되었으며, 최우수 논문상을 수상했다.
2012년	빌 인몬(Bill Inmon)은 "텍스트 모호성 제거"라는 기술을 개발하여 공개했다. 텍스트 모호성 제거는 원시 텍스트에 컨텍스트를 적용하고 원시 텍스트와 컨텍스트를 표준 데이터베이스 형식으로 재구성한다.
2013년	데이터 볼트 2.0이 출시되었으며, 민첩한 원칙 및 CMMI 원칙을 포함한 다른 방법론, 아키텍처 및 구현의 모범 사례와의 통합뿐만 아니라 모델링 방법에 약간의 변경 사항이 있었다.

2.1. 데이터 웨어하우스 개념의 등장 (1980년대)

IBM이 자사의 하드웨어를 판매하기 위해 1980년대 중반에 처음 도입한 것으로 알려져 있다. IBM은 '정보창고'라는 의미로 인포메이션 웨어하우스(Information Warehouse)라고 하였다. 이후 이 개념은 많은 하드웨어, 소프트웨어 및 툴 공급 업체들에 의해 이론적, 현실적으로 성장하였으며, 1980년대 후반 빌 인몬이 데이터 접근 전략으로 데이터 웨어하우스 개념을 사용함으로써 많은 관심과 집중을 받게 되었다.

데이터 웨어하우징의 개념은 1980년대 후반으로 거슬러 올라간다. 당시 IBM 연구원 배리 데블린(Barry Devlin)과 폴 머피(Paul Murphy)가 "비즈니스 데이터 웨어하우스"를 개발했다. 본질적으로 데이터 웨어하우징 개념은 운영 시스템에서 의사 결정 지원 환경으로의 데이터 흐름에 대한 아키텍처 모델을 제공하기 위한 것이었다. 이 개념은 이 흐름과 관련된 다양한 문제, 주로 관련된 높은 비용을 해결하려고 시도했다.

데이터 웨어하우징 아키텍처가 없으면 여러 의사 결정 지원 환경을 지원하기 위해 엄청난 양의 중복이 필요했다. 대기업에서는 여러 의사 결정 지원 환경이 독립적으로 운영되는 것이 일반적이었다. 각 환경은 서로 다른 사용자를 위해 서비스를 제공했지만, 종종 동일한 저장 데이터를 많이 필요로 했다. 여러 소스, 일반적으로 장기간 기존 운영 시스템(일반적으로 레거시 시스템이라고 함)에서 데이터를 수집, 정리 및 통합하는 프로세스는 일반적으로 각 환경에 대해 부분적으로 복제되었다. 또한, 새로운 의사 결정 지원 요구 사항이 등장함에 따라 운영 시스템을 자주 재검토했다. 종종 새로운 요구 사항은 사용자가 쉽게 접근할 수 있도록 맞춤화된 "데이터 마트"에서 새로운 데이터를 수집, 정리 및 통합해야 했다.

제임스 M. 커(James M. Kerr)가 저술한 『The IRM Imperative』(Wiley & Sons, 1991)의 출판과 함께, 조직의 데이터 자원에 대한 가치를 관리하고, 그 가치를 대차대조표에 자산으로 보고하는 아이디어가 인기를 얻었다. 이 책에서 커는 거래 기반 시스템에서 파생된 데이터를 사용하여 주제별 데이터베이스를 채워 요약 데이터를 더 활용하여 경영진 의사 결정을 알릴 수 있는 저장 영역을 만드는 방법을 설명했다. 이 개념은 모든 기업 내에서 데이터 웨어하우스를 실제로 개발하고 관리하는 방법에 대한 추가적인 사고를 촉진하는 데 기여했다.

데이터 웨어하우징 초기 주요 개발 사항은 다음과 같다.

👆

좌우로 밀어서 보기

연도	내용
1960년대	제너럴 밀스(General Mills)와 다트머스 대학교(Dartmouth College)는 공동 연구 프로젝트에서 '차원(dimensions)'과 '팩트(facts)'라는 용어를 개발했다.
1970년대	AC닐슨(ACNielsen)과 IRI는 소매 판매를 위한 차원 데이터 마트를 제공했다.
1970년대	빌 인몬(Bill Inmon)은 데이터 웨어하우스라는 용어를 정의하고 논의하기 시작했다.
1975년	스페리 유니백(Sperry Univac)은 세계 최초의 4GL을 포함하는 데이터베이스 관리 및 보고 시스템인 MAPPER(MAintain, Prepare, and Produce Executive Reports)를 도입했다. 이는 정보 센터(현대 데이터 웨어하우스 기술의 선구자)를 구축하기 위해 설계된 최초의 플랫폼이다.
1983년	테라데이타(Teradata)는 의사 결정을 지원하기 위해 특별히 설계된 DBC/1012 데이터베이스 컴퓨터를 도입했다.
1984년	데이비드 리들(David Liddle)과 돈 마사로(Don Massaro)가 설립한 메타포 컴퓨터 시스템즈(Metaphor Computer Systems)는 비즈니스 사용자가 데이터베이스 관리 및 분석 시스템을 만들 수 있도록 하드웨어/소프트웨어 패키지와 GUI를 출시했다.
1988년	배리 데블린(Barry Devlin)과 폴 머피(Paul Murphy)는 "비즈니스 및 정보 시스템을 위한 아키텍처"라는 기사를 발표하여 "비즈니스 데이터 웨어하우스"라는 용어를 소개했다.
1990년	랄프 킴볼(Ralph Kimball)이 설립한 레드 브릭 시스템즈(Red Brick Systems)는 데이터 웨어하우징을 위한 데이터베이스 관리 시스템인 Red Brick Warehouse를 도입했다.
1991년	제임스 M. 커는 『The IRM Imperative』를 저술하여 데이터 자원을 대차대조표에 자산으로 보고할 수 있다고 제안하여 데이터 웨어하우스 구축에 대한 상업적 관심을 높였다.
1991년	빌 인몬(Bill Inmon)이 설립한 프리즘 솔루션즈(Prism Solutions)는 데이터 웨어하우스를 개발하기 위한 소프트웨어인 Prism Warehouse Manager를 도입했다.
1992년	빌 인몬(Bill Inmon)은 『Building the Data Warehouse』라는 책을 출판했다.

2.2. 기술 발전과 확산 (1990년대)

1990년대에는 하드 디스크 가격이 저렴해지고, PC 및 서버에서 사용할 수 있는 저렴한 CPU를 병렬로 사용하는 기술이 개발되면서 데이터 웨어하우스가 등장했다. 당시에는 아직 기간계 시스템의 CPU와 하드 디스크 가격이 높았고, 데이터 웨어하우스에는 전용 하드웨어 및 소프트웨어가 사용되었지만, 범용 PC로 구성할 수 있게 되면서 데이터를 장기간에 걸쳐 축적한다는 관점을 실현할 수 있게 되었다.

데이터 웨어하우징 초기 주요 개발 사항은 다음과 같다.

👆

좌우로 밀어서 보기

연도	내용
1990년	랄프 킴볼(Ralph Kimball)이 설립한 레드 브릭 시스템즈(Red Brick Systems)는 데이터 웨어하우징을 위한 데이터베이스 관리 시스템인 Red Brick Warehouse를 도입했다.
1991년	제임스 M. 커는 『The IRM Imperative』를 저술하여 데이터 자원을 대차대조표에 자산으로 보고할 수 있다고 제안하여 데이터 웨어하우스 구축에 대한 상업적 관심을 높였다. 빌 인몬(Bill Inmon)이 설립한 프리즘 솔루션즈(Prism Solutions)는 데이터 웨어하우스를 개발하기 위한 소프트웨어인 Prism Warehouse Manager를 도입했다.
1992년	빌 인몬(Bill Inmon)은 『Building the Data Warehouse』라는 책을 출판했다.
1995년	데이터 웨어하우징을 홍보하는 영리 단체인 The Data Warehousing Institute가 설립되었다.
1996년	랄프 킴볼(Ralph Kimball)은 『The Data Warehouse Toolkit』이라는 책을 출판했다.

2.3. 클라우드 기반 데이터 웨어하우스의 등장 (2010년대)

2010년대에는 클라우드 컴퓨팅 기반의 데이터 웨어하우스, 즉 Google BigQuery나 Amazon Redshift 등과 같이 클라우드 환경에 최적화된 데이터 웨어하우스가 제공되기 시작했다. 이러한 서비스는 초기 비용을 최소화하고, 사용 시간 및 리소스에 따라 요금을 지불하는 종량제 방식을 채택하여 데이터 웨어하우스의 활용도를 크게 높였다.

3. 특징

데이터 웨어하우스는 정보(data)와 창고(warehouse)의 의미가 합성된 용어로, 방대한 조직 내에서 분산 운영되는 각각의 데이터베이스 관리 시스템들을 효율적으로 통합하여 조정ㆍ관리한다. 이는 효율적인 의사 결정 시스템을 위한 기초를 제공하며, 실무적인 활용 방법론을 포함한다.

데이터 웨어하우스는 관리 하드웨어, 관리 소프트웨어, 추출ㆍ변환ㆍ정렬 도구, 데이터베이스 마케팅 시스템, 메타데이터(meta data), 최종 사용자 접근 및 활용 도구 등으로 구성된다.

데이터 웨어하우스는 기업의 정보 자산을 효율적으로 활용하기 위한 하나의 패러다임으로, 기업의 전략적 관점에서 효율적인 의사 결정을 지원하기 위해 데이터의 시계열적 축적과 통합을 목표로 하는 기술의 구조적ㆍ통합적 환경이다. 여기서 데이터베이스는 여러 곳에 흩어져 있는 데이터 테이블을 연결하여 사용된다.

데이터 웨어하우스는 경영자의 의사 결정을 지원하는 데이터의 집합체로, 다음과 같은 네 가지 주요 특징을 갖는다:

* 주제 지향성(subject-oriented): 데이터를 주제별로 구성하여 최종 사용자나 분석자가 쉽게 이해할 수 있도록 한다.
* 통합성(integrated): 데이터 웨어하우스에 들어오는 데이터는 일관된 형태로 변환되어 데이터의 일관성을 유지한다.
* 시계열성(time-variant): 데이터는 일정 기간 동안 정확성을 가지며, 이를 통해 과거 데이터와의 비교 및 분석이 가능하다.
* 비휘발성(nonvolatile): 데이터가 적재되면 일괄 처리 작업에 의한 갱신 외에는 변경되지 않아 데이터의 안정성을 보장한다.

데이터 웨어하우스는 단순한 데이터 저장소를 넘어 분석 방법까지 포함하여 조직 내 의사 결정을 지원하는 정보 관리 시스템을 의미한다. 기업 활동 전반에 필요한 모든 정보를 일원화하여 관리하며, 원시 데이터 계층, 데이터 웨어하우스 계층, 클라이언트 계층으로 구성되어 데이터의 추출, 저장, 조회 등의 기능을 수행한다.

데이터 웨어하우스는 기업 활동에 관한 모든 정보를 전체 회사 규모의 데이터베이스로 통합 관리하므로, 그 용량이 수백 GB에서 수 TB에 이른다. 이러한 대용량 데이터를 처리하기 위해 병렬 서버와 대용량 자기 디스크 장치가 사용되며, 관계형 데이터베이스 관리 시스템(RDBMS)이 활용된다.

데이터 웨어하우스는 비즈니스 사용자의 의사 결정 지원에 전적으로 이용되며, 기업의 운영 시스템과는 분리되어 운영된다. 운영 시스템으로부터 많은 데이터가 공급되지만, 데이터 웨어하우스로 이동되면서 데이터는 재구조화되어야 한다. 데이터 웨어하우스는 신뢰할 수 있는 하나의 버전(one version of truth)을 사용자에게 제공하며, 시간성 혹은 역사성을 가지고 저장된다.

3.1. 주제 지향성 (Subject-oriented)

데이터 웨어하우스는 경영 의사 결정을 지원하기 위해 주제별로 데이터를 구성한다. 최종 사용자나 전산에 익숙하지 않은 분석가도 쉽게 이해할 수 있는 형태를 갖는다. 주제 지향성은 데이터베이스 정규화와는 다르며, 의사 결정에 매우 유용할 수 있다. 필요한 객체를 수집하는 것을 주제 지향적이라고 한다.

운영 시스템이 재고 관리, 영업 관리 등 특정 기능을 지원하는 반면, 데이터 웨어하우스는 고객, 제품 등 중요한 주제를 중심으로 관련 데이터를 조직한다. 미국의 컴퓨터 과학자 Bill Inmon^영어은 1990년 저서에서 데이터 웨어하우스를 "의사 결정을 위해 주제별로 구성되고, 통합되며, 시계열로, 삭제나 갱신하지 않는 데이터의 집합체"로 정의했다.

3.2. 통합성 (Integrated)

데이터 웨어하우스의 데이터는 여러 운영 시스템에서 가져오기 때문에 모든 불일치를 제거하여 통합한다. 데이터가 데이터 웨어하우스에 들어갈 때는 일관적인 형태(데이터의 일관된 이름 짓기, 일관된 변수 측정, 일관된 코드화 구조, 데이터의 물리적 속성 등)로 변환된다. 이러한 과정을 통해 데이터 웨어하우스는 사용자에게 신뢰할 수 있는 하나의 버전(one version of truth)을 제공한다. 기존 운영 시스템에서는 많은 부분이 중복되어 하나의 사실에 대해 다수의 버전이 존재하지만, 데이터 웨어하우스에서는 전사적인 관점에서 통합되기 때문이다.

3.3. 시계열성 (Time-variant)

데이터 웨어하우스의 데이터는 일정 기간 동안 정확성을 나타낸다. 데이터 웨어하우스는 일정한 시간 동안의 데이터를 대변하는 것으로 스냅샷(snap shot)과 같다고 할 수 있다. 따라서 데이터 구조상에 '시간'이 아주 중요한 요소로 작용한다.

운영 시스템이 일상적인 운영을 지원하면서 현재 값을 반영하는 반면, 데이터 웨어하우스 데이터는 최대 10년에 이르는 긴 시간 범위를 나타내므로 대부분 과거 데이터를 저장한다. 이는 주로 데이터 마이닝 및 예측을 위한 것이다. 예를 들어, 사용자가 특정 고객의 구매 패턴을 검색하는 경우, 현재 및 과거 구매에 대한 데이터를 살펴봐야 한다.

기간계 시스템에서는 데이터 참조 시점에서의 상황을 파악하면 되므로, 과거 데이터는 기본적으로 보존되지 않으며, 짧으면 반기, 길어도 1년마다 개별 데이터를 요약본으로 갱신한다. 이 때문에 기간계 시스템의 디스크 사용량은 업무량이 증대하지 않는 한 크게 변동하지 않는다.

이에 반해 데이터 웨어하우스의 목적은 과거 데이터의 축적과 현재와의 비교이므로, 데이터의 삭제나 갱신은 이루어지지 않고, 보존 데이터량은 시간과 비례하여 증대한다. 예를 들어, 어떤 고객이 지금까지 어떤 쇼핑을 했는지, 더 나아가 앞으로 어느 정도의 구매가 기대되는지와 같은 판단을 위해 데이터 웨어하우스가 사용된다.

3.4. 비휘발성 (Nonvolatile)

데이터 웨어하우스에 일단 데이터가 적재되면 일괄 처리(batch) 작업에 의한 갱신 외에는 "Insert"나 "Delete" 등의 변경이 수행되지 않는다. 데이터 웨어하우스는 읽기 전용 데이터베이스로서 갱신이 이루어지지 않는다. 웨어하우스 환경에서는 프로덕션 데이터 로드(Production Data Load)와 활용만이 존재하며, 운영 시스템에서와 같은 의미의 데이터 갱신은 발생하지 않는다. 데이터 웨어하우스의 데이터는 읽기 전용이며, 이는 업데이트, 생성 또는 삭제할 수 없다(규제 또는 법적 의무가 있는 경우는 예외).

데이터 웨어하우스 제창자인 미국의 컴퓨터 과학자 Bill Inmon^영어에 따르면, 데이터 웨어하우스는 삭제(Delete)나 갱신(Update)하지 않는 데이터의 집합체이다. 여러 기간계 시스템(제조 관리 시스템, 판매 관리 시스템, 회계 시스템 등)에서 마스터와 트랜잭션(거래)을 추출하여 재구성 및 재축적한 시스템을 가리키는 경우가 많다.

기간계 시스템에서는 데이터 참조 시점에서의 상황을 파악하면 되므로, 과거 데이터는 기본적으로 보존되지 않으며, 짧으면 반기, 길어도 1년마다 개별 데이터를 요약본으로 갱신한다. 이에 반해 데이터 웨어하우스의 목적은 과거 데이터 축적과 현재와의 비교이므로, 데이터 삭제나 갱신은 이루어지지 않고, 보존 데이터량은 시간과 비례하여 증대한다.

3.5. 용이한 접근성

컴퓨터 시스템이나 자료 구조에 대한 지식이 없는 사용자도 데이터 웨어하우스에 쉽게 접근할 수 있어야 한다. 조직의 관리자와 분석가들은 개인용 컴퓨터(PC)를 통해 데이터 웨어하우스에 연결할 수 있어야 하며, 이러한 연결은 즉각적이고 신속하게 이루어져야 한다.

4. 구성 요소

데이터 웨어하우스는 관리 하드웨어, 관리 소프트웨어, 추출ㆍ변환ㆍ정렬 도구, 데이터베이스 마케팅 시스템, 메타데이터, 최종 사용자 접근 및 활용 도구 등으로 구성되어 있다.

데이터 웨어하우스 및 마트 환경은 다음과 같은 구성 요소를 포함한다.

* 데이터 소스 시스템 (종종 회사의 운영 데이터베이스, 예를 들어 관계형 데이터베이스)
* 소스 시스템에서 데이터를 추출하고, 변환하여 데이터 마트 또는 웨어하우스에 로드하기 위한 데이터 통합 기술 및 프로세스
* 웨어하우스 또는 마트에 데이터를 저장하기 위한 아키텍처
* 다양한 사용자를 위한 도구 및 애플리케이션
* 메타데이터, 데이터 품질 및 거버넌스 프로세스. 메타데이터에는 데이터 소스(데이터베이스, 테이블 및 열 이름), 새로 고침 일정 및 데이터 사용 측정치가 포함된다.

5. 관련 시스템

데이터 웨어하우스는 BI의 하나로, 의사 결정에 필요한 데이터를 활용하기 위해 여러 시스템에서 데이터를 수집하고 축적한다. 분석 방법까지 포함하여 조직 내 의사 결정을 지원하는 정보 관리 시스템을 의미하며, 원시 데이터 계층, 데이터 웨어하우스 계층, 클라이언트 계층으로 구성되어 데이터의 추출, 저장, 조회 등의 기능을 수행한다.

데이터 웨어하우스에서 유용한 데이터를 발견하기 위한 기법 및 도구로서, MS Access 등 시판되는 데이터베이스 소프트웨어를 이용하는 사람도 있지만, OLAP나 데이터 마이닝 전용 도구가 사용되는 경우도 많다.

5.1. 운영 데이터베이스 (Operational Databases)

운영 데이터베이스는 데이터 무결성 유지, 데이터베이스 정규화, 개체-관계 모델을 활용하여 비즈니스 트랜잭션 기록 속도를 높이는 데 최적화되어 있다. 운영 시스템 설계자는 일반적으로 데이터 무결성을 보장하기 위해 코드의 12가지 규칙을 따른다. 완전히 정규화된 데이터베이스 설계는 비즈니스 트랜잭션 정보가 수십 개에서 수백 개의 테이블에 저장되는 결과를 낳는 경우가 많다. 관계형 데이터베이스는 이러한 테이블 간의 관계를 효율적으로 관리한다. 각 트랜잭션에 의해 해당 테이블의 소량 데이터만 영향을 받으므로 데이터베이스의 삽입/업데이트 성능이 매우 빠르다. 오래된 데이터는 성능 향상을 위해 주기적으로 제거된다.

운영 데이터베이스는 행 지향 데이터베이스 관리 시스템(DBMS)을 사용하는 것이 유리한 반면, 분석 데이터베이스는 열 지향 DBMS를 사용하는 것이 좋다. 운영 시스템은 비즈니스의 스냅샷을 유지하지만, 데이터 웨어하우스는 ETL 프로세스를 통해 기록 데이터를 유지한다.

5.2. OLAP (Online Analytical Processing)

데이터 웨어하우스에서 유용한 데이터를 발견하기 위한 기법 및 도구로서, MS Access 등 시판되는 데이터베이스 소프트웨어를 이용하는 사람도 있지만, OLAP나 데이터 마이닝 전용 도구가 사용되는 경우도 많다.

5.3. OLTP (Online Transaction Processing)

온라인 트랜잭션 처리(OLTP)는 다수의 사용자가 짧은 온라인 트랜잭션(INSERT, UPDATE, DELETE)을 처리하는 방식을 말한다. OLTP 시스템은 빠른 쿼리 처리와 다중 접근 환경에서 데이터 무결성 유지를 중요하게 생각한다. OLTP 시스템의 성능은 초당 처리하는 트랜잭션 수로 나타낼 수 있다. OLTP 데이터베이스는 상세하고 최신의 데이터를 포함하며, 트랜잭션 데이터베이스를 저장하는 데 사용되는 스키마는 엔터티 모델(일반적으로 3NF)이다. 정규화는 이 시스템의 데이터 모델링 기술의 표준이다.

운영 데이터베이스는 데이터 무결성 유지, 데이터베이스 정규화, 개체-관계 모델을 사용하여 비즈니스 트랜잭션 기록 속도를 높이는 데 최적화되어 있다. 운영 시스템 설계자는 일반적으로 데이터 무결성을 보장하기 위해 코드의 12가지 규칙을 따른다. 완전히 정규화된 데이터베이스 설계는 비즈니스 트랜잭션의 정보가 수십 개에서 수백 개의 테이블에 저장되는 결과를 낳는 경우가 많다. 관계형 데이터베이스는 이러한 테이블 간의 관계를 효율적으로 관리한다. 데이터베이스는 각 트랜잭션에 의해 해당 테이블의 소량의 데이터만 영향을 받기 때문에 삽입/업데이트 성능이 매우 빠르다.

5.4. 데이터 마트 (Data Marts)

데이터 마트는 단일 주제 또는 기능 영역에 초점을 맞춘 단순한 데이터 웨어하우스이다. 따라서 판매, 재무, 마케팅과 같은 제한된 수의 소스에서 데이터를 가져온다. 데이터 마트는 종종 조직 내 단일 부서에서 구축하고 관리한다. 소스는 내부 운영 시스템, 중앙 데이터 웨어하우스 또는 외부 데이터가 될 수 있다. 데이터 웨어하우스와 마찬가지로 저장된 데이터는 일반적으로 정규화되지 않는다.

👆

좌우로 밀어서 보기

데이터 웨어하우스와 데이터 마트의 차이점
속성	데이터 웨어하우스	데이터 마트
데이터 범위	전사적	부서별
주제 영역 수	여러 개	단일
구축 난이도	어려움	쉬움
필요 메모리	더 큼	제한적

데이터 마트의 유형에는 종속, 독립 및 하이브리드 데이터 마트가 있다.

데이터 웨어하우스에서는 데이터를 분석하여 의사 결정에 활용하기 위해, 여러 개의 기간계 시스템으로부터 데이터를 수집하고 축적한다. 사용자가 사용할 데이터를 예측하여 데이터 웨어하우스에서 데이터를 집계하여 데이터 마트가 구축되는 경우가 있다. 사용자는 툴을 사용하여 데이터 마트에서 필요한 데이터나 보고서를 작성한다. 그 이름 그대로, 데이터 웨어하우스는 데이터의 창고이며, 데이터 마트는 데이터의 소매점을 의미한다.

6. 데이터 저장 방식

데이터 웨어하우스는 조직 내 분산 운영되는 데이터베이스 관리 시스템들을 효율적으로 통합, 조정, 관리하여 의사 결정에 필요한 기초를 제공한다.

데이터 웨어하우스는 경영 의사 결정을 지원하기 위해 다음과 같은 네 가지 특성을 갖는 데이터 집합체이다.

* 주제 지향성(subject-orientation): 최종 사용자와 분석자가 쉽게 이해할 수 있도록 주제별로 데이터를 구성한다.
* 통합성(integration): 데이터 웨어하우스에 들어오는 데이터는 일관된 이름, 변수 측정, 코드화 구조 등으로 변환된다.
* 시계열성(time-variancy): 데이터는 일정 기간 동안의 정확성을 나타낸다.
* 비휘발성(nonvolatilization): 데이터는 일단 적재되면 일괄 처리 작업에 의한 갱신 외에는 변경되지 않는다.

데이터 웨어하우스는 기업 활동 전반의 정보를 통합 관리하며, 원시 데이터, 데이터 웨어하우스, 클라이언트 계층으로 구성되어 데이터 추출, 저장, 조회 기능을 수행한다. 전체 회사 규모의 정보를 관리하므로 용량은 수백 GB에서 수 TB에 이른다.

이러한 대용량 처리는 기존 플랫폼으로는 시간과 비용 제약으로 어려웠으나, 병렬 서버와 대용량 자기 디스크 장치의 등장으로 가능해졌다. 병렬 서버는 검색 요구를 분할, 병렬 처리하여 고속 검색을 지원하며, 관계형 데이터베이스 관리 시스템(RDBMS)을 사용한다.

6.1. 차원 모델링 (Dimensional Modeling)

랄프 킴볼이 제안한 스타 스키마를 사용하는 차원적 접근 방식에서는 트랜잭션 데이터를 "팩트"와 "차원"으로 나눈다. 팩트는 일반적으로 숫자 트랜잭션 데이터이고, 차원은 팩트에 대한 배경 정보를 제공하는 참조 정보이다. 예를 들어, 판매 트랜잭션은 주문된 제품 수 및 제품에 대해 지불된 총 가격과 같은 팩트와 주문 날짜, 고객 이름, 제품 번호, 주문 배송지 및 청구지 위치, 주문을 받는 담당 영업사원과 같은 차원으로 나눌 수 있다.

이러한 차원적 접근 방식은 데이터를 더 쉽게 이해하고 데이터 검색 속도를 높인다. 차원 구조는 측정/팩트와 컨텍스트/차원으로 나뉘어져 있어 비즈니스 사용자가 이해하기 쉽다. 팩트는 조직의 비즈니스 프로세스 및 운영 시스템과 관련이 있으며, 차원은 이에 대한 배경 정보를 제공한다 (Kimball, Ralph 2008). 또 다른 장점은 차원 모델이 매번 관계형 데이터베이스를 포함하지 않는다는 것이다. 따라서 이러한 유형의 모델링 기술은 데이터 웨어하우스에서 최종 사용자 쿼리에 매우 유용하다.

팩트와 차원의 모델은 데이터 큐브로도 이해할 수 있으며, 여기서 차원은 다차원 큐브의 범주형 좌표이며, 팩트는 좌표에 해당하는 값이다.

차원적 접근 방식의 주요 단점은 다음과 같다.
# 다양한 운영 시스템의 데이터를 사용하여 데이터 웨어하우스에 데이터를 로드하면서 팩트와 차원의 무결성을 유지하는 것이 복잡하다.
# 조직이 비즈니스 방식을 변경하는 경우 웨어하우스 구조를 수정하기 어렵다.

6.2. 정규화 모델링 (Normalized Modeling)

데이터 웨어하우스의 정규화된 접근 방식에서는 데이터가 어느 정도 데이터베이스 정규화 규칙을 따르도록 저장된다. 정규화된 관계형 데이터베이스 테이블은 '주제 영역'(예: 고객, 제품, 재무)으로 그룹화된다. 대규모 기업에서 사용될 경우, 수십 개의 테이블이 서로 연결된다.

이 접근 방식의 주요 장점은 데이터베이스에 정보를 추가하기 쉽다는 것이다. 그러나 테이블 수가 많기 때문에 사용자가 서로 다른 소스의 데이터를 의미 있는 정보로 결합하기 어렵고, 데이터 소스와 데이터 웨어하우스의 데이터 구조를 정확히 이해하지 않고서는 정보에 접근하기 어려울 수 있다는 단점이 있다.

정규화된 모델과 차원 모델은 모두 관계형 테이블을 포함하므로 개체-관계 다이어그램으로 표현할 수 있다. 둘의 차이점은 정규화 정도이며, 이러한 접근 방식은 상호 배타적이지 않다. 차원적 접근 방식도 어느 정도 데이터를 정규화할 수 있다.

로버트 힐라드는 '정보 중심 비즈니스'에서 두 가지 접근 방식을 비즈니스 문제의 정보 요구 사항을 기준으로 비교했다. 그는 정규화된 모델이 차원 모델보다 (두 모델에서 동일한 필드를 사용하더라도) 훨씬 더 많은 정보를 담고 있지만, 사용성은 떨어진다고 결론 내렸다. 그는 정보 엔트로피 측면에서 정보의 양을, 스몰 월드 데이터 변환 척도 측면에서 사용성을 측정하여 이러한 결과를 도출했다.

7. 설계 방법

데이터 웨어하우스는 기업의 효율적인 의사 결정을 지원하기 위해 분산된 데이터베이스 관리 시스템들을 통합, 관리하는 방법론이다. 데이터 웨어하우스는 관리 하드웨어, 소프트웨어, 데이터 추출 및 변환 도구, 데이터베이스 마케팅 시스템, 메타데이터, 사용자 접근 도구 등으로 구성된다.

데이터 웨어하우스는 기업의 정보 자산을 효율적으로 활용하기 위한 패러다임으로, 전략적 관점에서 의사 결정을 지원하기 위해 데이터를 시계열적으로 축적하고 통합하는 기술 환경이다. 여기에는 흩어져 있는 데이터 테이블을 연결하는 데이터베이스가 사용된다.

데이터 웨어하우스는 경영 의사 결정을 지원하는 데이터 집합체로서 다음과 같은 네 가지 특성을 지닌다.

* 주제 지향성(subject-orientation): 데이터를 주제별로 구성하여 최종 사용자와 분석자가 쉽게 이해할 수 있도록 한다.
* 통합성(integration): 데이터 웨어하우스에 들어오는 데이터는 일관된 이름, 변수 측정, 코드화 구조 등으로 변환된다.
* 시계열성(time-variancy): 데이터 웨어하우스의 데이터는 일정 기간 동안 정확성을 유지한다.
* 비휘발성(nonvolatilization): 데이터 웨어하우스에 적재된 데이터는 일괄 처리 작업을 통한 갱신 외에는 변경되지 않는다.

데이터 웨어하우스는 단순한 데이터 저장 창고가 아니라 분석 방법까지 포함하여 조직 내 의사 결정을 지원하는 정보 관리 시스템이다. 기업 활동 전반에 필요한 모든 정보를 일원화하여 관리하며, 원시 데이터, 데이터 웨어하우스, 클라이언트 계층으로 구성되어 데이터 추출, 저장, 조회 기능을 수행한다. 데이터 웨어하우스의 용량은 수백 GB에서 수 TB에 이른다.

이러한 대용량 데이터 처리는 병렬 서버와 대용량 자기 디스크 장치의 발달로 가능해졌다. 병렬 서버는 검색 처리 요구를 분할하여 복수의 프로세스로 병렬 처리함으로써 고속 검색을 지원한다. 병렬 서버에는 관계형 데이터베이스 관리 시스템(RDBMS)이 사용된다.

7.1. 상향식 설계 (Bottom-up Design)

상향식 접근 방식에서는 먼저 특정 비즈니스 프로세스에 대한 보고 및 분석 기능을 제공하기 위해 데이터 마트를 생성한다. 그런 다음 이러한 데이터 마트를 통합하여 포괄적인 데이터 웨어하우스를 만들 수 있다. 데이터 웨어하우스 버스 아키텍처는 기본적으로 "버스"의 구현이며, 이는 둘 이상의 데이터 마트의 팩트 간에 (특정 방식으로) 공유되는 확인된 차원과 확인된 팩트의 모음이다.

7.2. 하향식 설계 (Top-down Design)

하향식 접근 방식은 정규화된 기업 데이터 모델을 사용하여 설계된다. 가장 세분화된 데이터, 즉 "원자적" 데이터 요소가 데이터 웨어하우스에 저장된다. 특정 비즈니스 프로세스 또는 특정 부서에 필요한 데이터를 포함하는 차원 데이터 마트는 데이터 웨어하우스에서 생성된다.

7.3. 하이브리드 설계 (Hybrid Design)

데이터 볼트 모델링 구성 요소는 허브 앤 스포크 아키텍처를 따른다. 이 모델링 스타일은 제3 정규형과 스타 스키마의 모범 사례를 결합한 하이브리드 디자인이다. 데이터 볼트 모델은 데이터 웨어하우스로 설계되었으며, 최종 사용자가 접근할 수 있도록 설계되지 않았다. 구축 시에도 비즈니스 목적을 위해 데이터 마트 또는 스타 스키마 기반 릴리스 영역을 사용해야 한다.

하이브리드(앙상블이라고도 함) 데이터 웨어하우스 데이터베이스는 제3 정규형으로 유지되어 데이터 중복을 제거한다. 그러나 정규화된 관계형 데이터베이스는 차원 모델링이 널리 사용되는 비즈니스 인텔리전스 보고서에 효율적이지 않다. 소규모 데이터 마트는 통합된 웨어하우스에서 데이터를 가져와 필터링된 특정 데이터를 팩트 테이블 및 필요한 차원에 사용할 수 있다. 데이터 웨어하우스는 데이터 마트가 읽을 수 있는 단일 정보 소스를 제공하여 광범위한 비즈니스 정보를 제공한다. 하이브리드 아키텍처를 통해 데이터 웨어하우스를 운영(정적 아님) 정보가 저장될 수 있는 마스터 데이터 관리 저장소로 대체할 수 있다.

8. 발전 방향

데이터 웨어하우스는 단순한 데이터 저장 창고가 아니라, 분석 방법까지 포함하여 조직 내 의사 결정을 지원하는 정보 관리 시스템이다. 기업 활동 전반에 필요한 모든 정보를 통합 관리하며, 그 용량은 수백 GB에서 수 TB에 이른다.

과거에는 대형 메인 프레임 등으로 이러한 대용량 데이터를 관리했으나, 시간과 비용 제약이 컸다. 하지만 병렬 서버 등장과 자기 디스크 장치의 대용량화 및 저가격화로 데이터 웨어하우스 구축이 가능해졌다. 병렬 서버는 검색 요청을 여러 프로세스로 분할, 병렬 처리하여 빠른 검색을 지원하며, 관계형 데이터베이스 관리 시스템(RDBMS)과 함께 사용된다.

데이터 가상화 기술 발전으로, 여러 위치의 데이터를 가상으로 통합하여 활용하는 방향으로 데이터 웨어하우스 기술이 발전하고 있다.

8.1. 데이터 가상화 (Data Virtualization)

데이터 가상화를 사용하면 사용된 데이터는 원래 위치에 유지되고 여러 소스에서 분석을 수행할 수 있도록 실시간 접근이 설정되어 가상 데이터 웨어하우스를 생성한다. 이는 여러 플랫폼의 데이터를 결합할 때의 호환성 문제와 같은 몇 가지 기술적 어려움을 해결하고, 오류 데이터로 인한 오류 위험을 줄이며, 최신 데이터가 사용되도록 보장하는 데 도움이 될 수 있다. 또한, 개인 정보가 포함된 새 데이터베이스를 생성하지 않으면 개인 정보 보호 규정을 더 쉽게 준수할 수 있다. 그러나 데이터 가상화에서는 데이터의 로컬 사본이 없으므로 모든 필요한 데이터 소스에 대한 연결이 작동해야 하며, 이는 이 접근 방식의 주요 단점 중 하나이다.

8.2. 실시간 데이터 웨어하우스

이 섹션은 주어진 원본 소스에 "실시간 데이터 웨어하우스"에 대한 내용이 명시적으로 없으므로, 섹션 제목에 부합하는 내용을 작성하기 어렵습니다. 따라서 원본 소스의 내용을 바탕으로 데이터 웨어하우스의 일반적인 특성과 활용에 대해 작성하되, 섹션 제목에 맞게 내용을 조정하는 것은 불가능합니다.

다음은 원본 소스를 바탕으로 작성한 내용입니다.

데이터 웨어하우스는 경영자의 의사 결정을 지원하는 데이터의 집합체로, 다음과 같은 네 가지 특성을 지닌다.

* 주제 지향성(subject-orientation): 최종 사용자나 전산에 약한 분석자도 이해하기 쉽도록 데이터를 주제별로 구성한다.
* 통합성(integration): 데이터 웨어하우스에 들어가는 데이터는 일관된 이름, 변수 측정, 코드화 구조 등 일관적인 형태로 변환된다.
* 시계열성(time-variancy): 데이터 웨어하우스의 데이터는 일정 기간 동안 정확성을 나타낸다.
* 비휘발성(nonvolatilization): 데이터 웨어하우스에 데이터가 적재되면 일괄 처리 작업에 의한 갱신 외에는 변경되지 않는다.

데이터 웨어하우스는 단순히 데이터를 저장하는 창고가 아니라, 분석 방법까지 포함하여 조직 내 의사 결정을 지원하는 정보 관리 시스템을 의미한다. 기업 활동 전반에 필요한 모든 정보를 일원화해 관리하며, 원시 데이터 계층, 데이터 웨어하우스 계층, 클라이언트 계층으로 구성되어 데이터의 추출, 저장, 조회 등의 기능을 수행한다.

데이터 웨어하우스는 그 용량이 수백 GB에서 수 TB에 이르기 때문에, 대형 메인 프레임 등 기존 플랫폼으로는 시간과 비용 제약으로 어려웠다. 그러나 병렬 서버의 등장과 자기 디스크 장치의 대용량화 및 저가격화로 인해 가능하게 되었다. 병렬 서버를 사용하면 하나의 검색 처리 요구를 분할하여 복수 프로세스로 병렬 처리함으로써 고속으로 검색할 수 있기 때문이다. 병렬 서버에 대응해서 관계형 데이터베이스 관리 시스템(RDBMS)을 사용한다.