데이터 레이크
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
데이터 레이크는 데이터 마트와 대조되는 개념으로, 다양한 형식의 데이터를 저장하고 처리하는 데 사용되는 저장소이다. 2011년 펜타호의 제임스 딕슨에 의해 명명되었으며, 데이터 사일로 문제를 해결하기 위해 제안되었다. 클라우드 스토리지 서비스나 분산 파일 시스템을 활용하며, 개인 데이터를 관리하는 새로운 유형의 데이터 레이크도 등장했다. 데이터 레이크는 잘 관리되지 않으면 데이터 늪으로 전락할 수 있으며, 용어가 광범위하게 사용되어 유용성이 떨어진다는 비판도 존재한다. 이러한 비판에 대한 대응으로 데이터 레이크를 비즈니스 가치를 제공하는 서비스 모델로 간주해야 한다는 의견도 있다. 데이터 레이크하우스는 데이터 레이크와 데이터 웨어하우스의 장점을 결합한 하이브리드 접근 방식으로, 데이터 레이크의 비판을 해결하려는 시도이다.
2011년, 펜타호(Pentaho)의 최고 기술 책임자(CTO)였던 제임스 딕슨(James Dixon)은 데이터 마트와 대조하여 데이터 레이크라는 용어를 만들었다.[23][5] 딕슨은 데이터 마트가 정보 사일로화와 같은 몇 가지 고유한 문제를 야기한다고 지적하며 데이터 레이크의 필요성을 주장했다.[24][18] 프라이스워터하우스쿠퍼스(PwC)는 데이터 레이크가 "데이터 사일로를 종식시킬 수 있다"고 언급했다.[25][6][19]
데이터 레이크는 정형, 반정형, 비정형 등 다양한 유형의 데이터를 형식에 제한 없이 저장할 수 있다. 데이터를 저장할 때는 스키마를 정의하지 않고, 읽을 때 스키마를 정의하는 'Schema-on-Read' 방식을 사용하여 데이터 수집 및 저장 단계에서 유연성을 확보한다.
많은 기업에서 구글 클라우드 스토리지, 아마존 S3와 같은 클라우드 스토리지 서비스나 아파치 하둡 분산 파일 시스템(HDFS)과 같은 분산 파일 시스템을 데이터 레이크로 활용하고 있다.[26] 데이터 레이크 개념에 대한 학문적 관심이 점차 높아지고 있는데, 예를 들어 카디프 대학교의 Personal DataLake는 개인 데이터를 수집, 정리, 공유하는 단일 지점을 제공하여 개인 사용자의 빅 데이터를 관리하는 것을 목표로 하는 새로운 유형의 데이터 레이크이다.[27]
잘 관리되지 않는 데이터 레이크는 데이터 늪이라고 불리기도 한다.[9]
데이터 레이크하우스는 데이터 레이크처럼 다양한 원시 데이터 형식을 수집할 수 있으면서도, ACID 트랜잭션을 제공하고 데이터 웨어하우스처럼 데이터 품질을 보장하는 하이브리드 접근 방식이다.[14][15] 데이터 레이크하우스 아키텍처는 트랜잭션 지원, 스키마 적용, 거버넌스, 다양한 워크로드 지원과 같은 데이터 웨어하우스 기능을 추가하여 데이터 레이크에 대한 몇 가지 비판을 해결하려 한다. 오라클에 따르면, 데이터 레이크하우스는 "데이터 레이크의 비정형 데이터의 유연한 저장소와 데이터 웨어하우스의 관리 기능 및 도구"를 결합한다.[16]
[1]
웹사이트
The growing importance of big data quality
https://blogs.sas.co[...]
2016-11-21
2. 배경
3. 특징
데이터 레이크는 필요에 따라 저장 용량과 처리 능력을 쉽게 확장할 수 있어 확장성이 뛰어나다. 또한 아파치 스파크, 아파치 하이브 등과 같은 빅데이터 처리 기술을 활용하여 다양한 분석 도구 및 프레임워크와 연동하여 사용할 수 있다.
4. 예시
5. 한계 및 비판
2015년 6월, 데이비드 니들은 "소위 데이터 레이크"를 "빅 데이터를 관리하는 논란이 많은 방법 중 하나"라고 특징지었다.[10] PwC는 또한 연구에서 모든 데이터 레이크 계획이 성공적인 것은 아니라는 점에 유의했다. Cambridge Semantics의 CTO인 션 마틴은 다음과 같이 말했다.
> 우리는 고객들이 Hadoop 분산 파일 시스템(HDFS)에 모든 것을 덤핑하고 나중에 그것으로 무언가를 하기를 바라면서 빅 데이터 묘지를 만드는 것을 봅니다. 그러나 그들은 거기에 무엇이 있는지 그냥 잊어버립니다. 주요 과제는 데이터 레이크를 만드는 것이 아니라 그것이 제공하는 기회를 활용하는 것입니다.[6]
PwC는 성공적인 데이터 레이크를 구축하는 회사가 어떤 데이터와 메타데이터가 조직에 중요한지 파악하면서 레이크를 점진적으로 성숙시키는 것으로 묘사한다.
또 다른 비판은 ''데이터 레이크''라는 용어가 너무나 다양한 방식으로 사용되어 유용하지 않다는 것이다.[11] 예를 들어, 데이터 웨어하우스가 아닌 모든 도구나 데이터 관리 관행, 구현을 위한 특정 기술, 원시 데이터 저장소, ETL 오프로드를 위한 허브, 또는 셀프 서비스 분석을 위한 중앙 허브를 지칭하는 데 사용될 수 있다.
데이터 레이크에 대한 비판은 정당하지만, 많은 경우 다른 데이터 프로젝트에도 적용된다.[12] 예를 들어, ''데이터 웨어하우스''의 정의도 변경될 수 있으며, 모든 데이터 웨어하우스 노력이 성공적인 것은 아니다. 다양한 비판에 대한 응답으로, 맥킨지는[13] 데이터 레이크를 기술적 결과가 아닌 기업 내에서 비즈니스 가치를 제공하는 서비스 모델로 간주해야 한다고 언급했다.
6. 데이터 레이크하우스
참조
[2]
웹사이트
What is a data lake?
https://aws.amazon.c[...]
2020-10-12
[3]
웹사이트
Top Five Differences between DataWarehouses and Data Lakes
https://www.blue-gra[...]
[4]
뉴스
Big data requires a big architecture
https://www.forbes.c[...]
2011-07-21
[5]
웹사이트
Pentaho, Hadoop, and Data Lakes
https://jamesdixon.w[...]
James Dixon
2010-10-14
[6]
보고서
Data lakes and the promise of unsiloed data
http://www.pwc.com/e[...]
PricewaterhouseCoopers
[7]
웹사이트
Petabyte-Scale Data Pipelines with Docker, Luigi and Elastic Spot Instances
http://tech.adroll.c[...]
2015-09-22
[8]
서적
2015 IEEE Fifth International Conference on Big Data and Cloud Computing
[9]
뉴스
3 keys to keep your data lake from becoming a data swamp
https://www.cio.com/[...]
2017-06-08
[10]
뉴스
Hadoop Summit: Wrangling Big Data Requires Novel Tools, Techniques
http://www.eweek.com[...]
2015-06-10
[11]
웹사이트
Are Data Lakes Fake News?
https://sonra.io/201[...]
2017-08-08
[12]
간행물
Experimental Characteristics Study of Data Storage Formats for Data Marts Development within Data Lakes
[13]
웹사이트
A smarter way to jump into data lakes
https://www.mckinsey[...]
2017-08-01
[14]
Youtube
What is a Data Lakehouse?
https://www.databric[...]
[15]
Youtube
What is a Data Lakehouse?
https://www.snowflak[...]
[16]
Youtube
What is a Data Lakehouse?
https://www.oracle.c[...]
[17]
뉴스
3 keys to keep your data lake from becoming a data swamp
http://www.cio.com/a[...]
[18]
뉴스
Big data requires a big architecture
https://www.forbes.c[...]
2011-07-21
[19]
보고서
Data lakes and the promise of unsiloed data
http://www.pwc.com/e[...]
PricewaterhouseCooper
[20]
웹인용
The growing importance of big data quality
https://blogs.sas.co[...]
2016-11-21
[21]
웹인용
What is a data lake?
https://aws.amazon.c[...]
2020-10-12
[22]
웹인용
Top Five Differences between DataWarehouses and Data Lakes
https://www.blue-gra[...]
[23]
뉴스
Big data requires a big architecture
https://www.forbes.c[...]
2011-07-21
[24]
웹인용
Pentaho, Hadoop, and Data Lakes
https://jamesdixon.w[...]
James Dixon
2010-10-14
[25]
보고서
Data lakes and the promise of unsiloed data
http://www.pwc.com/e[...]
PricewaterhouseCoopers
[26]
웹인용
Petabyte-Scale Data Pipelines with Docker, Luigi and Elastic Spot Instances
http://tech.adroll.c[...]
2015-09-22
[27]
서적
2015 IEEE Fifth International Conference on Big Data and Cloud Computing
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com