빅 데이터

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

빅 데이터는 기존 데이터 처리 기술의 한계를 넘어서는 대용량 데이터를 의미하며, 1990년대부터 사용되었다. 빅 데이터는 데이터의 양(Volume), 다양성(Variety), 속도(Velocity), 정확성(Veracity), 가치(Value), 변동성(Variability) 등의 특징을 갖는다. 빅 데이터 분석 기술은 A/B 테스트, 머신러닝, 자연어 처리 등을 포함하며, 맵리듀스, 하둡과 같은 기술이 활용된다. 빅 데이터는 정치, 경제, 사회, 문화 등 다양한 분야에서 활용되며, 맞춤형 선거 전략, 소비 패턴 분석, 개인 맞춤 의료, 코로나19 확산 예측 등에 기여한다. 그러나 빅 데이터는 개인 정보 침해, 사회 불평등 심화, 예측력 저하 등의 문제점을 야기할 수 있으며, 이에 대한 윤리적 문제와 해결 방안에 대한 논의가 필요하다.

빅 데이터
📚 더 읽어볼만한 페이지
  • 데이터 관리 - 데이터 센터
  • 데이터 관리 - 정보 아키텍처
    정보 아키텍처는 정보 시스템 및 정보 기술 분야에서 공유 정보 환경의 구조적 설계를 의미하며, 웹사이트, 소프트웨어 등의 구성과 레이블링을 포함하여 검색 용이성과 사용성을 지원하고, 도서관정보학에 기원을 두고 있다.
  • 데이터베이스 - 지식 베이스
    지식 베이스는 특정 주제 정보를 체계적으로 저장 및 관리하며 규칙 기반 추론으로 새로운 지식 도출에 활용되고, 웹 콘텐츠 관리 및 지식 관리 시스템으로 확장되어 온톨로지를 이용, 인공지능 기술과 결합하여 문제 해결책을 제시하고 경험을 통해 학습하는 시스템이다.
  • 데이터베이스 - 화이트리스트
    화이트리스트는 특정 대상만 허용하고 나머지는 차단하는 접근 제어 목록으로, 정보보안, 무역, 금융 등 다양한 분야에서 활용되지만, 목록 선정 기준의 불명확성, 사회적 문제점 등의 위험성으로 투명하고 엄격한 관리가 필요하다.
  • 빅 데이터 - 예측 분석
    예측 분석은 통계학, 기계 학습 등의 분석 기법을 활용하여 과거 및 현재 데이터를 토대로 미래의 사건이나 결과를 예측하는 방법론으로, 다양한 분야에서 의사 결정 지원 및 위험 관리 등에 활용되지만, 인간 행동의 복잡성으로 인한 예측 불가능성에 대한 비판도 존재한다.
  • 빅 데이터 - 데이터 분석
    데이터 분석은 원시 데이터를 수집하여 의사 결정을 돕는 유용한 정보로 변환하는 과정으로, 데이터 수집, 처리, 정제, 탐색적 분석, 모델링, 데이터 제품 개발, 결과 소통 등의 단계를 거치며, 효과적인 분석을 위해 사실과 의견을 구별하고 편향을 극복하는 것이 중요하다.

2. 정의

빅 데이터는 통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터를 말한다. 단일 데이터 집합의 크기가 수십 테라바이트에서 수 페타바이트에 이르며, 그 크기가 끊임없이 변화하는 것이 특징이다. 1990년대부터 사용되어 왔으며, 존 매시(John Mashey)가 이 용어를 대중화시킨 데 기여했다.

빅 데이터는 일반적으로 사용되는 소프트웨어 도구로는 허용 가능한 시간 내에 데이터를 수집, 정리, 관리 및 처리할 수 없다. 빅 데이터의 "크기"는 끊임없이 변하며, 2012년 기준으로 수십 테라바이트에서 수많은 제타바이트에 이른다. 빅 데이터는 다양하고 복잡하며 방대한 규모의 데이터 세트에서 통찰력을 얻기 위해 새로운 형태의 통합 기술과 방법을 필요로 한다.

이 이미지는 빅데이터의 주요 특징인 양, 속도, 다양성의 성장을 보여줍니다.
이 이미지는 빅데이터의 주요 특징인 양, 속도, 다양성의 성장을 보여줍니다.


2018년 정의에 따르면 "빅 데이터는 데이터를 처리하기 위해 병렬 컴퓨팅 도구가 필요한 영역"이며, "이는 병렬 프로그래밍 이론을 통해 사용되는 컴퓨터 과학의 뚜렷하고 명확하게 정의된 변화와 코드의 관계형 모델이 제공하는 일부 보장 및 기능의 손실을 나타낸다"고 명시하고 있다.

빅데이터는 다음과 같은 특징으로 설명될 수 있다.

* 양(Volume): 생성 및 저장된 데이터의 양으로, 데이터의 크기는 가치와 잠재적인 통찰력을 결정한다. 빅데이터의 크기는 일반적으로 테라바이트와 페타바이트보다 크다.
* 다양성(Variety): 데이터의 유형과 특성이다. 빅데이터 기술은 반구조화 및 비구조화 데이터를 캡처, 저장 및 처리하기 위해 발전했으며, 데이터 융합을 통해 누락된 부분을 채운다.
* 속도(Velocity): 데이터가 생성 및 처리되는 속도이다. 빅데이터는 종종 실시간으로 제공되며, 스몰 데이터와 비교하여 더 지속적으로 생성된다.
* 정확성(Veracity): 데이터의 진실성 또는 신뢰성으로, 데이터 품질과 데이터 가치를 나타낸다. 빅데이터는 크기가 클 뿐만 아니라 분석에서 가치를 얻기 위해 신뢰할 수 있어야 하며, 캡처된 데이터의 데이터 품질은 크게 달라질 수 있어 정확한 분석에 영향을 미친다.
* 가치(Value): 대용량 데이터셋의 처리 및 분석을 통해 얻을 수 있는 정보의 가치이다. 가치는 빅데이터 분석에서 검색된 정보의 수익성을 나타낼 수도 있다.
* 변동성(Variability): 빅데이터의 변화하는 형식, 구조 또는 소스의 특성이다. 빅데이터 분석은 여러 소스의 원시 데이터를 통합할 수 있으며, 원시 데이터 처리에는 비구조화 데이터를 구조화 데이터로 변환하는 작업도 포함될 수 있다.

2001년, 가트너(Gartner)의 더그 레이니(Doug Laney)는 빅데이터의 특징으로 볼륨(volume, 데이터 양), 속도(velocity, 입출력 데이터의 속도), 다양성(variety, 데이터 종류와 데이터 소스의 범위)을 정의했다. 가트너는 "3V" 모델을 사용했지만, 2012년, 정의를 업데이트하여 "빅데이터는 고용량, 고속, 고다양성 중 하나(또는 모두)의 정보 자산이며, 새로운 형태의 처리가 필요하고, 의사결정의 고도화, 통찰력 발견, 프로세스 최적화에 기여한다"고 정의했다.

3. 분석 기술

맥킨지 글로벌 연구소의 2011년 보고서는 빅데이터의 주요 구성 요소와 생태계를 데이터 분석 기술, 빅데이터 기술, 시각화로 특징지었다. 데이터 분석 기술에는 A/B 테스트, 머신러닝, 자연어 처리 등이 있다. 빅데이터 기술에는 비즈니스 인텔리전스, 클라우드 컴퓨팅, 데이터베이스 등이 포함된다.

다차원 빅데이터는 OLAP 데이터 큐브 또는 수학적으로 텐서로 표현될 수도 있다. 배열 데이터베이스 시스템은 이 데이터 유형에 대한 저장 및 고급 쿼리 지원을 제공하기 위해 개발되었다.

빅데이터에 적용되는 추가 기술에는 효율적인 텐서 기반 계산, 예: 다중선형 부분공간 학습, MPP 데이터베이스, 검색 기반 애플리케이션, 데이터 마이닝, 분산 파일 시스템, 분산 캐시(예: 버스트 버퍼 및 Memcached), 분산 데이터베이스, 클라우드 및 HPC 기반 인프라(애플리케이션, 저장소 및 컴퓨팅 리소스), 및 인터넷이 포함된다. 그러나 많은 접근 방식과 기술이 개발되었음에도 불구하고 빅데이터를 사용한 머신러닝을 수행하는 것은 여전히 어렵다.

일부 MPP 관계형 데이터베이스는 페타바이트 단위의 데이터를 저장하고 관리할 수 있다. RDBMS의 대용량 데이터 테이블 사용에 대한 로딩, 모니터링, 백업 및 최적화 기능도 포함된다.

DARPA의 위상 데이터 분석 프로그램은 대규모 데이터 세트의 기본 구조를 찾고 있으며, 2008년 "Ayasdi"라는 회사 출범과 함께 이 기술이 공개되었다.

DARPA의 위상 데이터 분석 프로그램(클라인의 항아리) 대규모 데이터 집합의 기본 구조를 탐구하고 있다.
DARPA의 위상 데이터 분석 프로그램(클라인의 항아리) 대규모 데이터 집합의 기본 구조를 탐구하고 있다.


빅데이터 분석 프로세스 전문가들은 일반적으로 느린 공유 저장소를 꺼리고, 다양한 형태의 DAS(SSD에서 병렬 처리 노드 내부에 있는 대용량 SATA 디스크까지)를 선호한다. 공유 저장소 아키텍처—SAN 및 NAS—에 대한 인식은 상대적으로 느리고, 복잡하며, 비용이 많이 든다는 것이다. 이러한 특성은 시스템 성능, 일반적인 인프라 및 저렴한 비용을 통해 발전하는 빅데이터 분석 시스템과 일치하지 않는다.

실시간 또는 거의 실시간 정보 제공은 빅데이터 분석의 특징 중 하나이다. 따라서 지연 시간은 가능한 한 항상 피한다. 직접 연결된 메모리 또는 디스크의 데이터는 좋지만, FC SAN 연결의 반대편에 있는 메모리 또는 디스크의 데이터는 그렇지 않다. 분석 애플리케이션에 필요한 규모의 SAN 비용은 다른 저장 기술보다 훨씬 높다.

2004년, 구글(Google)은 맵리듀스(MapReduce)라는 빅데이터 처리 기술에 대한 논문을 발표했다. 이는 데이터 처리를 분할하여 여러 대의 컴퓨터에서 병렬로 실행하는 것이다. 이 분할 및 병렬 처리 단계를 "맵(Map)"이라고 한다. 각 컴퓨터의 처리 결과는 최종적으로 하나로 모아져 분석가에게 전달된다. 이를 "리듀스(Reduce)"라고 한다. 이 기술은 성공을 거두었으므로, 이 알고리즘을 재현하려는 시도도 있었다. 실제로 MapReduce는 하둡(Hadoop)이라는 이름으로 아파치의 오픈소스 프로젝트로 채택되었다.

2011년 맥킨지 보고서에 따르면, 다음과 같은 기술이 필요하다고 제시되었다.
*A/B 테스트,
*상관 규칙 학습,
*통계 분류,
*데이터 클러스터링,
*크라우드소싱,
*데이터 융합 및 통합,
*앙상블 학습,
*유전 알고리즘,
*기계 학습,
*자연어 처리,
*뉴럴 네트워크,
*패턴 인식,
*이상 탐지,
*예측 모델링,
*회귀 분석,
*감정 분석,
*신호 처리,
*지도 학습 및 비지도 학습,
*시뮬레이션,
*시계열 분석,
*시각화이다. 다차원 빅데이터는 텐서로 표현할 수 있으며, 이는 다선형 부분 공간 학습과 같은 텐서 기반 계산을 통해 효율적으로 처리할 수 있다.

또한 관련 기술로는 초병렬 처리(MPP) 데이터베이스, 검색 기반 애플리케이션, 데이터 마이닝 그리드, 분산 파일 시스템, 분산 데이터베이스, 클라우드 컴퓨팅 및 인터넷이 있다. 일부 MPP 관계형 데이터베이스는 페타바이트를 저장 및 관리하는 기능을 가지고 있다. 게다가 암묵적으로 관계형 데이터베이스 관리 시스템(RDBMS)을 로드, 모니터링, 백업하는 기능도 필요하다.

3.1. 분석 기술

빅데이터 분석 기술은 기존의 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등을 포함한다. 특히 소셜 미디어비정형 데이터의 증가로 인해 텍스트 마이닝, 오피니언 마이닝, 소셜 네트워크 분석, 군집 분석 등이 주목받고 있다.

대용량 데이터 처리를 위한 가장 기본적인 분석 인프라로는 하둡이 있으며, 데이터를 더 빠르고 유연하게 처리하기 위해 NoSQL 기술이 활용되기도 한다. 빅데이터 처리의 핵심은 데이터를 독립된 형태로 나누어 병렬 처리하는 분할 정복(Divide and Conquer)이다. 아파치 하둡과 같은 Map-Reduce 방식의 분산 데이터 처리 프레임워크가 널리 사용된다.

2004년, 구글은 맵리듀스라는 빅데이터 처리 기술에 대한 논문을 발표했다. 이 기술은 데이터를 분할하여 여러 대의 컴퓨터에서 병렬로 처리하는 방식으로, 각 컴퓨터의 처리 결과를 하나로 모아 분석가에게 전달한다. 이 알고리즘은 아파치 소프트웨어 재단오픈 소스 프로젝트인 하둡으로 채택되었다.

2011년 맥킨지앤컴퍼니 보고서는 빅데이터의 주요 구성 요소와 생태계를 데이터 분석 기술(A/B 테스트, 머신러닝, 자연어 처리 등), 빅데이터 기술(비즈니스 인텔리전스, 클라우드 컴퓨팅, 데이터베이스 등), 시각화(차트, 그래프 등)로 특징지었다.

DARPA의 위상 데이터 분석 프로그램은 대규모 데이터 세트의 기본 구조를 찾고 있으며, 2008년 "Ayasdi"라는 회사 출범과 함께 이 기술이 공개되었다.

DARPA의 위상 데이터 분석 프로그램(클라인의 항아리) 대규모 데이터 집합의 기본 구조를 탐구하고 있다.
DARPA의 위상 데이터 분석 프로그램(클라인의 항아리) 대규모 데이터 집합의 기본 구조를 탐구하고 있다.


다차원 빅데이터는 OLAP 데이터 큐브 또는 텐서로 표현될 수 있으며, 배열 DBMS는 이러한 데이터 유형에 대한 저장 및 고급 쿼리 지원을 제공한다. 빅데이터에 적용되는 추가 기술에는 효율적인 텐서 기반 계산, 다중선형 부분공간 학습, 대규모 병렬 처리(MPP) 데이터베이스, 검색 기반 애플리케이션, 데이터 마이닝, 분산 파일 시스템, 분산 데이터베이스, 클라우드 컴퓨팅 및 슈퍼컴퓨터 기반 인프라, 인터넷 등이 포함된다.

빅데이터 분석 전문가들은 일반적으로 느린 공유 저장소를 꺼리고, 직접 연결 저장소(DAS)를 선호한다. 스토리지 영역 네트워크(SAN) 및 네트워크 연결 저장소(NAS)는 상대적으로 느리고, 복잡하며, 비용이 많이 든다고 인식된다.

2013년 기준으로, 이베이는 7.5 페타바이트 및 40PB의 데이터 웨어하우스 2개와 검색, 소비자 추천 및 상품화를 위한 40PB 하둡 클러스터를 사용한다. 아마존닷컴은 매일 수백만 건의 백엔드 작업과 50만 명이 넘는 제3자 판매자의 질의를 처리하며, 핵심 기술은 리눅스 기반이다. 페이스북은 사용자 기반으로부터 500억 장의 사진을 처리한다. 2012년 8월 기준으로 구글은 매달 약 1000억 건의 검색을 처리했다.

제조업에서는 음향, 진동, 압력, 전류, 전압 및 제어기 데이터와 같은 다양한 유형의 감각 데이터가 짧은 시간 간격으로 사용 가능하다. 가동 중단을 예측하기 위해 모든 데이터를 살펴볼 필요는 없으며, 표본만으로도 충분할 수 있다. 빅데이터는 인구 통계, 심리 통계, 행동 및 거래 데이터와 같은 다양한 데이터 지점 범주로 분류할 수 있다. 마케터는 방대한 데이터 지점 집합을 통해 더욱 맞춤화된 소비자 세그먼트를 만들고 사용하여 보다 전략적인 타겟팅을 수행할 수 있다.

3.2. 표현 기술

빅 데이터 분석을 통해 분석된 데이터의 의미와 가치를 시각적으로 표현하기 위한 기술로 R (프로그래밍 언어)이 대표적이다. 다차원 빅데이터는 OLAP 데이터 큐브 또는 수학적으로 텐서로 표현될 수 있으며, 배열 데이터베이스 시스템은 이러한 유형의 데이터에 대한 저장 및 고급 쿼리 지원을 제공한다.

2011년 맥킨지 글로벌 연구소 보고서는 빅데이터의 주요 구성 요소와 생태계를 데이터 분석 기술, 빅데이터 기술, 시각화로 특징지었다. 빅데이터 기술에는 비즈니스 인텔리전스, 클라우드 컴퓨팅, 데이터베이스 등이 포함된다. 시각화는 차트, 그래프 및 기타 데이터를 표시하는 것을 의미한다.

빅데이터에 적용되는 추가 기술에는 효율적인 텐서 기반 계산, 대규모 병렬 처리(MPP) 데이터베이스, 검색 기반 애플리케이션, 데이터 마이닝, 분산 파일 시스템, 분산 캐시(예: 버스트 버퍼 및 Memcached), 분산 데이터베이스, 클라우드 및 HPC 기반 인프라, 인터넷 등이 있다.

DARPA의 위상 데이터 분석 프로그램은 대규모 데이터 세트의 기본 구조를 찾기 위해 개발되었으며, 2008년 "Ayasdi"라는 회사 출범과 함께 이 기술이 공개되었다.

빅데이터 분석 프로세스 전문가들은 일반적으로 느린 공유 저장소를 꺼리고, 다양한 형태의 직접 연결 저장소(DAS)를 선호한다. 실시간 또는 거의 실시간 정보 제공은 빅데이터 분석의 특징 중 하나이므로, 지연 시간을 최대한 피해야 한다.

4. 활용사례 및 의의

SAP(SAP AG)사의 빅데이터를 홍보하는 버스가 인텔 개발자 포럼(IDF13) 외부에 주차되어 있다.
SAP(SAP AG)사의 빅데이터를 홍보하는 버스가 인텔 개발자 포럼(IDF13) 외부에 주차되어 있다.

빅데이터는 정보 관리 전문가에 대한 수요를 크게 증가시켰다. 소프트웨어 AG(Software AG), 오라클, IBM, 마이크로소프트, SAP, EMC, HP, 델 등이 데이터 관리 및 분석을 전문으로 하는 소프트웨어 회사에 150억 달러 이상을 투자했다. 2010년 이 업계의 가치는 1,000억 달러를 넘었고, 연간 약 10%의 성장률을 보이며 전체 소프트웨어 사업의 두 배에 달하는 속도로 성장했다.

선진국에서는 데이터 집약적인 기술을 점점 더 많이 사용하고 있다. 전 세계적으로 46억 개의 휴대전화 가입자가 있으며, 10억~20억 명의 사람들이 인터넷에 접속하고 있다. 1990년부터 2005년까지 전 세계적으로 10억 명이 넘는 사람들이 중산층에 진입했는데, 이는 더 많은 사람들이 문해력을 갖게 되었다는 것을 의미하며, 이는 정보 증가로 이어졌다. 1986년 전 세계의 통신 네트워크를 통한 정보 교환 효과 용량은 281페타바이트였고, 1993년에는 471페타바이트, 2000년에는 2.2엑사바이트, 2007년에는 65엑사바이트였다. 2014년까지 인터넷 트래픽량은 연간 667엑사바이트에 이를 것으로 예상된다. 어떤 추정에 따르면 전 세계에 저장된 정보의 3분의 1은 영숫자 텍스트 및 정지 이미지 데이터 형태이며, 이는 대부분의 빅데이터 애플리케이션에 가장 유용한 형식이다. 이는 아직 사용되지 않은 데이터(즉, 비디오 및 오디오 콘텐츠 형태)의 잠재력을 보여준다.

많은 공급업체가 빅데이터를 위한 기성품을 제공하지만, 전문가들은 회사가 충분한 기술력을 갖춘 경우 자체 맞춤형 시스템 개발을 권장한다.
정보통신기술 개발(ICT4D)에 대한 연구에 따르면, 빅데이터 기술은 국제 개발에 중요한 기여를 할 수 있지만, 동시에 개인 정보 보호, 불완전한 방법론, 상호 운용성 문제 등 기존의 우려를 악화시키는 과제도 제시한다. 특히 개발도상국에서는 기술 인프라 부족, 경제 및 인적 자원 부족과 같은 문제들이 빅데이터 활용을 더욱 어렵게 만들고, 이는 새로운 디지털 격차를 초래할 수 있다.

그럼에도 불구하고 빅데이터 분석의 발전은 의료, 고용, 경제 생산성, 범죄, 안보, 자연재해 및 자원 관리와 같은 중요한 개발 분야에서 의사 결정을 개선할 수 있는 비용 효율적인 기회를 제공한다. 또한, 사용자 생성 데이터는 목소리가 들리지 않는 사람들에게 새로운 기회를 제공한다. "개발을 위한 빅데이터"의 과제는 현재 기계 학습을 통한 데이터 응용, 즉 "개발을 위한 인공지능(AI4D)"으로 발전하고 있다.

힐버트는 디지털 흔적 데이터가 주제별 범위, 지리적 범위, 세부 수준, 시의성 및 시계열 등에서 기존의 설문 조사 데이터에 비해 여러 가지 이점을 가진다고 주장한다. 그러나 디지털 흔적 데이터는 대표성, 일반화, 조화, 데이터 과부하 등의 과제를 안고 있으며, 이는 국제 정량 분석 분야에서 기존의 어려움을 더욱 심화시킨다.

==== 정치 ====
2008년 미국 대통령 선거에서 버락 오바마 미국 대통령 후보는 다양한 형태의 유권자 데이터베이스를 확보하여 이를 분석, 활용한 '유권자 맞춤형 선거 전략'을 전개했다. 오바마 캠프는 인종, 종교, 나이, 가구형태, 소비수준과 같은 기본 인적 사항뿐 아니라 과거 투표 여부, 구독하는 잡지, 마시는 음료 등 유권자 성향까지 전화, 개별 방문, 소셜 미디어를 통해 정보를 수집했다. 수집된 데이터는 온라인으로 통합관리하는 ‘보트빌더(VoteBuilder.com)’시스템을 통해 유권자 성향 분석, 미결정 유권자 선별, 유권자에 대한 예측을 해나갔다. 이를 바탕으로‘유권자 지도’를 작성한 뒤 ‘유권자 맞춤형 선거 전략’을 전개하는 등 오바마 캠프는 비용 대비 효과적인 선거를 치를 수 있었다. 빅데이터 분석은 버락 오바마의 2012년 재선 운동에도 크게 기여했다.

대한민국 제19대 총선부터 소셜 네트워크 등 인터넷 상의 선거 운동이 상시 허용되면서, 소셜 미디어 상에서 선거 관련 데이터는 증폭되었다. 2010년 대한민국 제5회 지방 선거 및 2011년 대한민국 재보궐선거에서 소셜 네트워크 서비스의 중요성을 확인한 정당들은 SNS 역량 지수를 공천 심사에 반영하는 등 소셜 네트워크 활용에 주목했다. 여론 조사 기관들은 기존 여론조사 방식의 한계를 보완하고자 빅 데이터 기술을 활용한 SNS 여론 분석을 시행했으나, SNS 이용자의 대다수가 수도권 20~30대에 쏠려 있어 분석 결과가 수도권으로 한정되는 한계를 드러내기도 하였다.

정부 프로세스에서 빅데이터의 활용과 도입은 비용, 생산성 및 혁신 측면에서 효율성을 가져다주지만, 결점도 존재한다. 데이터 분석에는 종종 중앙 및 지방 정부의 여러 부서가 협력하여 원하는 결과를 얻기 위한 새롭고 혁신적인 프로세스를 만들어야 한다. 빅데이터를 활용하는 일반적인 정부 기관으로는 미국 국가안보국(NSA)이 있으며, 잠재적인 의심스럽거나 불법적인 활동 패턴을 감지하기 위해 인터넷 활동을 지속적으로 모니터링한다. 유타 데이터 센터는 미국 국가안보국에 의해 건설되었으며, 완공 후 인터넷을 통해 수집한 방대한 양의 정보를 처리할 수 있게 된다. 이로 인해 수집된 데이터의 익명성에 대한 보안 우려가 제기되었다. 미국 연방 정부는 세계에서 가장 강력한 슈퍼컴퓨터 10대 중 6대를 소유하고 있다.

인구통계 및 사망통계는 출생부터 사망까지 모든 증명서 상태를 수집하며, 정부를 위한 빅데이터의 원천이다. 중국 정부는 통합 합동 작전 플랫폼(IJOP)을 사용하여 위구르족 인구를 감시하며, 무료 건강검진 프로그램을 통해 DNA 샘플을 포함한 생체 정보를 수집한다. 2020년까지 중국은 모든 시민에게 행동을 기반으로 한 개인 "사회 신용" 점수를 부여할 계획이다. 현재 여러 중국 도시에서 시범 운영 중인 사회 신용 시스템은 빅데이터 분석 기술을 사용하는 일종의 대규모 감시로 간주된다. 2014년 인도 총선에서 BJP의 승리를 위해 빅데이터 분석이 시도되었다. 인도 정부는 인도 유권자들이 정부 정책에 어떻게 반응하는지, 그리고 정책 개선을 위한 아이디어를 파악하기 위해 여러 가지 기법을 사용한다.

공공 서비스에서 빅 데이터 활용 사례는 다음과 같다.

* 처방 약물 데이터: 연구 기관은 각 처방전의 출처, 위치, 시간을 연결하여 특정 약물 출시와 영국 전역의 국립보건의료우수연구소 지침 적용 간 상당한 지연을 예시하고 조사했다. 이는 새롭거나 최신 약물이 일반 환자에게 전달되는 데 시간이 걸린다는 것을 시사한다.
* 데이터 통합: 지방 자치 단체는 도로 제설 순회 일정과 같은 서비스에 대한 데이터를 데이터 블렌딩하여 배달급식과 같은 위험에 처한 사람들을 위한 서비스와 연결했다. 데이터 연결을 통해 지방 자치 단체는 날씨 관련 지연을 방지할 수 있었다.

후쿠오카현 경찰은 빅데이터를 활용하여 지정폭력단인 구도회의 습격으로부터 증인 및 정보 제공자를 보호하기 위해, 조직원들의 행동 패턴을 바탕으로 습격 징후를 파악하는 시스템을 개발했다. 수사관이 미행으로 확인한 조직원들의 동향과 차량 사용 상황 등의 데이터를 컴퓨터로 분석하여 습격 시기와 지역을 예측한다. 조직원이나 차량이 습격의 징후가 되는 특이한 움직임을 보이면 감지하여 위험도에 따라 최중요 대상자를 24시간 경호한다.

==== 경제 및 경영 ====
아마존닷컴은 모든 고객들의 구매 내역을 데이터베이스에 기록하고 분석하여 소비자의 소비 취향과 관심사를 파악한다. 이를 통해 아마존은 고객별로 '추천 상품(레코멘데이션)'을 표시하고, 구글 및 페이스북도 이용자의 검색 조건, 사진과 동영상 같은 비정형 데이터 사용을 즉각 처리하여 이용자에게 맞춤형 광고를 제공한다.

빅데이터는 금융 분야에서 빠르게 도입되어 처리 속도를 높이고 금융 기관 내부적 또는 고객에게 더 나은 정보를 제공하는 데 활용된다. 투자 결정 및 거래, 포트폴리오 관리, 위험 관리 및 데이터 입력이 많은 기타 모든 측면에 이른다. 대체 금융 서비스 분야에서 크라우드펀딩 플랫폼과 암호화폐 거래소등도 빅데이터의 개념으로 자리 잡았다.

건강보험 제공업체들은 건강 사회결정요인에 대한 데이터를 수집하여 고객의 건강 문제를 파악하기 위해 의료비를 예측하기도 한다.

월마트(Walmart)는 매시간 100만 건이 넘는 고객 거래를 처리하며, 이는 2.5페타바이트(2,560테라바이트)가 넘는 데이터를 포함하는 것으로 추산된다. 이는 미국 국립 도서관(Library of Congress)에 있는 모든 책의 정보량의 167배에 해당한다. 윈더미어 부동산(Windermere Real Estate)는 거의 1억 명의 운전자의 위치 정보를 사용하여 신규 주택 구매자가 하루 중 다양한 시간대에 직장까지 걸리는 평균 통근 시간을 파악하도록 돕는다. FICO 카드 감지 시스템은 전 세계 계정을 보호한다.

구글(Google)은 구글 지도(Google Maps)에서 스마트폰의 GPS(Global Positioning System) 및 자이로센서로 측정된 위치 및 이동 속도를 다수의 단말기에서 익명 정보로 수집하여 분석하고, 지도상에 도로의 혼잡 상황을 표시한다. 페이스북(Facebook)은 사용자의 500억 장의 사진을 처리하고 있다. FICO 팔콘 신용카드 사기 감지 시스템은 전 세계적으로 21억 개의 활성 계정을 보호하고 있다. 소프트뱅크(ソフトバンク)는 월간 약 10억 건(2014년 3월 현재)의 휴대전화 로그 정보를 처리하여 전파 연결률 개선에 활용하고 있다. 토요타(トヨタ)는 차량 통신 장치(데이터 커뮤니케이션 모듈: DCM)에서 차량 데이터를 전송하고, 토요타 스마트 센터(トヨタスマートセンター) 내 토요타 빅데이터 센터(TBDC)에 축적, 분석하여 각종 서비스에 활용한다고 밝히고 있다.

==== 사회 ====
코로나19 확진자의 국가별 통계와 중국인 유학생 및 이민자 수 통계를 이용한 상관성 분석을 통해 코로나19의 세계적 확산 양상이 중국 이민자 및 유학생 진출자 수와 비교적 강한 상관관계를 지닌다는 국내 연구팀의 분석 결과가 나왔다. 이는 정보 분석을 통해 감염병 확산을 예측하고 효과적으로 대처할 수 있음을 보여주는 사례이다.

빅데이터는 의료 분야에서 개인 맞춤 의료 및 예측 분석, 임상 위험 개입 및 예측 분석, 의료 낭비 및 변동성 감소 등에 활용되고 있다. 그러나 전자 건강 기록 데이터, 영상 데이터, 환자 생성 데이터 등 처리하기 어려운 데이터의 양이 증가하면서 데이터 및 정보 품질에 대한 주의가 더욱 필요하다. 특히 빅데이터는 정확하지 않은 데이터를 의미하는 경우가 많으며, 데이터 부정확성의 비율은 데이터 양의 증가와 함께 증가한다. 의료 분야에서 빅데이터의 사용은 개인의 권리, 프라이버시 및 자율성 위험부터 투명성 및 신뢰에 이르기까지 중요한 윤리적 문제를 제기한다.

COVID-19 팬데믹 동안, 빅데이터는 바이러스 확산 최소화, 사례 확인 및 치료 개발 등 질병의 영향을 최소화하는 방법으로 제시되었다. 각국 정부는 감염자 추적에 빅데이터를 활용했으며, 중국, 대만, 대한민국, 이스라엘이 초기 도입국에 포함되었다.

==== 문화 ====
빌리 빈이 이끄는 오클랜드 어슬레틱스는 데이터를 기반으로 선수들을 배치하여 승률을 높이는 머니볼 이론을 통해 큰 성공을 거두었다. 데이터 분석은 스포츠 분야에서 혁신을 가져왔으며, 워렌 버핏앨런 그린스펀과 함께 빌리 빈은 경제에 큰 영향을 끼치는 파워 엘리트로 선정되기도 했다.

최근 과학기술의 발전으로 더욱 정교한 데이터 수집이 가능해지면서, 야구 경기에서 빅 데이터의 중요성은 더욱 커지고 있다. 투구 궤적, 타구 방향 등 비정형 데이터 분석을 통해 선수 평가와 팀 전략 수립에 활용된다. '출루율', '장타율', '타수' 등 통계는 야구를 '통계의 스포츠'라고 불릴 만큼 중요한 요소이다.

2014년 FIFA 월드컵에서 독일 국가대표팀은 SAP와 협력하여 선수들에게 부착된 센서를 통해 운동량, 순간속도, 심박수 등 방대한 비정형 데이터를 수집, 분석하는 'SAP 매치 인사이트'를 도입했다. 이를 통해 감독과 코치는 데이터를 기반으로 전술을 짜고, 선수 분석 및 상대팀 전력 분석을 통해 과학적인 전략을 수립하여 우승을 차지했다.[http://www.mt.co.kr/view/mtview.php?type=1&no=2014070115115563359&outlink=1 월드컵8강 獨 전차군단 비밀병기는 '빅데이터']

유튜브는 2011년 소셜 미디어와 유사하게 개편되면서 구독, 댓글, 추천 동영상 등 사용자 참여를 유도하여 폭발적으로 성장했다. 이는 오락적 콘텐츠 소비를 넘어 다음 아고라, 트위터, 페이스북에 이어 새로운 여론의 장을 형성하고 있다. 빅 데이터는 단어 빈도, 정서적 맥락, 단어 간 관계성 분석 등을 통해 여론 분석에 활용된다.

미디어는 빅 데이터를 활용하여 소비자에게 맞춤형 메시지와 콘텐츠를 제공한다. 미디어 및 광고 종사자들은 수백만 명의 개인에 대한 방대한 정보 지점을 빅 데이터로 접근하여, 최적의 시간과 장소에서 타겟 고객에게 도달하는 기술을 활용한다. 예를 들어, 출판 환경에서는 데이터 마이닝을 통해 수집된 소비자 데이터를 기반으로 맞춤형 광고와 기사를 제공한다.

데이터 저널리즘에서 출판사와 언론인은 빅 데이터 도구를 사용하여 독창적인 통찰력과 인포그래픽을 제공한다. 영국의 공영 방송국인 채널 4(Channel 4)는 빅 데이터와 데이터 분석 분야를 선도하고 있다.

==== 과학기술 및 활용 ====
데이터 마이닝은 기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. 수집되는 ‘빅 데이터’를 보완하고 마케팅, 시청률 조사, 경영 등으로부터 체계화돼 분류, 예측, 연관분석 등의 데이터 마이닝을 거쳐 통계학적으로 결과를 도출해 내고 있다.

대한민국에서는 2000년부터 사단법인 한국BI데이터마이닝학회가 설립되어 데이터 마이닝에 관한 학술과 기술을 발전, 보급, 응용하고 있다. 통계청은 빅 데이터를 연구하고 활용 방안을 모색하기 위한 '빅 데이터 연구회'를 발족하였다. 그러나 미국, 영국, 일본 등 선진국들에 비해 한국은 데이터과학자 양성 프로그램이 아직 걸음마 단계인 것으로 알려져 있다.

최근 생물학에서 DNA, RNA, 단백질 서열 및 유전자들의 발현과 조절에 대한 데이터의 양이 급격히 증가했고, 이를 활용한 생명 이해에 관한 논의가 진행되고 있다. 국민건강보험공단과 건강보험심사평가원은 각각 2조 1천억 건(92테라바이트), 2조 2천억 건(89테라바이트)의 빅데이터를 보유하고 있으며, 경제협력개발기구(OECD)는 한국의 건강보험 빅데이터 순위가 2위라고 발표했다. 건보공단과 심평원은 빅데이터를 민간에 널리 알리고 더 많이 개방하고 있다. 빅 데이터를 활용하면 미국 의료부문은 연간 3,300억 달러의 비용 절감 효과를 볼 수 있을 것으로 전망된다. 특히 임상분야에서는 의료기관 별 진료방법, 효능, 비용 데이터를 분석하여 보다 효과적인 진료방법을 파악하고 환자 데이터를 온라인 플랫폼화하여 의료협회 간 데이터 공유로 치료 효과를 제고하며, 공중보건 영역에선 전국의 의료 데이터를 연계하여 전염병 발생과 같은 긴박한 순간에 빠른 의사결정을 가능케 할 전망이다. 한편, 의료 분야에서 빅 데이터 활용을 위해서는 개인정보 보호와 빅 데이터 활용이라는 두 가지 가치가 상충하는 문제에 대한 가이드라인 마련이 필요하다.

기상청은 정밀한 기상예측을 위해 빅데이터 저장시스템을 도입, 한국IBM의 고성능 대용량 파일공유시스템(GPFS)을 적용한 스토리지 시스템을 선택하였다. 구글 번역은 수억 건의 문장과 번역문을 데이터베이스화하여 유사한 문장과 어구를 추론해 나가는 통계적 기법을 사용한다. IBM의 자동 번역 프로그램은 실패한 반면, 구글은 수억 건의 자료를 활용하여 전 세계 58개 언어 간의 자동번역 프로그램 개발에 성공하였다.

빅데이터 분석은 개인 맞춤 의료 및 예측 분석, 임상 위험 개입 및 예측 분석, 의료 낭비 및 변동성 감소, 환자 데이터의 자동화된 외부 및 내부 보고, 표준화된 의학 용어 및 환자 등록부 제공에 활용되고 있다. m헬스, e헬스 및 웨어러블 기술의 채택 증가로 데이터 양은 계속 증가할 것이며, 이에 따라 데이터 및 정보 품질에 더욱 주의를 기울여야 할 필요성이 커지고 있다. "빅데이터는 매우 자주 '정확하지 않은 데이터'를 의미하며, 데이터 부정확성의 비율은 데이터 양의 증가와 함께 증가한다." 의료 분야의 방대한 정보는 현재 전자화되어 있지만, 대부분 비정형이고 사용하기 어렵다. 의료 분야에서 빅데이터의 사용은 개인의 권리, 프라이버시 및 자율성 위험부터 투명성 및 신뢰에 이르기까지 중요한 윤리적 문제를 제기했다.

보건 의료 연구에서 빅데이터는 데이터 중심 분석이 가설 중심 연구보다 더 빠르게 진행될 수 있기 때문에 탐색적 생의학 연구 측면에서 특히 유망하다. 간질 모니터링, 유방 토모 합성과 같은 컴퓨터 보조 진단 영역에서 빅데이터가 활용되고 있다.

빅데이터와 사물 인터넷(IoT)은 함께 작동하며, 사물 인터넷 기기에서 추출된 데이터는 기기 상호 연결의 매핑을 제공한다. 케빈 애쉬턴(Kevin Ashton)은 사물 인터넷을 통해 모든 것을 추적하고 계산하여 낭비, 손실 및 비용을 크게 줄일 수 있다고 정의한다. 기업들은 빅데이터를 활용하여 직원들의 효율적인 업무 수행과 정보기술(IT)의 수집 및 배포 간소화를 돕고 있으며, 이를 IT 운영 분석(ITOA)이라고 한다.

조사 기반 데이터 수집과 비교하여 빅데이터는 데이터 포인트당 비용이 저렴하고, 기계 학습데이터 마이닝을 통해 분석 기법을 적용하며, 다양하고 새로운 데이터 소스를 포함한다. 2018년부터 조사 과학자들은 빅데이터와 조사 과학의 상호 보완을 연구하고 있다.

글루코미(GlucoMe)의 빅데이터 솔루션을 통해 개인 맞춤형 당뇨병 치료법을 만들 수 있다. 거대강입자가속기 실험은 초당 4천만 번의 데이터를 전달하는 약 1억 5천만 개의 센서를 사용하며, 이 데이터 스트림의 99.99995% 이상을 필터링하고 기록하지 않아도 초당 1,000건의 관심 충돌이 남는다. 스퀘어 킬로미터 어레이는 2024년까지 가동될 예정이며, 하루에 14엑사바이트의 데이터를 수집하고 1페타바이트를 저장할 것으로 예상된다. 슬론 디지털 스카이 서베이(SDSS)는 2000년에 천문 데이터 수집을 시작하여 140테라바이트가 넘는 정보를 축적했다. 대형 시놉틱 서베이 망원경은 2020년에 가동되면 5일마다 그 양의 데이터를 얻을 것으로 예상된다. 인간 게놈 해독은 원래 처리하는 데 10년이 걸렸지만, 이제는 하루도 채 안 걸린다. NASA 기후 시뮬레이션 센터(NCCS)는 32페타바이트의 기후 관측 및 시뮬레이션 데이터를 저장한다. 구글의 DNAStack은 질병 및 기타 의학적 결함을 식별하기 위해 전 세계의 유전 데이터 DNA 샘플을 편집하고 구성한다. 23andMe의 DNA 데이터베이스에는 전 세계 100만 명이 넘는 사람들의 유전 정보가 포함되어 있다.

COVID-19 팬데믹 동안, 빅데이터는 질병의 영향을 최소화하는 방법으로 제시되었으며, 바이러스 확산 최소화, 사례 확인 및 치료 개발에 활용되었다. 정부는 바이러스 확산을 최소화하기 위해 감염자를 추적하는 데 빅데이터를 사용했다.

거대강입자가속기(LHC)는 99.999%의 데이터를 필터링 및 제거 처리하여 1초당 100회의 충돌에서 유용한 데이터를 얻는다. 슬론 디지털 스카이 서베이(SDSS)는 하루 밤에 약 200GB의 비율로 140테라바이트 이상의 정보를 수집하고 있다. 인간 게놈 프로젝트는 처음에 처리하는 데 10년이 걸렸지만, 이제는 일주일도 채 걸리지 않는다. 계산 사회 과학에서는 구글 트렌드 데이터를 사용하여 현실 세계의 경제 지표와의 상관관계를 밝혀냈다. NASA 기후 시뮬레이션 센터(NCCS)는 32페타바이트의 기상 관측 및 시뮬레이션 데이터를 저장하고 있다. 구글 검색량 분석을 통해 금융 시장의 큰 손실을 예측할 수 있다는 연구 결과도 발표되었다.

==== 기업 경영 ====
대규모 데이터를 활용한 '빅데이터 경영'이 주목받으면서 데이터 통합(Data Integration)의 중요성이 부각되고 있다. 데이터 통합은 추출, 변환, 적재를 위한 ETL 솔루션이 핵심인데, ETL 솔루션을 활용하면 수많은 데이터를 기업 데이터 포맷으로 코딩하지 않아도 되고 데이터 품질을 높일 수 있어 빅데이터 환경에 필수적인 데이터 솔루션으로 평가받는다.

비즈니스 인텔리전스(BI)보다 발전한 빅데이터 분석 방법이 비즈니스 애널리틱스(BA)인데, 고급분석 범주에 있는 BA는 BI를 포함하면서도 미래 예측 기능과 통계분석, 확률 분석 등을 포함해 최적의 데이터 기반 의사결정을 가능케 한다.

빅데이터는 금융 분야에서 빠르게 도입되어, 처리 속도를 높이고 금융 기관 내부적으로나 고객에게 더 나은 정보를 제공하는 데 활용된다. 빅데이터의 금융 분야 적용 범위는 투자 결정 및 거래, 포트폴리오 관리, 위험 관리 및 데이터 입력이 많은 기타 모든 측면에 이른다. 빅데이터는 대체 금융 서비스 분야에서 크라우드펀딩 플랫폼과 암호화폐 거래소를 포함한 주요 영역에 자리 잡았다.

건강보험 제공업체들은 건강 사회결정요인에 대한 데이터를 수집하여 고객의 건강 문제를 파악하기 위해 의료비를 예측하기도 한다.

월마트는 매시간 100만 건이 넘는 고객 거래를 처리하며, 이는 2.5페타바이트(2,560테라바이트)가 넘는 데이터를 포함하는 것으로 추산된다. 이는 미국 국립 도서관에 있는 모든 책의 정보량의 167배에 해당한다. 윈더미어 부동산는 거의 1억 명의 운전자 위치 정보를 사용하여 신규 주택 구매자가 하루 중 다양한 시간대에 직장까지 걸리는 평균 통근 시간을 파악하도록 돕는다. FICO 카드 감지 시스템은 전 세계 계정을 보호한다.

구글은 구글 지도에서 스마트폰의 GPS 및 자이로센서로 측정된 위치 및 이동 속도를 다수의 단말기에서 익명 정보로 수집하여 분석하고, 지도상에 도로의 혼잡 상황을 표시한다. 또한, 구글 지도 내비게이션에서 목적지까지의 경로의 혼잡 상황에 따른 통과 속도를 계산하여 최적 경로를 사용자에게 내비게이션한다.

페이스북은 사용자의 500억 장의 사진을 처리하고 있다. FICO 팔콘 신용카드 사기 감지 시스템은 전 세계적으로 21억 개의 활성 계정을 보호하고 있다. 소프트뱅크는 월간 약 10억 건(2014년 3월 현재)의 휴대전화 로그 정보를 처리하여 전파 연결률 개선에 활용하고 있다. 토요타는 차량 통신 장치(DCM)에서 차량 데이터를 전송하고, 토요타 스마트 센터 내 토요타 빅데이터 센터(TBDC)에 축적한다. 수집한 데이터를 분석하여 각종 서비스에 활용한다고 밝히고 있다.

==== 마케팅 ====
인터넷과 스마트폰을 이용해 정보를 검색하고 쇼핑하며 SNS에 글을 남기는 동안 남는 흔적 같은 데이터들을 분석하면 개인의 생활 패턴, 소비 성향 등을 예측할 수 있다. 기업들은 이러한 빅 데이터를 통해 소비자가 원하는 것을 미리 예측하여 마케팅 자료로 활용한다.

지역 축제의 성공을 측정하는 방식은 기존의 경제적 파급 효과 외에도, 축제를 즐기는 관광객이 남긴 웹상의 '5Ns' 추적을 통해 가능하다. 주목(attentioN), 반응(reactioN), 표현(expressioN), 참여(participatioN), 소비(consumptioN)의 5Ns 분석을 통해 축제에 대한 관심과 만족도를 파악할 수 있다. 5Ns 분석을 적용한 대구치맥페스티벌은 전국적 인지도와 대중성을 확보했으나, 소비(consumptioN)와의 연계가 약한 것으로 나타났다. 이를 극복하기 위해 축제 경험을 강화하는 물리적 공간 확보가 제시되었다.

빅데이터는 인터넷을 이용하는 소비자들의 지속적인 "데이터화"로 인해 마케팅에서 주목받고 있다. 소비자의 데이터화는 마케팅 목적으로 인간 행동을 정량화하는 것이며, 데이터 양의 기하급수적인 증가는 빅데이터를 마케팅과 관련짓게 한다. 빅데이터는 대기업에서 소비자 중심 방식으로 중요한 추세, 관심사 또는 통계적 결과를 예측하는 데 사용될 수 있는 매우 수익성 높은 도구이다.

마케팅에서 빅데이터 사용의 세 가지 중요 요소는 다음과 같다.

* 빅데이터는 모든 인간의 행동이 숫자로 정량화되어 마케터에게 고객 행동 패턴을 발견할 수 있는 정보를 제공하고, 맞춤형 제품 추천 도구로 활용될 수 있다.
* 실시간 시장 대응력은 마케팅 노력을 전환하고 현재 추세에 맞춰 수정할 수 있게 하여 소비자와의 관련성을 유지하는 데 도움을 준다.

4.1. 정치

2008년 미국 대통령 선거에서 버락 오바마 미국 대통령 후보는 다양한 형태의 유권자 데이터베이스를 확보하여 이를 분석, 활용한 '유권자 맞춤형 선거 전략'을 전개했다. 오바마 캠프는 인종, 종교, 나이, 가구형태, 소비수준과 같은 기본 인적 사항뿐 아니라 과거 투표 여부, 구독하는 잡지, 마시는 음료 등 유권자 성향까지 전화, 개별 방문, 소셜 미디어를 통해 정보를 수집했다. 수집된 데이터는 온라인으로 통합관리하는 ‘보트빌더(VoteBuilder.com)’시스템을 통해 유권자 성향 분석, 미결정 유권자 선별, 유권자에 대한 예측을 해나갔다. 이를 바탕으로‘유권자 지도’를 작성한 뒤 ‘유권자 맞춤형 선거 전략’을 전개하는 등 오바마 캠프는 비용 대비 효과적인 선거를 치를 수 있었다. 빅데이터 분석은 버락 오바마의 2012년 재선 운동에도 크게 기여했다.

대한민국 제19대 총선부터 소셜 네트워크 등 인터넷 상의 선거 운동이 상시 허용되면서, 소셜 미디어 상에서 선거 관련 데이터는 증폭되었다. 2010년 대한민국 제5회 지방 선거 및 2011년 대한민국 재보궐선거에서 소셜 네트워크 서비스의 중요성을 확인한 정당들은 SNS 역량 지수를 공천 심사에 반영하는 등 소셜 네트워크 활용에 주목했다. 여론 조사 기관들은 기존 여론조사 방식의 한계를 보완하고자 빅 데이터 기술을 활용한 SNS 여론 분석을 시행했으나, SNS 이용자의 대다수가 수도권 20~30대에 쏠려 있어 분석 결과가 수도권으로 한정되는 한계를 드러내기도 하였다.

정부 프로세스에서 빅데이터의 활용과 도입은 비용, 생산성 및 혁신 측면에서 효율성을 가져다주지만, 결점도 존재한다. 데이터 분석에는 종종 중앙 및 지방 정부의 여러 부서가 협력하여 원하는 결과를 얻기 위한 새롭고 혁신적인 프로세스를 만들어야 한다. 빅데이터를 활용하는 일반적인 정부 기관으로는 미국 국가안보국(NSA)이 있으며, 잠재적인 의심스럽거나 불법적인 활동 패턴을 감지하기 위해 인터넷 활동을 지속적으로 모니터링한다. 유타 데이터 센터는 미국 국가안보국에 의해 건설되었으며, 완공 후 인터넷을 통해 수집한 방대한 양의 정보를 처리할 수 있게 된다. 이로 인해 수집된 데이터의 익명성에 대한 보안 우려가 제기되었다. 미국 연방 정부는 세계에서 가장 강력한 슈퍼컴퓨터 10대 중 6대를 소유하고 있다.

인구통계 및 사망통계는 출생부터 사망까지 모든 증명서 상태를 수집하며, 정부를 위한 빅데이터의 원천이다. 중국 정부는 통합 합동 작전 플랫폼(IJOP)을 사용하여 위구르족 인구를 감시하며, 무료 건강검진 프로그램을 통해 DNA 샘플을 포함한 생체 정보를 수집한다. 2020년까지 중국은 모든 시민에게 행동을 기반으로 한 개인 "사회 신용" 점수를 부여할 계획이다. 현재 여러 중국 도시에서 시범 운영 중인 사회 신용 시스템은 빅데이터 분석 기술을 사용하는 일종의 대규모 감시로 간주된다. 2014년 인도 총선에서 BJP의 승리를 위해 빅데이터 분석이 시도되었다. 인도 정부는 인도 유권자들이 정부 정책에 어떻게 반응하는지, 그리고 정책 개선을 위한 아이디어를 파악하기 위해 여러 가지 기법을 사용한다.

공공 서비스에서 빅 데이터 활용 사례는 다음과 같다.

* 처방 약물 데이터: 연구 기관은 각 처방전의 출처, 위치, 시간을 연결하여 특정 약물 출시와 영국 전역의 국립보건의료우수연구소 지침 적용 간 상당한 지연을 예시하고 조사했다. 이는 새롭거나 최신 약물이 일반 환자에게 전달되는 데 시간이 걸린다는 것을 시사한다.
* 데이터 통합: 지방 자치 단체는 도로 제설 순회 일정과 같은 서비스에 대한 데이터를 데이터 블렌딩하여 배달급식과 같은 위험에 처한 사람들을 위한 서비스와 연결했다. 데이터 연결을 통해 지방 자치 단체는 날씨 관련 지연을 방지할 수 있었다.

후쿠오카현 경찰은 빅데이터를 활용하여 지정폭력단인 구도회의 습격으로부터 증인 및 정보 제공자를 보호하기 위해, 조직원들의 행동 패턴을 바탕으로 습격 징후를 파악하는 시스템을 개발했다. 수사관이 미행으로 확인한 조직원들의 동향과 차량 사용 상황 등의 데이터를 컴퓨터로 분석하여 습격 시기와 지역을 예측한다. 조직원이나 차량이 습격의 징후가 되는 특이한 움직임을 보이면 감지하여 위험도에 따라 최중요 대상자를 24시간 경호한다.

4.2. 경제 및 경영

아마존닷컴은 모든 고객들의 구매 내역을 데이터베이스에 기록하고 분석하여 소비자의 소비 취향과 관심사를 파악한다. 이를 통해 아마존은 고객별로 '추천 상품(레코멘데이션)'을 표시하고, 구글 및 페이스북도 이용자의 검색 조건, 사진과 동영상 같은 비정형 데이터 사용을 즉각 처리하여 이용자에게 맞춤형 광고를 제공한다.

빅데이터는 금융 분야에서 빠르게 도입되어 처리 속도를 높이고 금융 기관 내부적 또는 고객에게 더 나은 정보를 제공하는 데 활용된다. 투자 결정 및 거래, 포트폴리오 관리, 위험 관리 및 데이터 입력이 많은 기타 모든 측면에 이른다. 대체 금융 서비스 분야에서 크라우드펀딩 플랫폼과 암호화폐 거래소등도 빅데이터의 개념으로 자리 잡았다.

건강보험 제공업체들은 건강 사회결정요인에 대한 데이터를 수집하여 고객의 건강 문제를 파악하기 위해 의료비를 예측하기도 한다.

월마트(Walmart)는 매시간 100만 건이 넘는 고객 거래를 처리하며, 이는 2.5페타바이트(2,560테라바이트)가 넘는 데이터를 포함하는 것으로 추산된다. 이는 미국 국립 도서관(Library of Congress)에 있는 모든 책의 정보량의 167배에 해당한다. 윈더미어 부동산(Windermere Real Estate)는 거의 1억 명의 운전자의 위치 정보를 사용하여 신규 주택 구매자가 하루 중 다양한 시간대에 직장까지 걸리는 평균 통근 시간을 파악하도록 돕는다. FICO 카드 감지 시스템은 전 세계 계정을 보호한다.

구글(Google)은 구글 지도(Google Maps)에서 스마트폰의 GPS(Global Positioning System) 및 자이로센서로 측정된 위치 및 이동 속도를 다수의 단말기에서 익명 정보로 수집하여 분석하고, 지도상에 도로의 혼잡 상황을 표시한다. 페이스북(Facebook)은 사용자의 500억 장의 사진을 처리하고 있다. FICO 팔콘 신용카드 사기 감지 시스템은 전 세계적으로 21억 개의 활성 계정을 보호하고 있다. 소프트뱅크(ソフトバンク)는 월간 약 10억 건(2014년 3월 현재)의 휴대전화 로그 정보를 처리하여 전파 연결률 개선에 활용하고 있다. 토요타(トヨタ)는 차량 통신 장치(데이터 커뮤니케이션 모듈: DCM)에서 차량 데이터를 전송하고, 토요타 스마트 센터(トヨタスマートセンター) 내 토요타 빅데이터 센터(TBDC)에 축적, 분석하여 각종 서비스에 활용한다고 밝히고 있다.

4.3. 사회

코로나19 확진자의 국가별 통계와 중국인 유학생 및 이민자 수 통계를 이용한 상관성 분석을 통해 코로나19의 세계적 확산 양상이 중국 이민자 및 유학생 진출자 수와 비교적 강한 상관관계를 지닌다는 국내 연구팀의 분석 결과가 나왔다. 이는 정보 분석을 통해 감염병 확산을 예측하고 효과적으로 대처할 수 있음을 보여주는 사례이다.

정보통신기술 개발(ICT4D)에 대한 연구에 따르면, 빅데이터 기술은 국제 개발에 중요한 기여를 할 수 있지만, 동시에 개인 정보 보호, 불완전한 방법론, 상호 운용성 문제 등 기존의 우려를 악화시키는 과제도 제시한다. 특히 개발도상국에서는 기술 인프라 부족, 경제 및 인적 자원 부족과 같은 문제들이 빅데이터 활용을 더욱 어렵게 만들고, 이는 새로운 디지털 격차를 초래할 수 있다.

그럼에도 불구하고 빅데이터 분석의 발전은 의료, 고용, 경제 생산성, 범죄, 안보, 자연재해 및 자원 관리와 같은 중요한 개발 분야에서 의사 결정을 개선할 수 있는 비용 효율적인 기회를 제공한다. 또한, 사용자 생성 데이터는 목소리가 들리지 않는 사람들에게 새로운 기회를 제공한다. "개발을 위한 빅데이터"의 과제는 현재 기계 학습을 통한 데이터 응용, 즉 "개발을 위한 인공지능(AI4D)"으로 발전하고 있다.

힐버트는 디지털 흔적 데이터가 주제별 범위, 지리적 범위, 세부 수준, 시의성 및 시계열 등에서 기존의 설문 조사 데이터에 비해 여러 가지 이점을 가진다고 주장한다. 그러나 디지털 흔적 데이터는 대표성, 일반화, 조화, 데이터 과부하 등의 과제를 안고 있으며, 이는 국제 정량 분석 분야에서 기존의 어려움을 더욱 심화시킨다.

빅데이터는 의료 분야에서 개인 맞춤 의료 및 예측 분석, 임상 위험 개입 및 예측 분석, 의료 낭비 및 변동성 감소 등에 활용되고 있다. 그러나 전자 건강 기록 데이터, 영상 데이터, 환자 생성 데이터 등 처리하기 어려운 데이터의 양이 증가하면서 데이터 및 정보 품질에 대한 주의가 더욱 필요하다. 특히 빅데이터는 정확하지 않은 데이터를 의미하는 경우가 많으며, 데이터 부정확성의 비율은 데이터 양의 증가와 함께 증가한다. 의료 분야에서 빅데이터의 사용은 개인의 권리, 프라이버시 및 자율성 위험부터 투명성 및 신뢰에 이르기까지 중요한 윤리적 문제를 제기한다.

COVID-19 팬데믹 동안, 빅데이터는 바이러스 확산 최소화, 사례 확인 및 치료 개발 등 질병의 영향을 최소화하는 방법으로 제시되었다. 각국 정부는 감염자 추적에 빅데이터를 활용했으며, 중국, 대만, 한국, 이스라엘이 초기 도입국에 포함되었다.

4.4. 문화

빌리 빈이 이끄는 오클랜드 어슬레틱스는 데이터를 기반으로 선수들을 배치하여 승률을 높이는 머니볼 이론을 통해 큰 성공을 거두었다. 데이터 분석은 스포츠 분야에서 혁신을 가져왔으며, 워렌 버핏앨런 그린스펀과 함께 빌리 빈은 경제에 큰 영향을 끼치는 파워 엘리트로 선정되기도 했다.

최근 과학기술의 발전으로 더욱 정교한 데이터 수집이 가능해지면서, 야구 경기에서 빅 데이터의 중요성은 더욱 커지고 있다. 투구 궤적, 타구 방향 등 비정형 데이터 분석을 통해 선수 평가와 팀 전략 수립에 활용된다. '출루율', '장타율', '타수' 등 통계는 야구를 '통계의 스포츠'라고 불릴 만큼 중요한 요소이다.

2014년 FIFA 월드컵에서 독일 국가대표팀은 SAP와 협력하여 선수들에게 부착된 센서를 통해 운동량, 순간속도, 심박수 등 방대한 비정형 데이터를 수집, 분석하는 'SAP 매치 인사이트'를 도입했다. 이를 통해 감독과 코치는 데이터를 기반으로 전술을 짜고, 선수 분석 및 상대팀 전력 분석을 통해 과학적인 전략을 수립하여 우승을 차지했다.[http://www.mt.co.kr/view/mtview.php?type=1&no=2014070115115563359&outlink=1 월드컵8강 獨 전차군단 비밀병기는 '빅데이터']

유튜브는 2011년 소셜 미디어와 유사하게 개편되면서 구독, 댓글, 추천 동영상 등 사용자 참여를 유도하여 폭발적으로 성장했다. 이는 오락적 콘텐츠 소비를 넘어 다음 아고라, 트위터, 페이스북에 이어 새로운 여론의 장을 형성하고 있다. 빅 데이터는 단어 빈도, 정서적 맥락, 단어 간 관계성 분석 등을 통해 여론 분석에 활용된다.

미디어는 빅 데이터를 활용하여 소비자에게 맞춤형 메시지와 콘텐츠를 제공한다. 미디어 및 광고 종사자들은 수백만 명의 개인에 대한 방대한 정보 지점을 빅 데이터로 접근하여, 최적의 시간과 장소에서 타겟 고객에게 도달하는 기술을 활용한다. 예를 들어, 출판 환경에서는 데이터 마이닝을 통해 수집된 소비자 데이터를 기반으로 맞춤형 광고와 기사를 제공한다.

데이터 저널리즘에서 출판사와 언론인은 빅 데이터 도구를 사용하여 독창적인 통찰력과 인포그래픽을 제공한다. 영국의 공영 방송국인 채널 4(Channel 4)는 빅 데이터와 데이터 분석 분야를 선도하고 있다.

4.5. 과학기술 및 활용

데이터 마이닝은 기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. 수집되는 ‘빅 데이터’를 보완하고 마케팅, 시청률 조사, 경영 등으로부터 체계화돼 분류, 예측, 연관분석 등의 데이터 마이닝을 거쳐 통계학적으로 결과를 도출해 내고 있다.

대한민국에서는 2000년부터 사단법인 한국BI데이터마이닝학회가 설립되어 데이터 마이닝에 관한 학술과 기술을 발전, 보급, 응용하고 있다. 통계청은 빅 데이터를 연구하고 활용 방안을 모색하기 위한 '빅 데이터 연구회'를 발족하였다. 그러나 미국, 영국, 일본 등 선진국들에 비해 한국은 데이터과학자 양성 프로그램이 아직 걸음마 단계인 것으로 알려져 있다.

최근 생물학에서 DNA, RNA, 단백질 서열 및 유전자들의 발현과 조절에 대한 데이터의 양이 급격히 증가했고, 이를 활용한 생명 이해에 관한 논의가 진행되고 있다. 국민건강보험공단과 건강보험심사평가원은 각각 2조 1천억 건(92테라바이트), 2조 2천억 건(89테라바이트)의 빅데이터를 보유하고 있으며, 경제협력개발기구(OECD)는 한국의 건강보험 빅데이터 순위가 2위라고 발표했다. 건보공단과 심평원은 빅데이터를 민간에 널리 알리고 더 많이 개방하고 있다. 빅 데이터를 활용하면 미국 의료부문은 연간 3,300억 달러의 비용 절감 효과를 볼 수 있을 것으로 전망된다. 특히 임상분야에서는 의료기관 별 진료방법, 효능, 비용 데이터를 분석하여 보다 효과적인 진료방법을 파악하고 환자 데이터를 온라인 플랫폼화하여 의료협회 간 데이터 공유로 치료 효과를 제고하며, 공중보건 영역에선 전국의 의료 데이터를 연계하여 전염병 발생과 같은 긴박한 순간에 빠른 의사결정을 가능케 할 전망이다. 한편, 의료 분야에서 빅 데이터 활용을 위해서는 개인정보 보호와 빅 데이터 활용이라는 두 가지 가치가 상충하는 문제에 대한 가이드라인 마련이 필요하다.

기상청은 정밀한 기상예측을 위해 빅데이터 저장시스템을 도입, 한국IBM의 고성능 대용량 파일공유시스템(GPFS)을 적용한 스토리지 시스템을 선택하였다. 구글 번역은 수억 건의 문장과 번역문을 데이터베이스화하여 유사한 문장과 어구를 추론해 나가는 통계적 기법을 사용한다. IBM의 자동 번역 프로그램은 실패한 반면, 구글은 수억 건의 자료를 활용하여 전 세계 58개 언어 간의 자동번역 프로그램 개발에 성공하였다.

빅데이터 분석은 개인 맞춤 의료 및 예측 분석, 임상 위험 개입 및 예측 분석, 의료 낭비 및 변동성 감소, 환자 데이터의 자동화된 외부 및 내부 보고, 표준화된 의학 용어 및 환자 등록부 제공에 활용되고 있다. m헬스, e헬스 및 웨어러블 기술의 채택 증가로 데이터 양은 계속 증가할 것이며, 이에 따라 데이터 및 정보 품질에 더욱 주의를 기울여야 할 필요성이 커지고 있다. "빅데이터는 매우 자주 '정확하지 않은 데이터'를 의미하며, 데이터 부정확성의 비율은 데이터 양의 증가와 함께 증가한다." 의료 분야의 방대한 정보는 현재 전자화되어 있지만, 대부분 비정형이고 사용하기 어렵다. 의료 분야에서 빅데이터의 사용은 개인의 권리, 프라이버시 및 자율성 위험부터 투명성 및 신뢰에 이르기까지 중요한 윤리적 문제를 제기했다.

보건 의료 연구에서 빅데이터는 데이터 중심 분석이 가설 중심 연구보다 더 빠르게 진행될 수 있기 때문에 탐색적 생의학 연구 측면에서 특히 유망하다. 간질 모니터링, 유방 토모 합성과 같은 컴퓨터 보조 진단 영역에서 빅데이터가 활용되고 있다.

빅데이터와 사물 인터넷(IoT)은 함께 작동하며, 사물 인터넷 기기에서 추출된 데이터는 기기 상호 연결의 매핑을 제공한다. 케빈 애쉬턴(Kevin Ashton)은 사물 인터넷을 통해 모든 것을 추적하고 계산하여 낭비, 손실 및 비용을 크게 줄일 수 있다고 정의한다. 기업들은 빅데이터를 활용하여 직원들의 효율적인 업무 수행과 정보기술(IT)의 수집 및 배포 간소화를 돕고 있으며, 이를 IT 운영 분석(ITOA)이라고 한다.

조사 기반 데이터 수집과 비교하여 빅데이터는 데이터 포인트당 비용이 저렴하고, 기계 학습데이터 마이닝을 통해 분석 기법을 적용하며, 다양하고 새로운 데이터 소스를 포함한다. 2018년부터 조사 과학자들은 빅데이터와 조사 과학의 상호 보완을 연구하고 있다.

글루코미(GlucoMe)의 빅데이터 솔루션을 통해 개인 맞춤형 당뇨병 치료법을 만들 수 있다. 거대강입자가속기 실험은 초당 4천만 번의 데이터를 전달하는 약 1억 5천만 개의 센서를 사용하며, 이 데이터 스트림의 99.99995% 이상을 필터링하고 기록하지 않아도 초당 1,000건의 관심 충돌이 남는다. 스퀘어 킬로미터 어레이는 2024년까지 가동될 예정이며, 하루에 14엑사바이트의 데이터를 수집하고 1페타바이트를 저장할 것으로 예상된다. 슬론 디지털 스카이 서베이(SDSS)는 2000년에 천문 데이터 수집을 시작하여 140테라바이트가 넘는 정보를 축적했다. 대형 시놉틱 서베이 망원경은 2020년에 가동되면 5일마다 그 양의 데이터를 얻을 것으로 예상된다. 인간 게놈 해독은 원래 처리하는 데 10년이 걸렸지만, 이제는 하루도 채 안 걸린다. NASA 기후 시뮬레이션 센터(NCCS)는 32페타바이트의 기후 관측 및 시뮬레이션 데이터를 저장한다. 구글의 DNAStack은 질병 및 기타 의학적 결함을 식별하기 위해 전 세계의 유전 데이터 DNA 샘플을 편집하고 구성한다. 23andMe의 DNA 데이터베이스에는 전 세계 100만 명이 넘는 사람들의 유전 정보가 포함되어 있다.

COVID-19 팬데믹 동안, 빅데이터는 질병의 영향을 최소화하는 방법으로 제시되었으며, 바이러스 확산 최소화, 사례 확인 및 치료 개발에 활용되었다. 정부는 바이러스 확산을 최소화하기 위해 감염자를 추적하는 데 빅데이터를 사용했다.

거대강입자가속기(LHC)는 99.999%의 데이터를 필터링 및 제거 처리하여 1초당 100회의 충돌에서 유용한 데이터를 얻는다. 슬론 디지털 스카이 서베이(SDSS)는 하루 밤에 약 200GB의 비율로 140테라바이트 이상의 정보를 수집하고 있다. 인간 게놈 프로젝트는 처음에 처리하는 데 10년이 걸렸지만, 이제는 일주일도 채 걸리지 않는다. 계산 사회 과학에서는 구글 트렌드 데이터를 사용하여 현실 세계의 경제 지표와의 상관관계를 밝혀냈다. NASA 기후 시뮬레이션 센터(NCCS)는 32페타바이트의 기상 관측 및 시뮬레이션 데이터를 저장하고 있다. 구글 검색량 분석을 통해 금융 시장의 큰 손실을 예측할 수 있다는 연구 결과도 발표되었다.

4.6. 기업 경영

대규모 데이터를 활용한 '빅데이터 경영'이 주목받으면서 데이터 통합(Data Integration)의 중요성이 부각되고 있다. 데이터 통합은 추출, 변환, 적재를 위한 ETL 솔루션이 핵심인데, ETL 솔루션을 활용하면 수많은 데이터를 기업 데이터 포맷으로 코딩하지 않아도 되고 데이터 품질을 높일 수 있어 빅데이터 환경에 필수적인 데이터 솔루션으로 평가받는다.

비즈니스 인텔리전스(BI)보다 발전한 빅데이터 분석 방법이 비즈니스 애널리틱스(BA)인데, 고급분석 범주에 있는 BA는 BI를 포함하면서도 미래 예측 기능과 통계분석, 확률 분석 등을 포함해 최적의 데이터 기반 의사결정을 가능케 한다.

빅데이터는 금융 분야에서 빠르게 도입되어, 처리 속도를 높이고 금융 기관 내부적으로나 고객에게 더 나은 정보를 제공하는 데 활용된다. 빅데이터의 금융 분야 적용 범위는 투자 결정 및 거래, 포트폴리오 관리, 위험 관리 및 데이터 입력이 많은 기타 모든 측면에 이른다. 빅데이터는 대체 금융 서비스 분야에서 크라우드펀딩 플랫폼과 암호화폐 거래소를 포함한 주요 영역에 자리 잡았다.

건강보험 제공업체들은 건강 사회결정요인에 대한 데이터를 수집하여 고객의 건강 문제를 파악하기 위해 의료비를 예측하기도 한다.

월마트는 매시간 100만 건이 넘는 고객 거래를 처리하며, 이는 2.5페타바이트(2,560테라바이트)가 넘는 데이터를 포함하는 것으로 추산된다. 이는 미국 국립 도서관에 있는 모든 책의 정보량의 167배에 해당한다. 윈더미어 부동산는 거의 1억 명의 운전자 위치 정보를 사용하여 신규 주택 구매자가 하루 중 다양한 시간대에 직장까지 걸리는 평균 통근 시간을 파악하도록 돕는다. FICO 카드 감지 시스템은 전 세계 계정을 보호한다.

구글은 구글 지도에서 스마트폰의 GPS 및 자이로센서로 측정된 위치 및 이동 속도를 다수의 단말기에서 익명 정보로 수집하여 분석하고, 지도상에 도로의 혼잡 상황을 표시한다. 또한, 구글 지도 내비게이션에서 목적지까지의 경로의 혼잡 상황에 따른 통과 속도를 계산하여 최적 경로를 사용자에게 내비게이션한다.

페이스북은 사용자의 500억 장의 사진을 처리하고 있다. FICO 팔콘 신용카드 사기 감지 시스템은 전 세계적으로 21억 개의 활성 계정을 보호하고 있다. 소프트뱅크는 월간 약 10억 건(2014년 3월 현재)의 휴대전화 로그 정보를 처리하여 전파 연결률 개선에 활용하고 있다. 토요타는 차량 통신 장치(DCM)에서 차량 데이터를 전송하고, 토요타 스마트 센터 내 토요타 빅데이터 센터(TBDC)에 축적한다. 수집한 데이터를 분석하여 각종 서비스에 활용한다고 밝히고 있다.

4.7. 마케팅

인터넷과 스마트폰을 이용해 정보를 검색하고 쇼핑하며 SNS에 글을 남기는 동안 남는 흔적 같은 데이터들을 분석하면 개인의 생활 패턴, 소비 성향 등을 예측할 수 있다. 기업들은 이러한 빅 데이터를 통해 소비자가 원하는 것을 미리 예측하여 마케팅 자료로 활용한다.

지역 축제의 성공을 측정하는 방식은 기존의 경제적 파급 효과 외에도, 축제를 즐기는 관광객이 남긴 웹상의 '5Ns' 추적을 통해 가능하다. 주목(attentioN), 반응(reactioN), 표현(expressioN), 참여(participatioN), 소비(consumptioN)의 5Ns 분석을 통해 축제에 대한 관심과 만족도를 파악할 수 있다. 5Ns 분석을 적용한 대구치맥페스티벌은 전국적 인지도와 대중성을 확보했으나, 소비(consumptioN)와의 연계가 약한 것으로 나타났다. 이를 극복하기 위해 축제 경험을 강화하는 물리적 공간 확보가 제시되었다.

빅데이터는 인터넷을 이용하는 소비자들의 지속적인 "데이터화"로 인해 마케팅에서 주목받고 있다. 소비자의 데이터화는 마케팅 목적으로 인간 행동을 정량화하는 것이며, 데이터 양의 기하급수적인 증가는 빅데이터를 마케팅과 관련짓게 한다. 빅데이터는 대기업에서 소비자 중심 방식으로 중요한 추세, 관심사 또는 통계적 결과를 예측하는 데 사용될 수 있는 매우 수익성 높은 도구이다.

마케팅에서 빅데이터 사용의 세 가지 중요 요소는 다음과 같다.

* 빅데이터는 모든 인간의 행동이 숫자로 정량화되어 마케터에게 고객 행동 패턴을 발견할 수 있는 정보를 제공하고, 맞춤형 제품 추천 도구로 활용될 수 있다.
* 실시간 시장 대응력은 마케팅 노력을 전환하고 현재 추세에 맞춰 수정할 수 있게 하여 소비자와의 관련성을 유지하는 데 도움을 준다.
* 데이터 중심 시장 양면성이 빅데이터에 의해 크게 촉진되어, 특정 경제 및 사회적 상황에 대한 중요한 예측을 위한 새로운 모델과 알고리즘이 개발되고 있다.

4.8. 보안 관리

보안 관리는 빅 데이터 환경을 이용해 성장과 기술 발전을 동시에 이루는 분야로 분리된다. 클라우드 및 모바일 환경으로 접어들면서 물리/가상화 IT 시스템의 복잡성이 더욱 높아지고 있어 유무선 네트워크, 프라이빗/퍼블릭 클라우드, 모바일 애플리케이션과 기기 관리 등 IT 시스템 전반에서 대대적인 변화가 예상되고 있어 막대한 양의 보안 관리가 중요한 요소로 현실화되고 있다.

특히 2015년 이후로 빅 데이터는 기업 운영에서 직원들의 효율적인 업무 수행과 정보기술(IT)의 수집 및 배포 간소화를 돕는 도구로 중요성이 커졌다. 기업 내 IT 및 데이터 수집 문제 해결에 빅 데이터를 활용하는 것을 IT 운영 분석(ITOA)이라고 한다. 빅 데이터 원리를 머신 인텔리전스 및 심층 컴퓨팅 개념에 적용함으로써 IT 부서는 잠재적인 문제를 예측하고 예방할 수 있다. ITOA 기업들은 시스템 관리를 위한 플랫폼을 제공하여 데이터 사일로를 통합하고 고립된 데이터 영역이 아닌 시스템 전체에서 통찰력을 생성한다.

5. 폐해 사례

케임브리지 애널리티카(Cambridge Analytica)는 2016년 미국 대통령 선거브렉시트 국민투표에 깊이 관여하여 빅데이터 해킹의 위험성을 보여주었다. 파슨스 디자인 스쿨의 데이비드 캐롤(David Carroll) 교수는 개인 정보가 실시간으로 수집, 분석되어 맞춤형 콘텐츠 제공에 활용되며, 이는 개인의 감정에 영향을 미칠 수 있다고 경고했다. 그는 데이터 복구 및 출처 공개를 요구하며 런던 소재 고등 법원에 소송을 제기했고, 영국 의회는 케임브리지 애널리티카와 페이스북 관계자들을 조사했다.

빅데이터 패러다임에 대한 비판도 제기된다. 마크 그레이엄은 빅데이터가 사회적, 경제적, 정치적 맥락에서 고려되어야 한다고 주장하며, 크리스 앤더슨의 '이론의 종말' 주장에 비판적인 입장을 보였다. 또한, 빅데이터 분석에 기반한 의사결정은 과거 또는 현재의 세계에 의해 정보를 얻기 때문에, 변화하는 환경에서는 예측력이 떨어진다는 지적이 있다.

소비자 프라이버시 옹호자들은 개인 정보 침해 위협에 대해 우려를 표명하며, 정보 수집 유형, 공유 대상, 제약 조건 및 목적에 대한 고지가 필요하다고 주장한다. 빅데이터의 오용은 사회 기관에 대한 신뢰 상실로 이어질 수 있다.

다나 보이드(Danah Boyd)는 대표 표본 선택 원칙을 무시하고 방대한 데이터 처리에만 집중하는 것에 대해 우려를 표명했다. 이러한 접근 방식은 편향된 결과를 초래할 수 있다. 또한, 빅데이터 분석 결과는 모델에 의존적이기 때문에, 2016년 미국 대통령 선거 예측과 같이 다양한 성공 정도를 보였다.

빅데이터는 법 집행 기관 및 기업의 감시에 사용되어 사회 불평등을 재현할 수 있다는 비판도 있다. 사라 브레인(Sarah Brayne)은 빅데이터 경찰 활동이 감시 대상 강화, 형사 사법 시스템의 인종적 과대표 악화, 사회적 통합 장애물 초래 등의 방식으로 사회 불평등을 심화시킬 수 있다고 지적했다.

6. 윤리 강령

빅 데이터에 대한 윤리 강령은 아직 마련되어 있지 않다.