맨위로가기

데이터 수집

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

데이터 수집은 데이터를 수집하고 검증하는 과정을 의미하며, 전수 조사의 경우 4단계, 표본 추출의 경우 7단계로 구성된다. 데이터 수집은 데이터의 정확성을 보장하여, 결과에 기반한 의사 결정의 유효성을 확보하고, 개선 지표를 제공하는 데 기여한다. 데이터 수집 시스템과 데이터 관리 플랫폼과 같은 도구가 사용되며, 특히 데이터 관리 플랫폼은 마케팅에서 활용되어 데이터의 중앙 집중식 저장 및 분석을 가능하게 한다. 데이터 수집 과정에서 데이터 무결성 유지가 중요하며, 오류는 의도적 또는 비의도적으로 발생할 수 있다. 데이터 무결성을 보호하기 위해 품질 보증과 품질 관리가 수행된다. 품질 보증은 데이터 수집 전의 예방적 조치에 초점을 맞추며, 품질 관리는 데이터 수집 중 및 후에 오류를 감지하고 수정하는 역할을 한다. 또한, 클라우드 컴퓨팅 환경에서의 사용자 개인 정보 보호와 관련한 문제와, 개인정보보호법과 같은 법률 준수가 중요한 고려 사항으로 부각된다.

더 읽어볼만한 페이지

  • 자료 수집 - 첩보
    첩보는 국가 안보 및 목표 달성을 위해 정보를 수집, 분석, 배포하는 활동으로, 정보 사이클을 거쳐 다양한 방법으로 수행되며, 역사적으로 중요한 역할을 했으나 윤리적 문제 또한 존재한다.
  • 자료 수집 - 액시엄
    액시엄은 1969년 찰스 D. 워드가 설립한 데이터 마케팅 회사로, 우편 목록 제작으로 시작하여 2018년 마케팅 솔루션 사업부를 매각하고 LiveRamp로 이름을 변경하여 익명화된 고객 데이터를 제공한다.
  • 조사 - 리얼미터
    리얼미터는 2005년 이택수가 설립한 대한민국의 여론조사 기관으로, ARS 여론조사 방식을 활용하여 매일 조사를 진행하며, 대통령 선거 여론조사 방식 논란과 중앙선거관리위원회의 제재 이력이 있다.
  • 조사 - 비디오 리서치
    비디오 리서치는 일본의 시청률 조사 회사로, 주요 지역에서 가구 및 개인 시청률, 타임시프트 시청률을 조사하며, 온라인 미터 방식으로 발전했고, 공정성을 위해 엄격한 관리를 시행하지만, 과거 조작 사건 이후 조사 방법 개선과 함께 시청률 외 지표에 대한 요구가 증가하고 있다.
  • 실험 설계 - 무작위 대조 시험
  • 실험 설계 - 실험군과 대조군
    실험군과 대조군은 임상 연구에서 새로운 방법이나 약물의 효과를 평가하기 위해 사용되는 두 그룹으로, 대조군은 비교 기준이 되며, 실험군은 새로운 치료법을 받는 그룹이다.
데이터 수집
데이터 수집
정의분석을 위한 정보의 획득 과정
목적의사 결정 및 연구를 위한 자료 확보
방법
직접 수집설문 조사
실험
관찰
간접 수집기존 데이터베이스 활용
문헌 조사
웹 크롤링
고려 사항
수집 목표명확한 목표 설정
데이터 품질신뢰성 및 정확성 확보
윤리적 문제개인 정보 보호 및 데이터 사용 동의

2. 방법론

데이터 수집 및 유효성 검사는 조사 방법에 따라 단계가 다르다. 전수 조사를 할 때는 4단계로, 표본 추출을 할 때는 7단계로 구성된다.[3]

공식적인 데이터 수집 과정은 수집된 데이터가 명확하게 정의되고 정확하다는 것을 보장하기 위해 필요하다. 이를 통해, 결과에 기반한 후속 결정이 유효한 데이터를 바탕으로 이루어지도록 할 수 있다.[4] 또한 이 과정은 측정의 기준선을 제공하며, 경우에 따라 무엇을 개선해야 하는지에 대한 지표를 제시하기도 한다.

2. 1. 도구

데이터 수집에는 목적과 환경에 따라 다양한 도구가 활용된다. 대표적인 예로 데이터 수집 시스템과 데이터 관리 플랫폼(DMP) 등이 있다. 데이터 수집 시스템은 센서나 장치로부터 데이터를 직접 받아오는 데 중점을 두며, 데이터 관리 플랫폼은 주로 마케팅 분야에서 여러 출처의 데이터를 통합하고 분석하는 데 사용된다. 이러한 도구들은 수집된 데이터를 효과적으로 관리하고 활용하는 데 도움을 준다.

2. 1. 1. 데이터 수집 시스템

''이 주제의 자세한 내용은 데이터 수집 시스템 문서를 참고한다.''

2. 1. 2. 데이터 관리 플랫폼

데이터 관리 플랫폼(DMP)은 주로 마케팅 분야에서 사용되는 중앙 집중식 데이터 저장 및 분석 시스템이다. DMP는 방대한 양의 수요와 공급 관련 데이터를 수집하여 식별 가능한 정보로 변환하는 역할을 한다. 마케터는 DMP를 통해 자사 데이터뿐만 아니라 제2자 데이터, 제3자 데이터를 통합적으로 수신하고 활용할 수 있다. 이는 DMP가 DSP(Demand-Side Platform)와 SSP(Supply-Side Platform)를 아우르는 집합 시스템이기 때문에 가능하다. 결과적으로 DMP는 광고 캠페인을 최적화하고 미래 전략을 계획하는 데 필수적인 도구로 활용된다.

3. 데이터 무결성 문제

데이터 무결성을 유지하는 것은 데이터 수집 과정에서 발생할 수 있는 오류를 관찰하는 데 중요하다. 이러한 오류는 의도적으로(고의적 조작) 발생하거나, 비의도적으로(무작위 오류 또는 체계적 오류) 나타날 수 있다.[5]

데이터 무결성을 보호하고 연구 결과의 과학적 타당성을 확보하기 위한 두 가지 접근 방식이 있다.[6] 하나는 데이터 수집 전에 수행되는 모든 조치인 품질 보증(Quality Assurance, QA)이고, 다른 하나는 데이터 수집 중 및 후에 수행되는 모든 조치인 품질 관리(Quality Control, QC)이다.

3. 0. 1. 품질 보증 (QA)

품질 보증 (QA)은 데이터 수집 과정에서 발생할 수 있는 오류를 사전에 방지하는 데 초점을 맞춘다. 이는 데이터 무결성을 보호하기 위한 비용 효율적인 활동으로 여겨진다. 데이터 수집을 위한 포괄적이고 상세한 절차 설명을 포함한 프로토콜 표준화는 예방의 핵심 요소이다.

연구 과정에서 문제와 오류를 제때 식별하지 못하는 위험은 종종 부실하게 작성된 지침 때문에 발생한다. 이러한 실패의 몇 가지 예시는 다음과 같다.

  • 데이터 수집의 시기, 방법, 책임자를 명확히 식별하지 못하는 불확실성
  • 수집해야 할 데이터 항목의 목록이 완전하지 않음
  • 테스트 수행에 대한 엄격하고 단계적인 지침 대신 데이터 수집 도구에 대한 모호한 설명
  • 데이터 수집을 담당하는 직원의 교육 및 재교육에 필요한 정확한 내용과 전략을 제대로 인식하지 못함
  • 데이터 수집 장비의 사용, 조정, 보정에 대한 불분명한 지침
  • 조사 중에 발생하는 절차 변경 사항을 문서화하기 위한 미리 정해진 체계가 없음

3. 0. 2. 사용자 개인 정보 보호 문제

클라우드 컴퓨팅 환경에서 수집되는 개별 사용자 데이터는 보호 기준이 서로 다른 여러 국가로 전송될 수 있어, 데이터 무결성과 개인 정보 보호에 대한 심각한 우려가 제기된다.[7] 또한, 정보 처리 기술의 발전으로 사용자 데이터를 분석하여 개인이 표현하기도 전에 그 의도나 생각을 예측하는 것이 가능해졌다.[8] 이는 개인 정보 보호 문제를 더욱 심화시키는 요인이 된다.

3. 0. 3. 품질 관리 (QC)

품질 관리(QC) 작업은 데이터 수집 과정 중 또는 완료 후에 이루어지며, 모든 세부 사항을 신중하게 문서화하는 것이 중요하다. 효과적인 모니터링 시스템 구축에는 명확히 정의된 의사소통 구조가 필수적이다. 정보 전달 과정의 불확실성은 제대로 구성되지 않은 의사소통 구조로 이어져 모니터링을 느슨하게 만들고 오류 발견 기회를 줄일 수 있다.

품질 관리는 잘못된 데이터 수집 관행을 바로잡고, 향후 유사 문제 발생을 최소화하기 위한 필요 조치를 찾아내는 역할도 한다. 절차가 명확하지 않거나 피드백 및 교육이 부족하면, 구성원들이 조치의 필요성을 인식하지 못할 가능성이 커진다.

데이터 수집 과정에서 신속한 조치가 필요한 주요 문제들은 다음과 같다.

  • 체계적 오차
  • 정해진 절차(프로토콜) 위반
  • 사기 또는 과학적 부정행위
  • 개별 데이터 항목의 오류 발생
  • 특정 직원 또는 현장의 성과 문제
  • 그림자 효과

참조

[1] 논문 Antarctic Climate Change: Extreme Events Disrupt Plastic Phenotypic Response in Adélie Penguins
[2] 논문 An open database of productivity in Vietnam's social sciences and humanities for public use 2018-09-25
[3] 문서 Collecting and validating data: A simple guide for researchers https://doi.org/10.3[...] Advance. Preprint. 2021
[4] 서적 Data Collection and Analysis
[5] 웹사이트 Data Collection https://ori.hhs.gov/[...] 2019-06-08
[6] 논문 Dietary quality assurance processes of the DASH-Sodium controlled diet study 2003-10
[7] 서적 Law of Electronic Commercial Transactions: Contemporary Issues in the EU, US and China https://books.google[...] Routledge 2014-01-10
[8] 웹사이트 Data, not privacy, is the real danger https://www.nbcnews.[...] 2019-02-04
[9] 논문 Antarctic Climate Change: Extreme Events Disrupt Plastic Phenotypic Response in Adélie Penguins
[10] 논문 An open database of productivity in Vietnam's social sciences and humanities for public use 2018-09-25



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com