자료

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

자료(데이터)는 라틴어 'datum'의 복수형으로, '주어진 것'을 의미하며, 1640년대부터 영어에서 사용되었다. 데이터는 수집, 분석되어 정보, 지식, 지혜로 이어진다. 자료는 질적 자료와 양적 자료로 구분되며, 컴퓨터 과학, 기술, 도서관학에서 데이터의 수명과 접근성은 중요한 문제로 여겨진다. 데이터는 전자 데이터, 자기 데이터 등으로 표현되며, 데이터 모델링, 데이터 처리 등의 과정을 거쳐 활용된다. '데이터 기반'이라는 용어는 데이터에 의해 주로 강요되는 활동을 나타내는 신조어로 사용된다.

자료

📚 더 읽어볼만한 페이지

정보 - 정보 관리
정보 관리는 조직의 목표 달성을 위해 데이터, 정보, 지식을 효과적으로 활용하는 전략적 과정으로, 정보 기술 발전과 함께 전략적으로 진화했으며, 의사결정, 정보 시스템 구축, 프레임워크 활용, 조직 설계 등을 통해 경쟁력 확보에 필수적인 복합적인 관리 활동이다.
정보 - 오보
오보는 악의 없이 부정확한 정보를 전달하는 행위로, 과학적 이해 부족, 정보 부족, 추측 등으로 발생하며 소셜 미디어로 확산되어 개인과 사회에 부정적 영향을 미치고, 정보 출처 확인, 미디어 리터러시 교육, AI 기술 활용 등 다각적 대응이 필요하다.
자료 - 데이터 압축
데이터 압축은 디지털 데이터의 크기를 줄여 저장 공간을 절약하고 전송 속도를 향상시키는 기술로, 모르스 부호에서 시작하여 ZIP, JPEG, LZ77 등 다양한 방식으로 발전해 왔으며, 무손실 압축과 손실 압축으로 나뉘고 최근에는 인공지능 기술을 활용하여 효율성을 높여 다양한 분야에서 활용되고 있다.
자료 - 데이터 시각화
데이터 시각화는 데이터를 그래픽 요소로 표현하여 정보 전달, 패턴 파악, 데이터 탐색 및 분석을 용이하게 하는 방법으로, ETRI는 정보 조직화, 정보 시각화, 상호작용의 세 단계로 분류한다.

1. 개요
2. 데이터의 어원 및 용어
3. 데이터의 의미
4. 데이터의 구분
- 4.1. 질적 자료 (Qualitative Data)
- 4.2. 양적 자료 (Quantitative Data)
  - 4.2.1. 양적 자료의 한계
5. 데이터 문서 (Data Documents)
6. 데이터 수집 및 분석
7. 데이터의 수명 및 접근성
8. 컴퓨팅 분야에서의 데이터
9. 기타 분야에서의 데이터

2. 데이터의 어원 및 용어

라틴어 data^라틴어는 datum^라틴어의 복수형으로, '(주어진) 것'을 의미하며, dare^라틴어('주다')의 중성 과거 분사형이다. 영어에서 'data'라는 단어가 처음 사용된 것은 1640년대이다. 1946년에 'data'는 '전송 및 저장 가능한 컴퓨터 정보'를 의미하는 용어로 처음 사용되었다. 'data processing'(자료 처리)이라는 표현은 1954년에 처음 등장했다.

'data'가 '정보'의 동의어로 더 일반적으로 사용될 때는, 불가산 명사로 단수형으로 취급된다. 이러한 용법은 일상 언어와 소프트웨어 개발 및 컴퓨터 과학과 같은 기술 및 과학 분야에서 흔히 사용된다. 이러한 용법의 한 예로 '빅 데이터'라는 용어가 있다. 자료 집합의 처리 및 분석을 구체적으로 지칭하는 데 사용될 때는 복수형을 유지한다.

전자 데이터는 컴퓨터 내에 있거나, 컴퓨터에 저장 가능한 형태로 변환된 데이터를 말한다. 예를 들어, 단순한 인쇄물상의 문자 데이터와 구별하여 문자 코드로 변환된 문자 데이터, 단순한 인쇄물상의 이미지 데이터와 구별하여 비트맵 데이터나 JPEG 방식의 이미지로 변환된 이미지 데이터 등이 있다.

중국어에서는 '자료'(資料, 쯔랴오) 또는 '데이터'(數據, 슈쥐)라고도 한다.

3. 데이터의 의미

데이터, 정보, 지식, 지혜는 밀접하게 관련된 개념이지만, 각각은 서로에게 고유한 역할을 가지며, 각 용어는 고유한 의미를 지닌다. 일반적인 관점에 따르면, 데이터는 수집되고 분석된다. 데이터는 어떤 방식으로든 분석된 후에야 의사 결정에 적합한 정보가 된다. 어떤 데이터 세트가 누군가에게 얼마나 유익한지는 그 사람이 얼마나 예상하지 못했는지에 달려 있다고 말할 수 있다. 데이터 스트림에 포함된 정보의 양은 해당 섀넌 엔트로피로 특징지을 수 있다.

지식은 어떤 개체가 소유한 환경에 대한 인식이며, 데이터는 단순히 그 지식을 전달한다. 예를 들어, 에베레스트산의 높이를 지정하는 데이터베이스의 항목은 정확하게 측정된 값을 전달하는 데이터이다. 이 측정값은 에베레스트산에 대한 다른 데이터와 함께 책에 포함되어, 에베레스트산을 등반하는 가장 좋은 방법을 결정하고자 하는 사람들에게 유용한 방식으로 산을 설명할 수 있다. 이 데이터로 표현되는 특성에 대한 인식은 지식이다.

데이터는 종종 가장 추상적이지 않은 개념으로, 정보는 그 다음으로 추상적이지 않으며, 지식은 가장 추상적인 개념으로 간주된다. 이 관점에서, 데이터는 해석을 통해 정보가 된다. 예를 들어, 에베레스트산의 높이는 일반적으로 "데이터"로 간주되고, 에베레스트산의 지질학적 특성에 대한 책은 "정보"로 간주될 수 있으며, 에베레스트산 정상에 도달하는 최상의 방법에 대한 실용적인 정보를 담은 등반 안내서는 "지식"으로 간주될 수 있다. "정보"는 일상적인 사용부터 기술적인 사용에 이르기까지 다양한 의미를 갖는다. 그러나 이 관점은 또한 데이터가 정보로부터, 그리고 정보가 지식으로부터 어떻게 발생하는지를 뒤바꿀 수 있다고 주장된다. 일반적으로 정보의 개념은 제약, 의사 소통, 제어, 데이터, 형식, 지침, 지식, 의미, 정신적 자극, 패턴, 인식 및 표현과 밀접하게 관련되어 있다.

4. 데이터의 구분

데이터는 크게 질적 자료와 양적 자료로 나뉜다. 데이터에서 관측되는 개별 대상을 (관측) 단위 혹은 케이스라고 하며 관측된 특성을 변수 또는 필드라 부른다. 특성의 값은 관찰값 또는 관측치이다. 데이터는 하나 이상의 변수에 관한 관찰값의 모음이다. 데이터를 정리하는 방법은 기술통계와 추측통계가 있으며, 기술통계는 데이터를 수치나 표, 그래프 등으로 요약하며 데이터의 특성을 드러내는 통계다. 추측통계는 불확실한 데이터에 관해 추측하고 그 신뢰성을 계량화하는 방법이다. 일반인들도 사용하는 데이터 수집 방법으론 유한모집단에서 n개의 개체로 이루어진 가능한 모든 부분집합 각각이 모두 선택될 확률이 같도록 수집하는 단순랜덤표집이 있다. 표준편차를 평균으로 나눈 변이계수는 데이터 변동의 단순한 측도로 많이 사용된다.

데이터적 공간인 표본공간은 보통 반복될 수 있는 우연에 의해 구성되는 전체집합을 의미하며 전사건이라 불릴 수도 있다. 근원사건은 원소의 개수가 하나인 집합이다. 통계적 확률은 반복될 수 있는 우연을 정리한 시행에 의해서 구할 수 있으며 경험적 확률로 불릴 수도 있다. 이는 이론적 혹은 수학적 확률과 같은 뜻이 아니다. 데이터에 관한 직접적인 학문을 분류할 때 이론적 확률의 비중이 증가하면 데이터 사이언스이며 경험적 확률을 자주 다루면 통계학이다.

4.1. 질적 자료 (Qualitative Data)

질적 자료(정성적 자료)는 수치로 측정이 불가능한 자료이다. 분류 자료 또는 범주형 자료(categorical data)라고도 한다.

: 예: 전화번호, 등번호, 성별, 혈액형, 계급, 순위, 등급, 종교 분류 등. 명목형 자료와 순서형 자료가 존재한다.

4.2. 양적 자료 (Quantitative Data)

양적 자료(Quantitative Data)는 수치로 측정이 가능한 자료로, 수치적 자료라고도 한다. 온도, 지능 지수, 절대온도, 가격, 주가 지수, 실업률, 매출액, 기업 내 과장의 수 등은 양적 자료의 예시이다. 양적 자료에는 연속형 자료와 이산형 자료가 있다.

4.2.1. 양적 자료의 한계

양적 자료는 간결성(parsimony) 문제를 가지며, 의미의 풍부함을 상실할 수 있다. 수치화되지 않는 개념을 양화할 때, 선택한 요소 외의 다른 모든 의미는 배제된다. 그렇기에 정교한 양적 측정이 상응하는 질적 기술에 비해 의미가 덜할 수밖에 없다.

5. 데이터 문서 (Data Documents)

데이터를 등록해야 할 때마다 데이터는 데이터 문서 형태로 존재한다. 데이터 문서의 종류는 다음과 같다.

* 데이터 저장소
* 데이터 연구
* 데이터 세트
* 소프트웨어
* 데이터 논문
* 데이터베이스
* 데이터 핸드북
* 데이터 저널

이러한 데이터 문서(데이터 저장소, 데이터 연구, 데이터 세트, 소프트웨어) 중 일부는 데이터 인용 지수에 색인되어 있으며, 데이터 논문은 과학 인용 지수와 같은 전통적인 서지 데이터베이스에 색인되어 있다.

6. 데이터 수집 및 분석

자료 수집은 연구자가 직접 자료를 수집하는 1차 자료 수집과, 과학 저널 등에 공개된 자료와 같이 다른 출처에서 이미 수집된 자료를 획득하는 2차 자료 수집으로 나눌 수 있다. 자료 분석 방법론에는 자료 삼각 측량 및 자료 침투가 포함된다. 자료 삼각 측량은 질적 및 양적 방법, 문헌 검토(학술 논문 포함), 전문가 인터뷰, 컴퓨터 시뮬레이션 등 최소 3개 이상의 분석 각도를 사용하여 자료를 수집, 분류 및 분석하여 연구의 객관성을 극대화하고 조사 대상 현상에 대한 최대한 완전한 이해를 돕는다. 자료 침투는 가장 관련 있는 정보를 추출하기 위해 미리 정해진 단계를 거쳐 자료를 분석한다.

7. 데이터의 수명 및 접근성

컴퓨터 과학, 기술, 도서관학에서 데이터의 수명은 중요한 문제이다. 유전체학, 천문학, 의학(의료 영상) 등에서 방대한 양의 데이터가 생성되지만, 하드 드라이브나 광 디스크 같은 저장 장치의 한계로 인해 장기 보존이 어렵다. 이러한 저장 장치는 수십 년 후에는 읽을 수 없게 될 수 있기 때문이다. 과학 출판사와 도서관은 수십 년 동안 이 문제와 씨름해 왔지만, 수세기 또는 영구적으로 데이터를 장기 보존하는 만족스러운 해결책은 아직 찾지 못했다.

데이터 접근성 문제도 심각하다. 많은 과학 데이터가 출판되지 않거나 데이터베이스와 같은 저장소에 보관되지 않는다. 최근 설문 조사에 따르면, 2~22년 전에 출판된 516건의 연구 중 5분의 1 미만이 요청된 데이터를 제공할 수 있거나 제공하려 했다. 데이터를 검색할 가능성은 출판 후 매년 17%씩 감소했다. Dryad의 100개 데이터 세트를 조사한 결과, 절반 이상이 연구 결과를 재현하는 데 필요한 세부 정보가 부족한 것으로 나타났다.

이러한 재현성 문제에 대한 해결책으로 FAIR 데이터 요구가 대두되고 있다. FAIR 데이터는 발견 가능(Findable), 접근 가능(Accessible), 상호 운용 가능(Interoperable), 재사용 가능(Reusable)한 데이터를 의미한다. FAIR 데이터 원칙을 충족하는 데이터는 후속 연구에 사용될 수 있으며, 이를 통해 과학과 기술 발전에 기여할 수 있다.

8. 컴퓨팅 분야에서의 데이터

국제 표준화 기구(ISO/IEC 2382-1) 및 일본 산업 규격(JIS X0001)에서 "데이터"는 "통신, 해석 또는 처리에 적합하도록 형식화되어 재해석 가능한 정보의 표현"으로 정의된다.

컴퓨팅 분야에서 데이터는 광범위한 의미를 가진다.
* 데이터적 공간(표본공간): 반복될 수 있는 우연에 의해 구성되는 전체집합으로 전사건이라고도 불린다.
* 근원사건: 원소의 개수가 하나인 집합이다.
* 통계적 확률: 반복될 수 있는 우연을 정리한 시행에 의해 구할 수 있으며, 경험적 확률이라고도 한다.
* 데이터 사이언스: 이론적 확률의 비중이 높은 데이터 관련 학문이다.
* 통계학: 경험적 확률을 자주 다루는 학문이다.

데이터는 컴퓨터에서 프로그램 이외의 것을 의미하며, 문서, 영상, 음성 등 다양한 형태를 가진다.

데이터는 관련 있는 것들이 함께 묶여 정리, 보관되는 경우가 많으며(데이터 보관), 보관된 데이터의 집합을 파일이라고 부른다. 데이터의 흐름은 데이터 흐름이라고 불리며, 데이터 흐름도 등을 사용하여 기술된다. 처리 대상이 되는 데이터의 집합을 데이터베이스라고 부른다. 데이터는 레지스트리, 파일, 데이터베이스 등에 담을 수 있다.

8.1. 전자 데이터

컴퓨터 내에 있거나, 컴퓨터에 저장 가능한 형태로 변환된 데이터를 말한다. 예를 들어, 단순한 인쇄물상의 문자 데이터와 구별하여 문자 코드로 변환된 문자 데이터, 단순한 인쇄물상의 이미지 데이터와 구별하여 비트맵 데이터나 JPEG 방식의 이미지로 변환된 이미지 데이터 등이 있다. 컴퓨터 내부의 정보 처리 시에는 굳이 전자 데이터라고 칭하는 경우는 거의 없다.

일본에서는 형법 조항 등에서 사용되는 법률 용어인 "전자기록"은 전자 데이터 및 자기 데이터와 거의 같은 의미이다.

네트워크를 통해 CPU나 하드 디스크 등으로 흘러 들어가는 정리된 데이터나 정리되지 않은 데이터는 넓고 다양한 성질을 가진 변동성, 속도, 양을 지니며, 기업은 이를 비즈니스 조언으로 변환한다.

8.2. 자기 데이터

자기 기록되어 있는 데이터이다. 자기 테이프, 자기 디스크 등의 컴퓨터용 매체나, 비디오 테이프, 정기권 등의 마그네틱 스트라이프에 저장된다. 근처에 강력한 자석이 있으면 영향을 받아 변화될 수 있다.

8.3. 데이터 모델링

데이터는 관련 있는 것들이 함께 묶여 정리, 보관되는 경우가 많으며, 이를 데이터 보관이라고 한다. 보관된 데이터의 집합을 파일이라고 부른다.

데이터의 흐름은 데이터 흐름이라고 불리며, 데이터 흐름도 등을 사용하여 기술된다.

처리 대상이 되는 데이터의 집합을 데이터베이스라고 부른다.

8.4. 데이터 처리

컴퓨터에서 데이터는 프로그램 이외의 것을 의미하며, 문서, 영상, 음성 등 다양한 형태를 가진다. 데이터는 레지스트리, 파일, 데이터베이스 등에 담을 수 있다.

9. 기타 분야에서의 데이터

자료는 다른 분야에서도 점점 더 많이 사용되고 있지만, 그 분야의 고도로 해석적인 성격이 자료의 "주어진" 윤리와 상반될 수 있다는 주장이 제기되었다. 피터 체크랜드는 가능한 방대한 양의 자료와 그 하위 집합, 즉 주의를 기울이는 자료를 구별하기 위해 '캡타'(라틴어 'capere', "취하다"에서 유래)라는 용어를 도입했다. 요한나 드러커는 인문학이 지식 생산을 "상황적이고, 부분적이며, 구성적인" 것으로 확언하기 때문에, '자료'를 사용하면, 예를 들어 현상이 개별적이거나 관찰자와 무관하다는 등의 비생산적인 가정을 도입할 수 있다고 주장했다. 관찰 행위를 구성적인 것으로 강조하는 '캡타'라는 용어는 인문학의 시각적 표현에서 '자료'의 대안으로 제시된다.

'자료 기반'이라는 용어는 다른 모든 요인보다 자료에 의해 주로 강요되는 활동에 적용되는 신조어이다. 자료 기반 응용 프로그램에는 자료 기반 프로그래밍 및 자료 기반 저널리즘이 포함된다.