자료 집합
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
자료 집합은 메인프레임 분야에서 유래된 용어로, 컴퓨터 파일과 유사한 의미로 사용된다. 데이터 집합은 속성의 수, 유형, 표준 편차, 첨도와 같은 통계적 측정으로 정의되며, 실수, 정수, 명목 데이터 등 다양한 값 형식을 가질 수 있다. 통계학에서 데이터 집합은 모집단에서 표본 추출하여 얻은 관측치로 구성되며, 소프트웨어 테스트를 위해 알고리즘에 의해 생성될 수도 있다. 붓꽃 데이터 세트, MNIST 데이터베이스, 앤스컴의 4중주 등 통계학에서 널리 사용되는 여러 고전적인 데이터 집합이 존재한다.
더 읽어볼만한 페이지
자료 집합 |
---|
2. 역사
역사적으로, 이 용어는 메인프레임 분야에서 기원하였으며, 컴퓨터 파일과 매우 가까운 의미의 데이터 세트라는 용어를 사용하고 있다.
데이터 집합의 구조와 속성은 여러 특징으로 정의된다. 여기에는 속성이나 변수의 수와 유형, 그리고 표준 편차 및 첨도와 같이 해당 속성에 적용할 수 있는 다양한 통계적 측정이 포함된다.[3][14] 값은 실수 또는 정수와 같은 숫자일 수 있고, 명목 데이터와 같이 숫자가 아닌 값일 수도 있다.[15] 일반적으로 값은 측정 수준으로 설명된 모든 종류가 될 수 있다.[16] 각 변수에 대해 값은 일반적으로 모두 동일한 종류이다. 결측값이 존재할 수 있으며, 이는 어떤 방식으로든 표시되어야 한다.[15]
통계학에서 데이터 집합은 일반적으로 통계적 모집단을 표본 추출하여 얻은 실제 관측치에서 나온다.[4] 각 행은 해당 모집단의 한 요소에 대한 관측치에 해당한다. 데이터 집합은 특정 종류의 소프트웨어를 테스트하기 위해 알고리즘에 의해 생성될 수도 있다.[4] SPSS와 같은 일부 최신 통계 분석 소프트웨어는 여전히 데이터를 고전적인 데이터 집합 방식으로 제공한다.[4]
통계학 문헌에서 광범위하게 사용된 몇 가지 고전적인 데이터 집합은 다음과 같다.
3. 속성
4. 통계학에서의 데이터 집합
데이터 집합의 구조와 속성은 여러 가지 특징으로 정의된다. 여기에는 속성 또는 변수의 수와 유형, 그리고 표준 편차 및 첨도와 같이 해당 속성에 적용할 수 있는 다양한 통계적 측정이 포함된다.[3] 값은 사람의 키를 센티미터로 나타내는 것처럼 실수 또는 정수와 같은 숫자일 수 있지만, 사람의 민족성을 나타내는 것과 같이 명목 데이터(즉, 숫자 값을 포함하지 않음)일 수도 있다. 일반적으로 값은 측정 수준으로 설명된 모든 종류가 될 수 있다. 각 변수에 대해 값은 일반적으로 모두 동일한 종류이다. 결측값이 존재할 수 있으며, 이는 어떤 방식으로든 표시되어야 한다.
데이터가 누락되었거나 의심스러운 경우 데이터 집합을 완성하기 위해 대체 방법을 사용할 수 있다.[4]
5. 고전적인 데이터 집합
5. 1. 붓꽃 데이터 세트 (Iris data set)
붓꽃 데이터 세트는 로널드 피셔가 1936년에 소개한 다변량 데이터 세트이다.[5][18] 캘리포니아 대학교 어바인 머신 러닝 저장소에서 온라인으로 제공된다.[6]
5. 2. MNIST 데이터베이스
MNIST 데이터베이스는 분류, 클러스터링 및 이미지 처리 알고리즘을 테스트하는 데 일반적으로 사용되는 손으로 쓴 숫자의 이미지이다.
5. 3. 범주형 데이터 분석
''범주형 데이터 분석'' 도서에 사용된 데이터 세트는 UCLA 고급 연구 컴퓨팅에서 온라인으로 제공된다.[7]
5. 4. 강건 통계학
''강건 회귀와 이상치 탐지'' (Rousseeuw와 Leroy, 1968)에 사용된 데이터 세트이다.[8] 쾰른 대학교에서 [https://web.archive.org/web/20050207032959/http://www.uni-koeln.de/themen/statistik/data/rousseeuw/ 온라인으로 제공].[8]
5. 5. 시계열
Chatfield의 저서 ''시계열 분석''에 사용된 데이터는 StatLib에서 온라인으로 제공된다.[9]
5. 6. 극단값
''극단값의 통계적 모델링 입문'' 도서에 사용된 데이터는 도서의 저자인 Stuart Coles가 온라인으로 제공한 데이터의 스냅샷이다.[9]
5. 7. 베이즈 데이터 분석
''베이즈 데이터 분석'' 도서에 사용된 데이터는 도서 저자 중 한 명인 앤드루 겔만에 의해 제공되었다.
[http://www.stat.columbia.edu/~gelman/book/data/ 온라인으로 제공] ([https://web.archive.org/web/20230122121643/http://www.stat.columbia.edu/~gelman/book/data/ 보관 링크]).
5. 8. Bupa 간 데이터
Bupa 간 데이터는 머신 러닝(데이터 마이닝) 문헌의 여러 논문에 사용되었다.
5. 9. 앤스컴의 4중주 (Anscombe's quartet)
앤스컴의 4중주는 통계적 오류를 피하기 위해 데이터를 그래프로 표시하는 것의 중요성을 보여주는 작은 데이터 세트이다.[9][18]
6. 예제
python
파이썬을 사용하여 데이터셋을 로드하는 예시는 다음과 같다.
pip install datasets
from datasets import load_dataset
dataset = load_dataset(데이터셋 이름)
참조
[1]
간행물
"'Big Data': Big gaps of knowledge in the field of Internet"
http://www.ijis.net/[...]
2017-02-10
[2]
웹사이트
European open data portal
http://www.europeand[...]
European Commission
2016-09-23
[3]
서적
Principles of data mining and knowledge discovery
https://books.google[...]
Springer
[4]
서적
Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies
https://unece.org/DA[...]
United Nations Publications
[5]
간행물
The Use of Multiple Measurements in Taxonomic Problems
http://digital.libra[...]
2007-05-22
[6]
웹사이트
UCI Machine Learning Repository: Iris Data Set
https://archive.ics.[...]
2023-05-02
[7]
웹사이트
Textbook Examples An Introduction to Categorical Data Analysis by Alan Agresti
https://stats.oarc.u[...]
2023-05-02
[8]
웹사이트
The ROUSSEEUW datasets
http://www.uni-koeln[...]
[9]
웹사이트
StatLib :: Data, Software and News from the Statistics Community
http://lib.stat.cmu.[...]
[10]
간행물
"'Big Data': Big gaps of knowledge in the field of Internet"
http://www.ijis.net/[...]
[11]
웹사이트
European open data portal
http://www.europeand[...]
European Commission
2016-09-23
[12]
웹사이트
Dataset definition – MELODA
http://www.meloda.or[...]
2016-08-17
[13]
간행물
The tau of data: A new metric to assess the timeliness of data in catalogues
https://project.open[...]
2021-02-24
[14]
서적
Principles of data mining and knowledge discovery
https://books.google[...]
[15]
문서
もちろん、便宜上数字を割り当てることはできる。例えばゲルマン民族を1、漢民族を2といった具合だが、その場合でも身長とは異なり、数の大小や比率に意味はない。
[16]
간행물
데이터 분석 효율화のための尺度水準判定方式
[17]
서적
Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies
https://unece.org/fi[...]
United Nations Publications
2015-07-19
[18]
간행물
The Use of Multiple Measurements in Taxonomic Problems
[19]
서적
Principles of data mining and knowledge discovery
https://books.google[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com