자료 집합

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

자료 집합은 메인프레임 분야에서 유래된 용어로, 컴퓨터 파일과 유사한 의미로 사용된다. 데이터 집합은 속성의 수, 유형, 표준 편차, 첨도와 같은 통계적 측정으로 정의되며, 실수, 정수, 명목 데이터 등 다양한 값 형식을 가질 수 있다. 통계학에서 데이터 집합은 모집단에서 표본 추출하여 얻은 관측치로 구성되며, 소프트웨어 테스트를 위해 알고리즘에 의해 생성될 수도 있다. 붓꽃 데이터 세트, MNIST 데이터베이스, 앤스컴의 4중주 등 통계학에서 널리 사용되는 여러 고전적인 데이터 집합이 존재한다.

자료 집합

📚 더 읽어볼만한 페이지

컴퓨터 데이터 - 헤더 (컴퓨팅)
헤더는 전자 통신, 네트워킹, 파일 형식, 프로그래밍 등 다양한 분야에서 데이터의 전송 및 처리에 필요한 정보를 제공하는 정보의 집합이다.
컴퓨터 데이터 - 데이터 손실
데이터 손실은 절차적 요인, 인적 행위, 시스템 실패, 자연 재해, 범죄 등 다양한 원인으로 발생하며, 금전적 손실과 평판 손상 등 심각한 결과를 초래하므로 강력한 암호, 이중 인증, 정기적인 백업 등의 예방 조치가 중요하다.

1. 개요
2. 역사
3. 속성
4. 통계학에서의 데이터 집합
5. 고전적인 데이터 집합
6. 예제

2. 역사

역사적으로, 이 용어는 메인프레임 분야에서 기원하였으며, 컴퓨터 파일과 매우 가까운 의미의 데이터 세트라는 용어를 사용하고 있다.

3. 속성

데이터 집합의 구조와 속성은 여러 특징으로 정의된다. 여기에는 속성이나 변수의 수와 유형, 그리고 표준 편차 및 첨도와 같이 해당 속성에 적용할 수 있는 다양한 통계적 측정이 포함된다. 값은 실수 또는 정수와 같은 숫자일 수 있고, 명목 데이터와 같이 숫자가 아닌 값일 수도 있다. 일반적으로 값은 측정 수준으로 설명된 모든 종류가 될 수 있다. 각 변수에 대해 값은 일반적으로 모두 동일한 종류이다. 결측값이 존재할 수 있으며, 이는 어떤 방식으로든 표시되어야 한다.

4. 통계학에서의 데이터 집합

통계학에서 데이터 집합은 일반적으로 통계적 모집단을 표본 추출하여 얻은 실제 관측치에서 나온다. 각 행은 해당 모집단의 한 요소에 대한 관측치에 해당한다. 데이터 집합은 특정 종류의 소프트웨어를 테스트하기 위해 알고리즘에 의해 생성될 수도 있다. SPSS와 같은 일부 최신 통계 분석 소프트웨어는 여전히 데이터를 고전적인 데이터 집합 방식으로 제공한다.

데이터 집합의 구조와 속성은 여러 가지 특징으로 정의된다. 여기에는 속성 또는 변수의 수와 유형, 그리고 표준 편차 및 첨도와 같이 해당 속성에 적용할 수 있는 다양한 통계적 측정이 포함된다. 값은 사람의 키를 센티미터로 나타내는 것처럼 실수 또는 정수와 같은 숫자일 수 있지만, 사람의 민족성을 나타내는 것과 같이 명목 데이터(즉, 숫자 값을 포함하지 않음)일 수도 있다. 일반적으로 값은 측정 수준으로 설명된 모든 종류가 될 수 있다. 각 변수에 대해 값은 일반적으로 모두 동일한 종류이다. 결측값이 존재할 수 있으며, 이는 어떤 방식으로든 표시되어야 한다.

데이터가 누락되었거나 의심스러운 경우 데이터 집합을 완성하기 위해 대체 방법을 사용할 수 있다.

5. 고전적인 데이터 집합

통계학 문헌에서 광범위하게 사용된 몇 가지 고전적인 데이터 집합은 다음과 같다.

* 붓꽃 데이터 세트 - 로널드 피셔(1936)가 소개한 다변량 데이터 세트. [https://archive.ics.uci.edu/ml/datasets/Iris 캘리포니아 대학교 어바인 머신 러닝 저장소에서 온라인으로 제공].
* MNIST 데이터베이스 - 분류, 클러스터링 및 이미지 처리 알고리즘을 테스트하는 데 일반적으로 사용되는 손으로 쓴 숫자의 이미지
* 범주형 데이터 분석 - 범주형 데이터 분석 입문 도서에 사용된 데이터 세트, UCLA 고급 연구 컴퓨팅에서 [https://stats.oarc.ucla.edu/other/examples/icda/ 온라인으로 제공].
* 강건 통계학 - 강건 회귀와 이상치 탐지 (Rousseeuw와 Leroy, 1968)에 사용된 데이터 세트. 쾰른 대학교에서 [https://web.archive.org/web/20050207032959/http://www.uni-koeln.de/themen/statistik/data/rousseeuw/ 온라인으로 제공].
* 시계열 - Chatfield의 저서 시계열 분석에 사용된 데이터는 StatLib에서 [https://web.archive.org/web/20110102201323/http://lib.stat.cmu.edu/modules.php?op=modload&name=PostWrap&file=index&page=datasets/ 온라인으로 제공].
* 극단값 - 극단값의 통계적 모델링 입문 도서에 사용된 데이터는 도서의 저자인 Stuart Coles가 온라인으로 제공한 데이터의 [https://web.archive.org/web/20060910161517/http://homes.stat.unipd.it/coles/public_html/ismev/ismev.dat 스냅샷]입니다.
* 베이즈 데이터 분석 - 도서에 사용된 데이터는 도서 저자 중 한 명인 앤드루 겔만에 의해 [http://www.stat.columbia.edu/~gelman/book/data/ 온라인으로 제공] ([https://web.archive.org/web/20230122121643/http://www.stat.columbia.edu/~gelman/book/data/ 보관 링크]).
* [https://web.archive.org/web/20171023174701/http://ftp.ics.uci.edu:80/pub/machine-learning-databases/liver-disorders/ Bupa 간 데이터] - 머신 러닝 (데이터 마이닝) 문헌의 여러 논문에 사용됨.
* 앤스컴의 4중주 - 통계적 오류를 피하기 위해 데이터를 그래프로 표시하는 것의 중요성을 보여주는 작은 데이터 세트.

5.1. 붓꽃 데이터 세트 (Iris data set)

붓꽃 데이터 세트는 로널드 피셔가 1936년에 소개한 다변량 데이터 세트이다. 캘리포니아 대학교 어바인 머신 러닝 저장소에서 온라인으로 제공된다.

5.2. MNIST 데이터베이스

MNIST 데이터베이스는 분류, 클러스터링 및 이미지 처리 알고리즘을 테스트하는 데 일반적으로 사용되는 손으로 쓴 숫자의 이미지이다.

5.3. 범주형 데이터 분석

범주형 데이터 분석 도서에 사용된 데이터 세트는 UCLA 고급 연구 컴퓨팅에서 온라인으로 제공된다.

5.4. 강건 통계학

강건 회귀와 이상치 탐지 (Rousseeuw와 Leroy, 1968)에 사용된 데이터 세트이다. 쾰른 대학교에서 [https://web.archive.org/web/20050207032959/http://www.uni-koeln.de/themen/statistik/data/rousseeuw/ 온라인으로 제공].

5.5. 시계열

Chatfield의 저서 시계열 분석에 사용된 데이터는 StatLib에서 온라인으로 제공된다.

5.6. 극단값

극단값의 통계적 모델링 입문 도서에 사용된 데이터는 도서의 저자인 Stuart Coles가 온라인으로 제공한 데이터의 스냅샷이다.

5.7. 베이즈 데이터 분석

베이즈 데이터 분석 도서에 사용된 데이터는 도서 저자 중 한 명인 앤드루 겔만에 의해 제공되었다.

[http://www.stat.columbia.edu/~gelman/book/data/ 온라인으로 제공] ([https://web.archive.org/web/20230122121643/http://www.stat.columbia.edu/~gelman/book/data/ 보관 링크]).

5.8. Bupa 간 데이터

Bupa 간 데이터는 머신 러닝(데이터 마이닝) 문헌의 여러 논문에 사용되었다.

5.9. 앤스컴의 4중주 (Anscombe's quartet)

앤스컴의 4중주는 통계적 오류를 피하기 위해 데이터를 그래프로 표시하는 것의 중요성을 보여주는 작은 데이터 세트이다.

6. 예제

python
파이썬을 사용하여 데이터셋을 로드하는 예시는 다음과 같다.

pip install datasets
from datasets import load_dataset
dataset = load_dataset(데이터셋 이름)