자료 집합
1. 개요
자료 집합은 메인프레임 분야에서 유래된 용어로, 컴퓨터 파일과 유사한 의미로 사용된다. 데이터 집합은 속성의 수, 유형, 표준 편차, 첨도와 같은 통계적 측정으로 정의되며, 실수, 정수, 명목 데이터 등 다양한 값 형식을 가질 수 있다. 통계학에서 데이터 집합은 모집단에서 표본 추출하여 얻은 관측치로 구성되며, 소프트웨어 테스트를 위해 알고리즘에 의해 생성될 수도 있다. 붓꽃 데이터 세트, MNIST 데이터베이스, 앤스컴의 4중주 등 통계학에서 널리 사용되는 여러 고전적인 데이터 집합이 존재한다.
3. 속성
데이터 집합의 구조와 속성은 여러 특징으로 정의된다. 여기에는 속성이나 변수의 수와 유형, 그리고 표준 편차 및 첨도와 같이 해당 속성에 적용할 수 있는 다양한 통계적 측정이 포함된다. 값은 실수 또는 정수와 같은 숫자일 수 있고, 명목 데이터와 같이 숫자가 아닌 값일 수도 있다. 일반적으로 값은 측정 수준으로 설명된 모든 종류가 될 수 있다. 각 변수에 대해 값은 일반적으로 모두 동일한 종류이다. 결측값이 존재할 수 있으며, 이는 어떤 방식으로든 표시되어야 한다.
4. 통계학에서의 데이터 집합
통계학에서 데이터 집합은 일반적으로 통계적 모집단을 표본 추출하여 얻은 실제 관측치에서 나온다. 각 행은 해당 모집단의 한 요소에 대한 관측치에 해당한다. 데이터 집합은 특정 종류의 소프트웨어를 테스트하기 위해 알고리즘에 의해 생성될 수도 있다. SPSS와 같은 일부 최신 통계 분석 소프트웨어는 여전히 데이터를 고전적인 데이터 집합 방식으로 제공한다.
데이터 집합의 구조와 속성은 여러 가지 특징으로 정의된다. 여기에는 속성 또는 변수의 수와 유형, 그리고 표준 편차 및 첨도와 같이 해당 속성에 적용할 수 있는 다양한 통계적 측정이 포함된다. 값은 사람의 키를 센티미터로 나타내는 것처럼 실수 또는 정수와 같은 숫자일 수 있지만, 사람의 민족성을 나타내는 것과 같이 명목 데이터(즉, 숫자 값을 포함하지 않음)일 수도 있다. 일반적으로 값은 측정 수준으로 설명된 모든 종류가 될 수 있다. 각 변수에 대해 값은 일반적으로 모두 동일한 종류이다. 결측값이 존재할 수 있으며, 이는 어떤 방식으로든 표시되어야 한다.
데이터가 누락되었거나 의심스러운 경우 데이터 집합을 완성하기 위해 대체 방법을 사용할 수 있다.
5. 고전적인 데이터 집합
통계학 문헌에서 광범위하게 사용된 몇 가지 고전적인 데이터 집합은 다음과 같다.
* 붓꽃 데이터 세트 - 로널드 피셔(1936)가 소개한 다변량 데이터 세트. [https://archive.ics.uci.edu/ml/datasets/Iris 캘리포니아 대학교 어바인 머신 러닝 저장소에서 온라인으로 제공].
* MNIST 데이터베이스 - 분류, 클러스터링 및 이미지 처리 알고리즘을 테스트하는 데 일반적으로 사용되는 손으로 쓴 숫자의 이미지
* 범주형 데이터 분석 - 범주형 데이터 분석 입문 도서에 사용된 데이터 세트, UCLA 고급 연구 컴퓨팅에서 [https://stats.oarc.ucla.edu/other/examples/icda/ 온라인으로 제공].
* 강건 통계학 - 강건 회귀와 이상치 탐지 (Rousseeuw와 Leroy, 1968)에 사용된 데이터 세트. 쾰른 대학교에서 [https://web.archive.org/web/20050207032959/http://www.uni-koeln.de/themen/statistik/data/rousseeuw/ 온라인으로 제공].
* 시계열 - Chatfield의 저서 시계열 분석에 사용된 데이터는 StatLib에서 [https://web.archive.org/web/20110102201323/http://lib.stat.cmu.edu/modules.php?op=modload&name=PostWrap&file=index&page=datasets/ 온라인으로 제공].
* 극단값 - 극단값의 통계적 모델링 입문 도서에 사용된 데이터는 도서의 저자인 Stuart Coles가 온라인으로 제공한 데이터의 [https://web.archive.org/web/20060910161517/http://homes.stat.unipd.it/coles/public_html/ismev/ismev.dat 스냅샷]입니다.
* 베이즈 데이터 분석 - 도서에 사용된 데이터는 도서 저자 중 한 명인 앤드루 겔만에 의해 [http://www.stat.columbia.edu/~gelman/book/data/ 온라인으로 제공] ([https://web.archive.org/web/20230122121643/http://www.stat.columbia.edu/~gelman/book/data/ 보관 링크]).
* [https://web.archive.org/web/20171023174701/http://ftp.ics.uci.edu:80/pub/machine-learning-databases/liver-disorders/ Bupa 간 데이터] - 머신 러닝 (데이터 마이닝) 문헌의 여러 논문에 사용됨.
* 앤스컴의 4중주 - 통계적 오류를 피하기 위해 데이터를 그래프로 표시하는 것의 중요성을 보여주는 작은 데이터 세트.
5.1. 붓꽃 데이터 세트 (Iris data set)
붓꽃 데이터 세트는 로널드 피셔가 1936년에 소개한 다변량 데이터 세트이다. 캘리포니아 대학교 어바인 머신 러닝 저장소에서 온라인으로 제공된다.
5.4. 강건 통계학
강건 회귀와 이상치 탐지 (Rousseeuw와 Leroy, 1968)에 사용된 데이터 세트이다. 쾰른 대학교에서 [https://web.archive.org/web/20050207032959/http://www.uni-koeln.de/themen/statistik/data/rousseeuw/ 온라인으로 제공].
5.7. 베이즈 데이터 분석
베이즈 데이터 분석 도서에 사용된 데이터는 도서 저자 중 한 명인 앤드루 겔만에 의해 제공되었다.
[http://www.stat.columbia.edu/~gelman/book/data/ 온라인으로 제공] ([https://web.archive.org/web/20230122121643/http://www.stat.columbia.edu/~gelman/book/data/ 보관 링크]).