표본조사

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

표본조사는 전체 모집단의 특성을 추정하기 위해 모집단의 일부를 선택하여 조사하는 방법이다. 고대부터 사용되었으며, 1786년 라플라스가 프랑스 인구 추정에 활용했고, 1936년 미국 대통령 선거에서 갤럽이 소규모 표본으로 루스벨트의 승리를 정확히 예측하면서 중요성이 부각되었다. 표본 추출 과정은 모집단 정의, 표본 프레임 결정, 표본 추출 방법 결정, 표본 크기 결정, 표본 추출 구현, 자료 수집, 추출 과정 재검토의 7단계로 이루어진다. 표본 추출 방법에는 확률 표집과 비확률 표집이 있으며, 확률 표집은 단순 무작위 표집, 체계적 표집, 층화 표집, 집락 표집 등이 있다. 표본 크기는 통계적 유의성, 연구 목적, 비용 등을 고려하여 결정하며, 표본 오차와 비표본 오차를 최소화하기 위해 노력한다. 데이터 가중치를 통해 표본의 대표성을 높이고, 소셜 미디어 분석, 제조업 등 다양한 분야에서 활용된다. 관련 국제 표준으로는 ISO 2859 등이 있다.

표본조사

개요

학문 분야	통계학
하위 분야	기술통계학 추론통계학

표본 조사

정의	더 큰 모집단에서 데이터 하위 집합을 선택하여 모집단 전체에 대한 추론을 하는 통계적 과정
목적	전체 모집단을 조사하지 않고도 모집단에 대한 정보를 얻는 것
필요성	시간 및 자원 절약 접근 불가능하거나 파괴적인 전체 모집단 조사 회피
기본 단계	모집단 정의 표본 프레임 결정 표본 방법 선택 표본 크기 결정 표본 수집 데이터 평가
표본 추출 방법	단순 임의 표본 추출 계통 표본 추출 층화 표본 추출 집락 표본 추출 다단계 표본 추출 할당 표본 추출

표본 오차

정의	표본에서 얻은 결과와 전체 모집단에서 얻은 결과 사이의 차이
종류	표본 추출 오차 비표본 추출 오차

추가 정보

관련 분야	시장 조사 여론 조사 품질 관리

주의사항

표본 크기	표본 크기가 클수록 표본 오차가 줄어들 가능성이 높음
표본 방법	표본 방법은 표본의 대표성에 영향을 미침

📚 더 읽어볼만한 페이지

통계학 - 확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
통계학 - 사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
표집 - 가위바위보
가위바위보는 두 명 이상이 주먹, 가위, 보 세 가지 손 모양으로 승패를 가리는 놀이로, 간단한 규칙과 직관성으로 널리 알려져 있으며 중국 또는 일본에서 유래되었다는 설이 있다.
표집 - 경험적 증거
경험적 증거는 감각적 경험을 통해 얻어지는 증거로, 인식론에서는 믿음을 정당화하고 과학 철학에서는 과학적 가설을 확증하거나 반증하는 데 사용되며, 경험주의와 합리주의 사이의 지식 근원에 대한 논쟁과 관련된다.

1. 개요
2. 역사
3. 표본 추출 과정
4. 표본 추출 방법
- 4.1. 확률 표집 (Probability Sampling)
- 4.2. 비확률 표집 (Non-probability Sampling)
5. 표본 크기 결정
6. 표본 오차 및 비표본 오차
7. 표본 가중치
8. 현대적 응용
9. 표준

2. 역사

표본 추출의 개념은 고대부터 존재했으며, 성경에도 관련 기록이 있다. 1786년 피에르시몽 라플라스는 표본을 사용하여 프랑스 인구를 추정하고, 확률적 오차 추정치를 계산했다. 그는 균일한 사전 확률을 가진 베이즈 정리를 사용했으며, 그의 표본이 무작위라고 가정했다. 1870년대 알렉산드르 이바노비치 추프로프는 표본 조사를 러시아 제국에 도입했다.

미국에서는 1936년 리터러리 다이제스트가 대통령 선거에서 공화당의 승리를 예측했지만, 심각한 편향으로 인해 빗나갔다. 2백만 명 이상이 잡지 구독 목록과 전화 번호를 통해 얻은 이름으로 연구에 응답했지만, 이러한 목록이 공화당 지지자들에게 크게 편향되어 있다는 점을 간과했다.

싱가포르 선거는 2015년 선거부터 표본 집계를 채택했다. 싱가포르 선거 관리국(ELD)에 따르면, 이 표본 집계는 추측과 잘못된 정보를 줄이는 데 도움이 되며, 선거 관리들이 해당 선거 구역의 선거 결과를 확인할 수 있도록 돕는다. 보고된 표본 집계는 4-5% 이내의 오차 한계에서 95% 신뢰 구간으로 상당히 정확한 지표 결과를 제공한다. ELD는 대중에게 표본 집계가 공식 결과와 별개이며, 투표 집계가 완료되면 선거 관리인만이 공식 결과를 발표할 것이라고 알렸다.

3. 표본 추출 과정

표집 과정은 일반적으로 다음 7단계로 구성된다.

1. 관심 대상의 모집단 정의
2. 측정 가능한 항목이나 사건의 집합인 표집 틀 상술
3. 틀로부터 항목이나 사건을 선택하기 위한 표집 방법 상술
4. 표본 크기 결정
5. 표집 계획 구현
6. 표집 및 자료 수집
7. 표집 과정 재검토

성공적인 통계적 실천은 집중된 문제 정의에 기반한다. 표본 추출에서 이는 표본이 추출되는 모집단을 정의하는 것을 포함한다. 모집단은 이해하고자 하는 특성을 가진 모든 사람 또는 항목을 포함하도록 정의할 수 있다. 모집단 내의 모든 사람 또는 모든 것에서 정보를 수집할 시간이나 돈이 거의 없기 때문에, 목표는 해당 모집단의 대표 표본(또는 부분 집합)을 찾는 것이다.

때로는 모집단을 정의하는 것이 명확하다. 예를 들어, 제조업체는 생산된 재료의 배치가 고객에게 출시할 만큼 충분히 높거나 품질이 좋지 않아 폐기되거나 재작업되어야 하는지 결정해야 한다. 이 경우 해당 배치가 모집단이다.

관심 있는 모집단이 종종 물리적 객체로 구성되지만, 때로는 시간, 공간 또는 이들의 조합에 걸쳐 표본 추출을 해야 할 필요가 있다. 예를 들어, 슈퍼마켓 직원 배치에 대한 조사는 다양한 시간대에 계산대 줄 길이를 조사할 수 있으며, 멸종 위기에 처한 펭귄에 대한 연구는 시간이 지남에 따라 다양한 사냥터를 사용하는 방식을 이해하는 것을 목표로 할 수 있다. 시간 차원의 경우, 초점은 기간 또는 개별적인 경우에 맞춰질 수 있다.

다른 경우, 조사된 '모집단'은 훨씬 덜 유형적일 수 있다. 예를 들어, 조셉 재거는 몬테카를로의 한 카지노에서 룰렛 바퀴의 동작을 연구했고, 이를 사용하여 편향된 바퀴를 식별했다. 이 경우, 재거가 조사하고 싶었던 '모집단'은 바퀴의 전체적인 동작 (즉, 무한히 많은 시행에 걸친 결과의 확률 분포)이었고, 그의 '표본'은 해당 바퀴에서 관찰된 결과로 구성되었다.

이러한 상황은 종종 관찰된 모집단이 결과인 원인 시스템에 대한 지식을 얻으려고 할 때 발생한다. 이러한 경우, 표본 추출 이론은 관찰된 모집단을 더 큰 '초모집단'의 표본으로 취급할 수 있다. 예를 들어, 연구자는 전국적으로 사용할 경우 새로운 '금연' 프로그램의 효과를 예측하기 위해 100명의 환자 테스트 그룹에서 해당 프로그램의 성공률을 연구할 수 있다. 여기서 초모집단은 "이 치료법에 접근할 수 있는 모든 국민"이다 – 아직 프로그램이 모두에게 제공되지 않았기 때문에 아직 존재하지 않는 그룹이다.

표본이 추출되는 모집단은 정보가 원하는 모집단과 동일하지 않을 수 있다. 프레임 문제 등으로 인해 이 두 그룹 간에는 크지만 완전하지 않은 중복이 있는 경우가 많다(아래 참조). 때로는 완전히 분리될 수도 있다. 예를 들어, 인간의 건강을 더 잘 이해하기 위해 쥐를 연구하거나, 2009년에 태어난 사람에 대한 예측을 하기 위해 2008년에 태어난 사람의 기록을 연구할 수 있다.

표본 추출된 모집단과 관련 모집단을 정확하게 만드는 데 시간을 할애하는 것은 종종 매우 가치 있는데, 이는 이 단계에서 간과될 수 있는 많은 문제, 모호성 및 질문을 제기하기 때문이다.

4. 표본 추출 방법

표본 추출 방법은 크게 확률 표집과 비확률 표집으로 나뉜다. 확률 표집은 모집단의 모든 구성원이 표본으로 선택될 확률이 0보다 크고, 그 확률을 정확하게 알 수 있는 방법이다. 반면 비확률 표집은 모집단의 일부 구성원이 선택될 확률이 없거나, 선택 확률을 정확하게 알 수 없는 방법이다.

표집 방법으로는 단순 무작위 표집, 대응 무작위 표집, 계통추출법, 집락추출법, 층화추출법, 기계적 표집, 임의(편의적) 표집 등이 있다.

성공적인 통계적 실천을 위해서는 문제 정의에 집중해야 한다. 표본 추출에서는 표본이 추출되는 모집단을 정확하게 정의하는 것이 중요하다. 모집단은 연구 대상이 되는 특성을 가진 모든 사람 또는 항목을 포함한다.

모집단을 정의하는 것은 명확할 때도 있지만, 시간, 공간 또는 이들의 조합에 걸쳐 표본 추출을 해야 할 필요가 있을 때도 있다. 예를 들어, 슈퍼마켓 직원 배치에 대한 조사는 다양한 시간대에 계산대 줄 길이를 조사할 수 있다.

때로는 조사된 모집단이 덜 유형적일 수도 있다. 예를 들어, 조셉 재거는 몬테카를로의 한 카지노에서 룰렛 바퀴의 동작을 연구했고, 이를 사용하여 편향된 바퀴를 식별했다.

표본이 추출되는 모집단은 정보가 원하는 모집단과 동일하지 않을 수 있다. 예를 들어, 인간의 건강을 더 잘 이해하기 위해 쥐를 연구할 수 있다.

표본 추출된 모집단과 관련 모집단을 정확하게 만드는 데 시간을 할애하는 것은 중요하다.

확률 표집과 비확률 표집의 주요 특징은 다음과 같다.

👆

좌우로 밀어서 보기

구분	확률 표집	비확률 표집
정의	모집단의 모든 구성원이 표본으로 선택될 확률이 0보다 크고, 그 확률을 정확하게 알 수 있는 방법	모집단의 일부 구성원이 선택될 확률이 없거나, 선택 확률을 정확하게 알 수 없는 방법
특징

4.1. 확률 표집 (Probability Sampling)

확률 표본은 모집단의 모든 단위가 표본에 선택될 확률이 0보다 크고, 이 확률을 정확하게 결정할 수 있는 표본이다. 이러한 특성의 조합은 선택 확률에 따라 표본 추출된 단위를 가중하여 모집단 총계의 편향되지 않은 추정치를 생성할 수 있게 한다.

예: 주어진 거리에 사는 성인의 총 소득을 추정하려고 한다. 우리는 그 거리의 각 가구를 방문하여 거기에 사는 모든 성인을 식별하고, 각 가구에서 한 명의 성인을 무작위로 선택한다. (예를 들어, 각 사람에게 0과 1 사이의 균등 분포에서 생성된 난수를 할당하고 각 가구에서 가장 높은 숫자를 가진 사람을 선택할 수 있다). 그런 다음 선택된 사람을 인터뷰하여 소득을 찾는다.

혼자 사는 사람은 확실히 선택되므로, 총 추정치에 소득을 추가하기만 하면 된다. 그러나 두 명의 성인이 있는 가구에 사는 사람은 선택될 확률이 1/2밖에 되지 않는다. 이를 반영하기 위해, 그러한 가구에 접근할 때, 선택된 사람의 소득을 총계에 두 번 계산한다. (해당 가구에서 선택된 사람은 선택되지 않은 사람을 대표하는 것으로 간주될 수 있다.)

위의 예에서, 모든 사람이 동일한 선택 확률을 갖는 것은 아니다. 확률 표본을 만드는 것은 각 사람의 확률이 알려져 있다는 사실이다. 모집단의 모든 요소가 동일한 선택 확률을 가질 때, 이것을 '동일한 선택 확률'(EPS) 설계라고 한다. 이러한 설계는 모든 표본 추출된 단위에 동일한 가중치가 부여되므로 '자체 가중'이라고도 한다.

확률 표본 추출에는 단순 무작위 표본 추출, 계통 표본 추출, 층화 표본 추출, 크기 비례 확률 표본 추출, 그리고 군집 표본 추출 또는 다단계 표본 추출이 포함된다. 이러한 다양한 확률 표본 추출 방법에는 두 가지 공통점이 있다.

# 모든 요소는 표본 추출될 알려진 0이 아닌 확률을 가지며
# 어느 시점에서 무작위 선택이 포함된다.

위에서 식별된 모든 유형의 프레임 내에서 다양한 표본 추출 방법을 개별적으로 또는 조합하여 사용할 수 있다. 이러한 설계 간의 선택에 일반적으로 영향을 미치는 요인은 다음과 같다.

👆

좌우로 밀어서 보기

요인	설명
프레임의 특성 및 품질	프레임의 정확성, 완전성, 최신성 등이 표본 추출의 질에 영향을 미친다.
프레임에 있는 단위에 대한 보조 정보의 가용성	보조 정보(예: 크기, 위치)는 표본 추출의 효율성을 높이는 데 사용될 수 있다.
정확도 요구 사항 및 정확도 측정 필요성	요구되는 정확도 수준에 따라 표본 추출 방법과 크기가 달라진다.
표본에 대한 자세한 분석이 예상되는지 여부	심층 분석이 필요한 경우, 층화 표본 추출과 같이 특정 집단에 대한 대표성을 확보하는 방법이 고려될 수 있다.
비용/운영 관련 문제	예산, 시간, 인력 등의 제약 조건은 표본 추출 방법 선택에 영향을 미친다.

4.2. 비확률 표집 (Non-probability Sampling)

비확률 표집은 모집단의 각 요소가 표본으로 선택될 확률을 알 수 없거나, 0인 경우를 의미한다. 이는 관심 모집단에 대한 가정을 기반으로 요소를 선택하며, 선택 기준을 형성한다. 요소의 선택이 비무작위적이므로 비확률 표집은 표본 추출 오차의 추정을 허용하지 않는다. 이러한 조건은 제외 편향을 발생시켜 표본이 모집단에 대해 제공할 수 있는 정보량에 제한을 둔다. 표본과 모집단 간의 관계에 대한 정보가 제한적이어서 표본에서 모집단으로 추론하기가 어렵다.

예를 들어, 특정 거리의 모든 가구를 방문하여 문을 여는 첫 번째 사람을 인터뷰하는 경우, 2명 이상의 거주자가 있는 가구에서는 일부 사람들이 문을 열 가능성이 더 높기 때문에 비확률 표집이 된다. (예: 집에서 대부분의 시간을 보내는 실업자는 인터뷰어가 방문했을 때 직장에 있을 수 있는 직장 동료보다 문을 열 가능성이 더 높다.) 그리고 이러한 확률을 계산하는 것은 실용적이지 않다.

비확률 표집 방법에는 편의 표본 추출, 할당 표본 추출, 목적적 표본 추출이 있다. 또한 응답 거부의 특성을 잘 이해하지 못하면 응답 거부 효과가 모든 확률 설계를 비확률 설계로 바꿀 수 있다. 왜냐하면 응답 거부는 각 요소의 표본 추출 확률을 효과적으로 수정하기 때문이다.

* 할당 표본 추출: 모집단을 상호 배타적 하위 그룹으로 세분화한 후, 지정된 비율에 따라 각 세그먼트에서 대상 또는 단위를 선택하기 위해 판단을 사용한다. 예를 들어, 면접관에게 45세에서 60세 사이의 여성 200명과 남성 300명을 표본 추출하도록 지시할 수 있다. 이 방법은 표본 선택이 무작위가 아니라는 점에서 비확률 표집에 해당한다.

* 우발적 표본추출 (임의 표본추출, 편의 표본추출 또는 기회 표본추출): 모집단의 손이 닿는 부분에서 표본을 추출하는 비확률 표본추출의 한 유형이다. 즉, 모집단은 쉽게 구할 수 있고 편리하기 때문에 선택된다. 연구자는 이 표본만으로는 총 모집단에 대해 과학적으로 일반화할 수 없다. 표본이 충분히 대표적이지 않기 때문이다.

* 눈덩이 표본추출: 사회 과학 연구에서 사용되는 기술로, 기존 연구 대상을 사용하여 표본에 더 많은 대상을 모집하는 방법이다.

* 자발적 표본 추출: 자원 봉사자들이 설문 조사를 완료하도록 선택하는 비확률 표본 추출의 한 유형이다. 자원 봉사자는 소셜 미디어의 광고를 통해 초대될 수 있다.

* 판단 표본 추출: 전문가의 의견을 바탕으로 표본을 선택하는 비확률 표본 추출의 한 유형이다.

* 임의 표집: 인간의 판단을 사용하여 무작위성을 시뮬레이션하는 방법이다. 표본 선택에 의식적인 편견이 존재하지 않도록 하는 것이 목표이지만, 선택 편향으로 인해 실패하는 경우가 많다.

* 기계적 추출: 기구를 사용하여 물질을 표본 추출하는 방법을 말한다. 기계적 추출은 기계의 설계 의도, 기계의 작동 조건에 따라 편향이 발생할 가능성이 있으므로 무작위는 아니다.

* 계통 추출: 전화번호부에서 10번째마다 추출하는 방법과 같이 간단하지만 데이터의 비대칭성과 편향으로 인해 결과의 편향이 발생하기 쉽다. 전화번호부 자체가 무작위화되지 않은 한 비확률 추출이 된다.

5. 표본 크기 결정

표본 크기 결정에는 공식, 표, 검정력 함수 차트가 널리 사용된다.

표본 크기 표를 사용하는 단계는 다음과 같다.

# 관심 효과 크기, α(알파), β(베타)를 가정한다.
# 표본 크기 표를 확인한다.
## 선택된 α에 해당하는 표를 선택한다.
## 원하는 검정력에 해당하는 행을 찾는다.
## 추정된 효과 크기에 해당하는 열을 찾는다.
## 열과 행의 교차점이 필요한 최소 표본 크기이다.

1936년 미국 대통령 선거에서 'Literary Digest'는 230만 명을 대상으로 조사하여 대립 후보가 루스벨트 후보에게 57% 대 43%로 승리할 것이라고 예측했다. 그러나 여론조사 회사 갤럽은 훨씬 적은 인원수의 조사에서 루스벨트의 승리를 예상했고, 결국 갤럽의 예측이 옳았다. 'Literary Digest'의 조사에서는 전화나 자동차 보유자 명단을 사용했고, 1,000만 명의 조사 대상 중 230만 명의 유효 답변밖에 얻지 못했으며, 독자층에 보수파가 많았다는 점 등이 원인이 되어 표본의 크기가 컸음에도 불구하고 부유층에 편중되었다.

6. 표본 오차 및 비표본 오차

설문 조사 결과는 일반적으로 어느 정도 오차가 발생한다. 전체 오차는 표본 오차와 비표본 오차로 나눌 수 있는데, 여기서 "오차"는 체계적인 편향과 무작위 오차를 모두 포함한다.

표본 오차는 표본 설계로 인해 발생하며, 다음을 포함한다.

* 선택 편향: 실제 선택 확률이 결과를 계산할 때 가정된 확률과 다를 때 발생한다.
* 무작위 표본 오차: 표본의 요소가 무작위로 선택되어 결과에 무작위 변동이 나타나는 것이다.

비표본 오차는 데이터 수집, 처리 또는 표본 설계의 문제로 인해 최종 설문 조사 추정치에 영향을 미칠 수 있는 다른 오류들을 의미한다. 여기에는 다음이 포함될 수 있다.

* 과잉 범위: 모집단 외부의 데이터가 포함되는 경우
* 과소 범위: 표본 추출 틀에 모집단의 요소가 포함되지 않은 경우
* 측정 오류: 응답자가 질문을 오해하거나 답변하기 어려운 경우 등
* 처리 오류: 데이터 코딩 시 실수
* 비응답 또는 참여 편향: 선택된 모든 개인으로부터 완전한 데이터를 얻지 못하는 경우

특히 무응답(비응답)은 표본 추출에서 큰 문제로 제기된다. 무응답에는 두 가지 주요 유형이 있다.

* 단위 비응답: 설문 조사의 어떤 부분도 완료하지 못하는 경우
* 항목 비응답: 설문 조사는 제출했지만, 하나 이상의 질문에 응답하지 않은 경우

설문조사 표본 추출에서 표본으로 선정된 개인이 참여를 꺼리거나, 참여할 시간이 없거나(opportunity cost^영어, 기회 비용), 연락이 닿지 않는 경우가 있을 수 있다. 이 경우 응답자와 비응답자 간에 차이가 발생하여 모집단 모수의 편향된 추정으로 이어질 위험이 있다.

이러한 문제는 설문 조사 설계를 개선하고, 인센티브를 제공하며, 응답하지 않는 사람에게 반복적으로 연락을 시도하는 등의 방법으로 해결할 수 있다. 또한, 데이터에 가중치를 부여하거나 다른 질문에 대한 답변을 기반으로 누락된 데이터를 채워넣는 방법(대입)을 통해 무응답의 영향을 완화할 수도 있다.

비응답은 인터넷 표본 추출에서 특히 문제가 된다. 이러한 문제의 원인으로는 부적절하게 설계된 설문조사, 과도한 설문조사(또는 설문조사 피로), 잠재적 참여자가 더 이상 사용하지 않거나 정기적으로 확인하지 않는 이메일 주소를 가지고 있다는 사실 등이 있다.

데이터 수집 시 주의사항은 다음과 같다.

* 정해진 추출 과정에 따라 수행한다.
* 데이터의 시간 순서를 지킨다.
* 조사 과정에서의 주의점을 기록한다.
* 조사 불가능한 대상을 기록한다.

표본 추출 후에는 (처음에 의도했던 방법이 아닌) 실제로 수행한 추출 과정을 다시 조사하여 분석에서 변동을 일으키는 영향을 검토해야 한다. 특히 조사 불가능 대상은 문제가 될 수 있다.

사람을 대상으로 하는 사회 조사에서, 표본으로 선정된 사람이 참여를 거부하거나 연락이 닿지 않는 경우가 있다. 이 경우, 조사 가능자와 조사 불가능자의 차이가 결과적으로 표본 추출의 편향(비확률적 오차)으로 이어질 수 있으므로, 추적 조사가 필요할 수 있다.

7. 표본 가중치

표본 설계가 각 개인에게 동일한 선택 기회를 제공하지 않는 경우, 모집단을 정확하게 대표하기 위해 데이터에 가중치를 부여해야 한다. 예를 들어, 가구가 동일한 선택 확률을 갖지만 각 가구 내에서 한 명의 사람만 인터뷰하는 경우, 대가족 구성원은 인터뷰 기회가 더 적다. 이는 표본 가중치를 사용하여 설명할 수 있다. 마찬가지로, 둘 이상의 전화 회선을 가진 가구는 무작위 숫자 다이얼링 표본에서 선택될 확률이 더 높으며, 가중치는 이를 조정할 수 있다.

가중치는 무응답을 보정하는 데에도 활용될 수 있다.

일반적으로 층화 추출에서는 표본으로 추출되는 비율이 층에 따라 다르므로, 데이터가 올바르게 모집단을 대표하도록 가중치를 부여해야 한다. 예를 들어, 사회 조사에서 단순 무작위 추출을 하려면 벽지에 사는 사람도 포함해야 하지만, 벽지에 사는 사람을 인터뷰하는 데에는 비용이 많이 든다. 이 비용을 절약하는 방법으로 도시와 지방으로 층화하는 방법이 있다. 지방의 표본 크기가 작아도, 분석에서 가중치를 부여함으로써 보충할 수 있다.

8. 현대적 응용

표본 추출은 더 큰 데이터 세트 내에서 적절한 데이터 포인트를 선택하여 전체 모집단의 특성을 추정할 수 있게 해준다. 예를 들어, 소셜 미디어에서는 매일 약 6억 개의 트윗이 생성된다. 하루 동안 논의되는 주제나 각 주제에 대한 감정을 파악하기 위해 모든 트윗을 살펴볼 필요는 없다. 트위터 데이터 샘플링에 대한 이론적 공식이 개발되었다.

제조업에서는 음향, 진동, 압력, 전류, 전압, 제어기 데이터 등 다양한 유형의 감지 데이터를 짧은 시간 간격으로 사용할 수 있다. 다운타임을 예측하기 위해 모든 데이터를 살펴볼 필요는 없으며, 표본만으로도 충분할 수 있다.

9. 표준

표본 추출과 관련된 국제 표준으로는 다음이 있다.

👆

좌우로 밀어서 보기

\| 설명
ISO 2859 시리즈	계수형 샘플링검사 절차
ISO 3951 시리즈	계량형 샘플링검사 절차

미국의 ASTM 표준은 다음과 같다.

👆

좌우로 밀어서 보기

\| 설명
ASTM E105	재료의 확률 표본 추출에 대한 표준 실무
ASTM E122	지정된 허용 오차로 로트 또는 공정의 특성 평균을 추정하기 위한 표본 크기 계산에 대한 표준 실무
ASTM E141	확률 표본 추출 결과에 기반한 증거 수용에 대한 표준 실무
ASTM E1402	표본 추출 관련 용어에 대한 표준 용어
ASTM E1994	공정 지향적 AOQL 및 LTPD 표본 추출 계획 사용에 대한 표준 실무
ASTM E2234	AQL로 색인된 속성에 의한 제품 스트림 표본 추출에 대한 표준 실무
ANSI/ASQ Z1.4	계수형 샘플링검사 절차
MIL-STD-105	제2차 세계 대전 중 개발된 미국의 군사 표준. 1995년 공식적으로 폐지되었으나, 여전히 사용되는 경우가 있음.
MIL-STD-1916	MIL-STD-105를 대체하기 위해 개발된 미국의 군사 표준

한국에서는 통계청에서 제공하는 표준화된 지침과 가이드라인을 참고할 수 있다.