부트스트랩 (통계학)
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
부트스트랩(Bootstrap)은 1979년 브래들리 에프론에 의해 처음 소개된 재표본 추출 방법으로, 표본 데이터를 재표본하여 얻은 데이터에서 표본에 대한 추론을 모델링하는 방식으로 모집단에 대한 추론을 수행한다. 이는 잭나이프 방법에서 영감을 받았으며, 잭나이프 외에도 스위스 아미 나이프, 도끼 등의 이름으로 불리기도 했다. 부트스트랩은 표준 오차와 신뢰 구간 도출에 유용하며 복잡한 표본 설계에도 적용 가능하다는 장점이 있다. 하지만 사용되는 추정량에 크게 의존하며, 계산 시간이 오래 걸리고 자동화가 어렵다는 단점도 존재한다. 부트스트랩은 단변량, 회귀 문제 등 다양한 상황에 적용될 수 있으며, 푸아송 부트스트랩, 순차적 부트스트랩, Bag of Little Bootstraps(BLB) 등의 계산 효율성을 높이는 방법과 병렬 처리를 활용할 수 있다. 부트스트랩은 점근적 성질을 가지며, 점 추정량의 부트스트랩 분포를 활용하여 신뢰 구간을 생성할 수 있다.
더 읽어볼만한 페이지
부트스트랩 (통계학) | |
---|---|
부트스트랩 방법 | |
분야 | 통계학 |
유형 | 재표본추출 |
발명가 | 브래들리 에프론 |
발명 연도 | 1979년 |
개요 | |
목적 | 통계량의 표본 분포 추정 |
사용 | 신뢰 구간 구축 가설 검정 추정치의 편향 추정 |
장점 | 모수적 가정 불필요 복잡한 통계량에 적용 가능 |
단점 | 계산 비용이 많이 들 수 있음 원래 표본의 대표성에 의존적임 |
절차 | |
1단계 | 원래 표본에서 무작위로 복원 추출하여 여러 개의 부트스트랩 표본을 생성 |
2단계 | 각 부트스트랩 표본에 대해 통계량을 계산 |
3단계 | 부트스트랩 표본에서 계산된 통계량의 분포를 추정 |
변형 | |
모수적 부트스트랩 | 모수적 분포를 가정하고, 해당 분포에서 표본을 추출 |
평활 부트스트랩 | 부트스트랩 표본에 임의의 노이즈를 추가 |
블록 부트스트랩 | 시계열 데이터에 사용되며, 데이터를 블록으로 나누어 재표본추출 |
관련 개념 | |
재표본추출 | 관측 데이터에서 반복적으로 표본을 추출하는 일반적인 방법 |
몬테카를로 방법 | 무작위 표본 추출을 사용하여 수치적 결과를 얻는 광범위한 알고리즘 집합 |
2. 역사
브래들리 에프론이 1979년에 "부트스트랩 방법: 잭나이프에 대한 또 다른 시각"에서 부트스트랩bootstrap영어을 처음 기술했으며,[5] 이는 잭나이프에 대한 이전 연구에서 영감을 받았다.[6][7][8] 이후 분산에 대한 개선된 추정치가 개발되었다.[9][10] 1981년에는 베이지안 확장이 개발되었다.[11]
부트스트래핑의 기본 아이디어는 표본 데이터에서 모집단에 대한 추론(표본 → 모집단)을 표본 데이터를 "재표본 추출"하고 재표본 추출된 데이터에서 표본에 대한 추론을 수행(재표본 추출 → 표본)함으로써 모델링할 수 있다는 것이다.[13] 모집단은 알 수 없으므로 표본 통계량의 모집단 값에 대한 실제 오차는 알 수 없다. 부트스트랩 재표본에서 '모집단'은 실제로 표본이며 이는 알려져 있다. 따라서 재표본 추출된 데이터에서 '실제' 표본에 대한 추론의 품질(재표본 추출 → 표본)을 측정할 수 있다.
부트스트랩 방법은 모집단의 추정량(분산 등)의 성질을 근사 분포에 따라 표본화했을 때의 성질을 계산하여 추정하는 방법이다. 일반적으로 측정값으로부터 구해지는 경험 분포를 사용하며, 가설 검정에도 사용된다. 가정되는 분포가 의심스럽거나, 파라메트릭 가정이 불가능하거나 매우 복잡한 계산이 필요한 경우에 파라메트릭 가정에 기초한 추정 대신 사용된다.
1987년 에프론은 편향 보정 및 가속() 부트스트랩을 개발했으며,[43] 1992년에는 근사 부트스트랩 신뢰 구간(ABC, 또는 근사 ) 절차가 개발되었다.[12]
3. 접근 방식
더 구체적으로 말하면, 부트스트랩은 원래 데이터를 기반으로 실제 확률 분포 ''J''에 대한 추론을 재표본 추출된 데이터를 기반으로 경험적 분포 ''Ĵ''에 대한 추론과 유사하게 처리하여 작동한다. ''Ĵ''를 알고 있기 때문에 재표본 추출된 데이터를 사용하여 ''Ĵ''에 대한 추론의 정확성을 평가할 수 있다. ''Ĵ''가 ''J''의 합리적인 근사치라면, ''J''에 대한 추론의 품질을 차례로 추론할 수 있다.
예를 들어 전 세계 사람들의 평균 키에 관심이 있다고 가정해 보자. 전 세계 인구의 모든 사람을 측정할 수는 없으므로 대신 극히 작은 부분을 표본 추출하여 측정한다. 표본의 크기가 ''N''이라고 가정하면, ''N''명의 키를 측정한다. 해당 단일 표본에서 평균에 대한 단 하나의 추정치를 얻을 수 있다. 모집단에 대해 추론하기 위해 계산한 평균의 통계적 분산에 대한 감각이 필요하다. 가장 간단한 부트스트랩 방법은 키의 원래 데이터 집합을 가져와 컴퓨터를 사용하여 해당 데이터에서 표본 추출하여 크기가 ''N''인 새로운 표본('재표본' 또는 부트스트랩 표본이라고 함)을 형성하는 것이다. 부트스트랩 표본은 단순 임의 표본 추출을 사용하여 원본에서 가져온다(예: [1,2,3,4,5]에서 5번 '재표본 추출'하여 [2,5,4,4,1]을 얻을 수 있음). 따라서 ''N''이 충분히 크다고 가정하면 모든 실용적인 목적을 위해 원래의 "실제" 표본과 동일할 확률은 거의 0이다. 이 프로세스를 여러 번 반복한다(일반적으로 1,000 또는 10,000번). 이러한 각 부트스트랩 표본에 대해 평균을 계산한다(각 표본을 "부트스트랩 추정치"라고 함). 이제 부트스트랩 평균의 히스토그램을 만들 수 있다. 이 히스토그램은 표본 평균 분포의 모양에 대한 추정치를 제공하며 이를 통해 평균이 표본 간에 얼마나 변하는지에 대한 질문에 답할 수 있다. (여기서 평균에 대해 설명된 이 방법은 거의 모든 다른 통계량 또는 추정량에 적용할 수 있다.)
부트스트랩 방법은 모집단의 추정량(분산 등)의 성질을, 근사 분포에 따라 표본화했을 때의 성질을 계산하여 추정하는 방법이다. 근사 분포로는 측정값으로부터 구해지는 경험 분포를 사용하는 것이 표준적이다. 또한 가설 검정에 사용하는 경우도 있다. 가정되는 분포가 의심스러운 경우나, 파라메트릭한 가정이 불가능하거나 매우 복잡한 계산을 필요로 하는 경우에, 파라메트릭한 가정에 기초한 추정 대신에 사용된다.
부트스트랩 방법의 장점은 해석적인 방법과 비교하여 매우 단순하다는 것이다. 모집단 분포의 복잡한 모수(백분위수점, 비율, 오즈비, 상관계수 등)의 복잡한 추정 함수에 대해 표준 오차나 신뢰 구간을 구하기 위해, 단순히 부트스트랩 표본을 적용하는 것만으로 충분하다.
한편 부트스트랩 방법의 단점으로는, 점근적으로 일치하는 경우에는 유한 표본이 보장되지 않고, 낙관적으로 되는 경향이 있다.
이 기법의 기본 개념과 가치를 보여주기 위해, 다소 인위적인 예시를 사용한다. 피셔가 제시한 유명한 붓꽃의 측정값(붓꽃 데이터 세트 참조)을 사용하여, 버지니아 붓꽃(Iris virginica)과 버시컬러 붓꽃(Iris versicolor) 2종을 판별하는 모델을 구축하는 것을 생각해보자.
이 2종을, 꽃받침의 길이만을 설명 변수로 하여 판별하는 로지스틱 회귀 모델을 생각하고, 최대 우도 추정을 사용하면, 다음 표와 같이 파라미터의 최대 우도 추정 값과 표준 오차를 얻을 수 있다.설명 변수 최대 우도 추정값 표준 오차 절편 -12.57 2.91 꽃받침 길이 2.01 0.47
모델 식
: 2.01×꽃받침 길이-12.57≧0일 때 버지니아 붓꽃으로 판별
: 2.01×꽃받침 길이-12.57<0일 때 버시컬러 붓꽃으로 판별
(이 모델 식에서는, 버지니아 붓꽃은 표본 50개 중 37개, 버시컬러 붓꽃은 50개 중 36개가 올바르게 판별되었다.)
최대 우도 추정값은 점근적으로 정규 분포를 따른다는 것이 알려져 있다. 이번 표본 50개씩의 데이터로 구한 최대 우도 추정값(절편: -12.57, 꽃받침 길이 계수: 2.01)이, 어느 정도 정규 분포에 가까운지, 부트스트랩법으로 다음과 같이 조사할 수 있다.
# 원 데이터에서 개의 표본을 복원 추출한다. 이 때 은 원 데이터의 표본 수이다.
# 최대 우도법으로 로지스틱 회귀 모델에 적용한다.
# 이 부트스트랩 추출을 여러 번(회) 반복한다.
# 이렇게 계산된 "추정량의 표본 분포"는, 원래의 표본 분포의 근사가 된다.
400px
이러한 파라미터의 분포는 당연하게도 정규 분포가 아니다. 이는, 표본 수가 유한하고, 점근적으로만 정규 분포를 따르기 때문이다. 최대 우도 추정값에 대해 정규 분포의 가정을 두지 않아도, 부트스트랩을 사용하여 얻은 분포를 사용하면, 최대 우도 추정값의 신뢰 구간 추정 및 가설 검정을 수행할 수 있게 된다.
부트스트랩 표본에서 신뢰 구간을 추정하는 방법으로, 추정량의 변위값 를 사용하는 방법이 있다. 이것을 부트스트랩 백분위수 구간이라고 부른다. 이 예시에서는, 절편과 꽃받침 길이 계수의 부트스트랩 95% 백분위수 구간은, 각각 와 이 된다.
한편, 정규 분포를 가정한 95% 신뢰 구간은 최대 우도 추정값 플러스 마이너스 1.96배 표준 오차로 구해지며, 각각 과 이 된다. 점근 이론을 이용하여 정규 분포를 가정하여 구한 신뢰 구간은 대칭이며, 부트스트랩을 사용한 신뢰 구간과 비교하면 좁다.
비복원 추출에 의한 것, 이표본 문제, 회귀 분석, 시계열, 계층적 추출, 매개 분석 등의 통계적 문제를 다루는, 더 복잡한 부트스트랩법이 있다.
4. 논의
부트스트랩 방법은 해석적인 방법에 비해 매우 단순하다는 장점이 있다. 모집단 분포의 복잡한 모수(백분위수점, 비율, 오즈비, 상관계수 등)의 복잡한 추정 함수에 대해 표준 오차나 신뢰 구간을 구하기 위해, 단순히 부트스트랩 표본을 적용하는 것만으로 충분하다.
하지만 부트스트랩 방법은 점근적으로는 일치하지만, 유한 표본에서는 결과가 보장되지 않고 낙관적으로 나타나는 경향이 있다는 단점이 있다.
4. 1. 장점
표준 오차와 백분위수, 비율, 오즈비, 상관 계수 등 분포의 복잡한 추정량에 대한 신뢰 구간을 도출하는 간단한 방법이다. 단순성에도 불구하고 부트스트래핑은 복잡한 표본 설계(예: 층별로 ns개의 관측치를 갖는 s개의 층으로 나뉜 모집단의 경우 각 층에 대해 부트스트래핑을 적용)에 적용될 수 있다.[20] 부트스트랩은 또한 결과의 안정성을 제어하고 확인하는 적절한 방법이다. 대부분의 문제에서 실제 신뢰 구간을 아는 것은 불가능하지만, 부트스트랩은 표본 분산 및 정규성 가정을 사용하여 얻은 표준 구간보다 점근적으로 더 정확하다.[14] 또한 다른 표본 데이터 그룹을 얻기 위해 실험을 반복하는 비용을 피하는 편리한 방법이기도 하다.
해석적인 방법과 비교하여 매우 단순하다는 장점이 있다. 모집단 분포의 복잡한 모수(백분위수점, 비율, 오즈비, 상관계수 등)의 복잡한 추정 함수에 대해 표준 오차나 신뢰 구간을 구하기 위해, 단순히 부트스트랩 표본을 적용하는 것만으로 충분하다.
4. 2. 단점
부트스트랩은 표준 오차와 백분위수, 비율, 오즈비, 상관 계수 등 복잡한 분포 추정량의 신뢰 구간을 도출하는 간단한 방법이라는 장점을 갖는다. 그러나 다음과 같은 단점도 존재한다.[20]
가설 검정 시 가정된 분포가 의심스럽거나, 파라메트릭 가정이 불가능하거나 계산이 복잡한 경우, 부트스트랩이 파라메트릭 추정 대신 사용될 수 있다.
4. 3. 권장 사항
부트스트랩은 표준 오차와 신뢰 구간을 구하는 단순한 방법이지만, 몇 가지 고려해야 할 사항이 있다.
5. 부트스트랩 방식의 종류
부트스트랩 방법은 적용 방식과 목적에 따라 여러 종류로 나뉜다.
- 몬테카를로 방법: 데이터를 복원 추출하여 원래 데이터 집합과 같은 크기의 재표본을 만들고, 이 재표본에서 통계량을 계산한다. 이 과정을 여러 번 반복하여 통계량의 분포를 추정한다.[1]
- 정확한 부트스트랩: 데이터 집합의 모든 가능한 재표본을 전부 고려하는 방식이다. 데이터 집합의 크기가 ''n''일 때, 총 개의 서로 다른 재표본이 존재하여 계산 비용이 매우 크다.[19]
피셔가 제시한 붓꽃 측정값을 사용한 예시에서, 버지니아 붓꽃(Iris virginica)과 버시컬러 붓꽃(Iris versicolor) 두 종을 판별하는 모델을 만들기 위해 꽃받침 길이만을 설명 변수로 하는 로지스틱 회귀 모델을 사용하고 최대 우도 추정을 적용하면 다음과 같은 결과를 얻을 수 있다.
설명 변수 | 최대 우도 추정값 | 표준 오차 |
---|---|---|
절편 | -12.57 | 2.91 |
꽃받침 길이 | 2.01 | 0.47 |
- 모델 식
- * 2.01 × 꽃받침 길이 - 12.57 ≧ 0일 때 : 버지니아 붓꽃으로 판별
- * 2.01 × 꽃받침 길이 - 12.57 < 0일 때 : 버시컬러 붓꽃으로 판별
(이 모델에서는 버지니아 붓꽃 50개 중 37개, 버시컬러 붓꽃 50개 중 36개가 올바르게 판별되었다.)
최대 우도 추정값은 점근적으로 정규 분포를 따른다고 알려져 있지만, 표본 50개의 데이터로 구한 최대 우도 추정값(절편: -12.57, 꽃받침 길이 계수: 2.01)이 정규 분포에 얼마나 가까운지는 부트스트랩법으로 확인할 수 있다.
400px
10000회의 부트스트랩 추출로 추정된 두 파라미터의 커널 밀도 추정 프로파일을 보면, 이 파라미터들의 분포가 정규 분포와는 다소 차이가 있음을 알 수 있다. 이는 표본 수가 유한하여 점근적으로만 정규 분포를 따르기 때문이다. 부트스트랩을 사용하면 최대 우도 추정값에 대한 정규 분포 가정을 하지 않고도 분포를 얻을 수 있으므로, 신뢰 구간 추정 및 가설 검정을 수행할 수 있다.
부트스트랩 표본에서 신뢰 구간을 추정하는 방법으로는 추정량의 변위값을 사용하는 부트스트랩 백분위수 구간이 있다. 이 예시에서 절편과 꽃받침 길이 계수의 부트스트랩 95% 백분위수 구간은 각각 (-20.02, -7.08)과 (1.26, 3.20)이다. 반면 정규 분포를 가정한 95% 신뢰 구간은 최대 우도 추정값 ± 1.96 × 표준 오차로 계산되며, 각각 (-18.26, -6.87)과 (1.10, 2.93)이다. 점근 이론을 이용한 정규 분포 가정 신뢰 구간은 대칭적이며, 부트스트랩 신뢰 구간보다 좁게 나타난다.
이 외에도, 비복원 추출을 사용하는 방법, 이표본 문제, 회귀 분석, 시계열, 계층적 추출, 매개 분석 등 다양한 통계적 문제에 적용되는 복잡한 부트스트랩 방법들이 존재한다. 일변량 분석에서는 복원 추출이 일반적이지만, 표본 수가 적을 때는 모수적 부트스트랩이나 평활 부트스트랩이 더 적절할 수 있다. 회귀 문제에는 다양한 대체 방법이 있다.
5. 1. 케이스 재표본 추출
부트스트래핑의 기본 아이디어는 표본 데이터에서 모집단에 대한 추론(표본 → 모집단)을 표본 데이터를 "재표본 추출"하고 재표본 추출된 데이터에서 표본에 대한 추론을 수행(재표본 추출 → 표본)함으로써 모델링할 수 있다는 것이다.[13] 모집단은 알 수 없으므로 표본 통계량의 모집단 값에 대한 실제 오차는 알 수 없다. 부트스트랩 재표본에서 '모집단'은 실제로 표본이며 이는 알려져 있으므로, 재표본 추출된 데이터에서 '실제' 표본에 대한 추론의 품질(재표본 추출 → 표본)을 측정할 수 있다.더 구체적으로 말하면, 부트스트랩은 원래 데이터를 기반으로 실제 확률 분포 ''J''에 대한 추론을 재표본 추출된 데이터를 기반으로 경험적 분포 ''Ĵ''에 대한 추론과 유사하게 처리하여 작동한다. ''Ĵ''를 알고 있기 때문에 재표본 추출된 데이터를 사용하여 ''Ĵ''에 대한 추론의 정확성을 평가할 수 있다. ''Ĵ''가 ''J''의 합리적인 근사치라면, ''J''에 대한 추론의 품질을 차례로 추론할 수 있다.
부트스트랩은 정규 분포 가정을 사용하지 않고 통계량(예: 평균, 분산)의 분포를 추정하는 데 유용하다(예: z-통계량 또는 t-통계량에 필요). 특히 부트스트랩은 관심 있는 통계량의 분포를 추정하는 데 도움이 되는 분석적 형태나 점근 이론(예: 적용 가능한 중심 극한 정리)이 없을 때 유용하다. 부트스트랩 방법은 분산과 평균의 비율과 같이 대부분의 임의적 수량에 적용될 수 있기 때문이다. 케이스 재표본 추출을 수행하는 방법은 최소한 두 가지가 있다.
# 케이스 재표본 추출을 위한 몬테 카를로 알고리즘은 매우 간단하다. 먼저, 데이터를 복원 추출하여 재표본 추출하며, 재표본 추출의 크기는 원래 데이터 집합의 크기와 같아야 한다. 그런 다음 첫 번째 단계의 재표본 추출을 통해 관심 있는 통계량을 계산한다. 이 루틴을 여러 번 반복하여 통계량의 부트스트랩 분포를 보다 정확하게 추정한다.[1]
# 케이스 재표본 추출의 '정확한' 버전은 비슷하지만 데이터 집합의 모든 가능한 재표본 추출을 철저하게 열거한다. 데이터 집합의 크기가 ''n''일 때 총 개의 서로 다른 재표본 추출이 있으므로 이는 계산 비용이 많이 들 수 있다. 예를 들어 ''n'' = 5, 10, 20, 30의 경우 각각 126, 92378, 6.89 × 1010 및 5.91 × 1016개의 서로 다른 재표본 추출이 있다.[19]
이 기법의 기본 개념과 가치를 보여주기 위해, 피셔가 제시한 붓꽃 측정값을 사용한 예를 살펴보자. 버지니아 붓꽃(Iris virginica)과 버시컬러 붓꽃(Iris versicolor) 2종을 판별하는 모델을 구축하기 위해 꽃받침 길이만을 설명 변수로 하는 로지스틱 회귀 모델을 최대 우도 추정을 사용하여 분석하면, 다음 표와 같은 결과를 얻을 수 있다.
설명 변수 | 최대 우도 추정값 | 표준 오차 |
---|---|---|
절편 | -12.57 | 2.91 |
꽃받침 길이 | 2.01 | 0.47 |
모델 식은 다음과 같다.
- 2.01 × 꽃받침 길이 - 12.57 ≧ 0일 때 버지니아 붓꽃으로 판별
- 2.01 × 꽃받침 길이 - 12.57 < 0일 때 버시컬러 붓꽃으로 판별
(이 모델 식에서는 버지니아 붓꽃은 표본 50개 중 37개, 버시컬러 붓꽃은 50개 중 36개가 올바르게 판별되었다.)
최대 우도 추정값은 점근적으로 정규 분포를 따른다고 알려져 있다. 하지만 표본 50개의 데이터로 구한 최대 우도 추정값(절편: -12.57, 꽃받침 길이 계수: 2.01)이 정규 분포에 얼마나 가까운지는 부트스트랩법으로 확인할 수 있다.
400px
10000회의 부트스트랩 추출로 추정된 두 파라미터의 커널 밀도 추정 프로파일을 보면, 이 파라미터들의 분포가 정규 분포와는 다소 차이가 있음을 알 수 있다. 이는 표본 수가 유한하여 점근적으로만 정규 분포를 따르기 때문이다. 부트스트랩을 사용하면 최대 우도 추정값에 대한 정규 분포 가정을 하지 않고도 분포를 얻을 수 있으므로, 신뢰 구간 추정 및 가설 검정을 수행할 수 있다.
부트스트랩 표본에서 신뢰 구간을 추정하는 방법으로는 추정량의 변위값을 사용하는 부트스트랩 백분위수 구간이 있다. 이 예시에서 절편과 꽃받침 길이 계수의 부트스트랩 95% 백분위수 구간은 각각 (-20.02, -7.08)과 (1.26, 3.20)이다. 반면 정규 분포를 가정한 95% 신뢰 구간은 최대 우도 추정값 ± 1.96 × 표준 오차로 계산되며, 각각 (-18.26, -6.87)과 (1.10, 2.93)이다. 점근 이론을 이용한 정규 분포 가정 신뢰 구간은 대칭적이며, 부트스트랩 신뢰 구간보다 좁게 나타난다.
5. 1. 1. 표본 평균의 분포 추정
bootstrap sampling영어의 기본 개념은 모집단에 대한 추론(표본 → 모집단)을 재표본 데이터에서 수행하는 추론(재표본 → 표본)으로 모델링할 수 있다는 것이다. 모집단은 알 수 없으므로 표본 통계량의 실제 오차는 알 수 없다. 그러나 부트스트랩 재표본에서는 '모집단'이 실제로 표본이 되므로, 재표본 데이터에서 '실제' 표본에 대한 추론의 품질을 측정할 수 있다.[13]예를 들어 전 세계 사람들의 평균 키를 추정한다고 가정해 보자. 모든 사람을 측정할 수 없으므로, 일부 표본(N)을 추출하여 측정한다. 이 표본에서 평균에 대한 추정치를 얻을 수 있지만, 모집단에 대해 추론하려면 계산된 평균의 통계적 분산을 파악해야 한다.
가장 간단한 부트스트랩 방법은 다음과 같다.
1. 원래 데이터 집합에서 컴퓨터를 사용하여 복원 추출 방식으로 크기가 N인 새로운 표본(재표본)을 형성한다.
2. 이 과정을 여러 번(일반적으로 1,000번 또는 10,000번) 반복한다.
3. 각 부트스트랩 표본에 대해 평균("부트스트랩 추정치")을 계산한다.
4. 부트스트랩 평균의 히스토그램을 만들어 표본 평균 분포의 모양을 추정하고, 평균이 표본 간에 얼마나 변하는지 확인한다.
이 방법은 다른 통계량이나 추정량에도 적용할 수 있다.
동전 던지기 실험을 예로 들어보자.
- 동전을 10번 던져 앞면(1) 또는 뒷면(0)이 나오는지 기록한다: .
- 표본 평균은 다음과 같이 계산한다.
:
- t-통계량을 사용하여 표본 평균의 분포를 추정할 수 있지만, 여기서는 부트스트랩을 사용한다.
케이스 리샘플링을 통해 의 분포를 구하는 방법은 다음과 같다.
1. 데이터를 리샘플링하여 부트스트랩 리샘플을 얻는다. (예: )
2. 이 리샘플의 평균(''μ''1\*)을 계산한다.
3. 이 과정을 여러 번 반복하여 부트스트랩 평균(''μ''1\*, ''μ''2\*, ..., ''μ''100\*)을 얻는다.
4. 이는 표본 평균의 경험적 부트스트랩 분포를 나타내며, 이를 통해 가설 검정을 위한 부트스트랩 신뢰 구간을 구할 수 있다.
5. 1. 2. 회귀
회귀 문제에서, ''사례 재표본 추출''은 개별 사례, 즉 종종 데이터 집합의 행을 재표본 추출하는 간단한 방식을 말한다. 회귀 문제의 경우, 데이터 집합이 상당히 크다면 이 간단한 방식이 종종 허용된다.[20] 그러나 이 방법은 비판의 여지가 있다.회귀 문제에서, 설명 변수는 종종 고정되거나, 적어도 반응 변수보다 더 잘 제어하여 관찰된다. 또한 설명 변수의 범위는 그들로부터 얻을 수 있는 정보를 정의한다. 따라서 사례를 재표본 추출하는 것은 각 부트스트랩 표본이 일부 정보를 잃는다는 것을 의미한다. 따라서 다른 부트스트랩 절차를 고려해야 한다.
5. 2. 베이즈 부트스트랩
부트스트래핑은 초기 데이터를 재가중하여 새로운 데이터 세트를 생성하는 방식을 사용하여 베이즈 프레임워크 내에서 해석될 수 있다. ''N''개의 데이터 포인트를 집합으로 주어졌을 때, 새로운 데이터 세트 에서 데이터 포인트 ''i''에 할당된 가중치는 이며, 여기서 는 0으로 시작하고 1로 끝나는 에서 균일하게 분포된 개의 난수를 오름차순으로 정렬한 목록이다. 많은 그러한 데이터 세트 를 고려하여 추론된 매개변수의 분포는 해당 매개변수에 대한 사후 확률 분포로 해석될 수 있다.부트스트랩 방법은 정규성을 요구하지 않고 적은 표본 수(''N'' < 20)에서도 효과적이므로, 매개 변인을 검정하는 방법으로 일반화되고 있다.[55][56] 그러나 배런과 케니의 논리[57]나 소벨 검정에 의해 (어쩌면 부적절하게) 결정되는 경우가 아직도 많다.
5. 3. 스무스 부트스트랩
각 재표본 관측치에 소량의 무작위 잡음(noise)을 추가하는 방식이다. 이 잡음은 보통 평균이 0인 정규분포를 따른다. 이는 데이터의 커널 밀도 추정에서 표본 추출하는 것과 동일하다.[22] 분산이 1인 대칭 커널 밀도 함수를 ''K''라고 할 때, 의 표준 커널 추정량 는 다음과 같다.:
여기서 는 스무딩 매개변수이다. 그리고 해당 분포 함수 추정량 는 다음과 같다.
:[22]
뉴컴의 광속 데이터에는 두 개의 명백한 이상치가 포함되어 있어, 추정할 위치로 평균보다 중앙값이 선호된다. 부트스트랩은 중앙값의 신뢰 구간을 추정하는 데 자주 사용되지만, 중앙값은 이산 통계량이므로 부트스트랩 표본의 분포에서 두드러지게 나타난다.
이러한 중앙값의 이산성을 평활화하기 위해, 매번의 부트스트랩 표본에 N (0, σ2)영어를 따르는 약간의 임의 노이즈를 더할 수 있다. 표본 수 에 대해 으로 한다.

부트스트랩 표본은 중앙값으로 취할 수 있는 값이 제한되어 있어 매우 톱니 모양의 분포를 보인다. 평활화 부트스트랩 표본에서는 이 점이 극복된다. 부트스트랩 분포는 보기 어렵고 직관적으로는 잘못된 것처럼 보이지만, 이로부터 얻을 수 있는 신뢰 구간은 그다지 나쁘지 않다. 95% 백분위수 구간은 부트스트랩 분포에서 (26, 28.5), 평활화 부트스트랩 분포에서 (25.98, 28.46)이다.
5. 4. 파라메트릭 부트스트랩
원본 데이터 집합이 특정 모수 유형의 분포에서 추출한 확률 표본이라는 가정에 기초한다. 이 경우 모수 θ로 모수 모형을 적합시키며, 종종 최대 우도 추정을 사용하고, 이 적합된 모형에서 난수 생성 표본을 추출한다.[23] 보통 추출된 표본은 원래 데이터와 동일한 표본 크기를 갖는다. 그러면 원래 함수 F의 추정치를 로 쓸 수 있다. 이 표본 추출 과정은 다른 부트스트랩 방법과 마찬가지로 여러 번 반복된다. 중심화된 표본 평균을 고려하면, 확률 표본 원래 분포 함수 는 함수 를 갖는 부트스트랩 확률 표본으로 대체되며, 의 확률 분포는 의 확률 분포로 근사된다. 여기서 는 에 해당하는 기댓값이다.[23] 부트스트랩 방법론의 표본 추출 단계에서 모수 모형을 사용하면, 동일한 모형에 대한 추론에 기본 통계 이론을 적용하여 얻은 것과는 다른 절차가 생성된다.일변량 분석에서는 보통 복원 추출로 재표본 추출해도 괜찮다. 하지만 표본 수가 적은 경우에는 모수적 부트스트랩 방법이 더 적절할 수도 있고, 문제에 따라서는 평활 부트스트랩 방법이 적절할 것이다. 회귀 문제의 경우에는 다양한 대체 방법이 있다.
5. 5. 잔차 재표본 추출
회귀 분석 문제에서 부트스트래핑을 할 때 잔차를 재표본 추출하는 방법은 다음과 같다.# 모형을 적합하고, 적합값 와 잔차 를 구한다.
# 각 () 쌍에 대해 (는 설명 변수, 다변량 가능), 무작위로 재표본 추출된 잔차 를 적합값 에 더한다. 모든 에 대해 (1, ..., ) 목록에서 무작위로 선택된 를 사용하여 가상 반응 변수 를 만든다.
# 가상 반응 변수 를 사용하여 모형을 다시 적합하고, 관심 있는 양 (주로 가상의 에서 추정된 매개변수 )을 기록한다.
# 2단계와 3단계를 여러 번 반복한다.
이 방법은 설명 변수의 정보를 보존한다는 장점이 있다. 그러나 어떤 잔차를 재표본 추출할 것인가에 대한 문제가 있다. 원시 잔차를 사용할 수도 있고, 스튜던트화 잔차 (선형 회귀에서)를 사용할 수도 있다. 스튜던트화 잔차를 사용하는 것이 좋다는 주장도 있지만, 실제로는 큰 차이가 없는 경우가 많으며, 두 방법의 결과를 비교하는 것은 쉽다.
5. 6. 가우시안 프로세스 회귀 부트스트랩
데이터가 시간적으로 상관 관계가 있는 경우, 단순한 부트스트래핑은 이러한 상관 관계를 망가뜨린다. 이럴 때는 가우시안 프로세스 회귀(GPR)를 사용하여 확률적 모델을 만들고, 이 모델에서 복제본을 추출할 수 있다. GPR은 베이즈 비선형 회귀 방법의 한 종류이다. 가우시안 프로세스(GP)는 임의 변수들의 모임으로, 이 중 유한한 개수의 변수들은 결합 가우스(정규) 분포를 따른다. GP는 평균 함수와 공분산 함수로 정의되며, 이를 통해 각 유한한 임의 변수 집합에 대한 평균 벡터와 공분산 행렬을 결정한다.[24]'''회귀 모델:'''
: 여기서 는 노이즈를 나타낸다.
'''가우시안 과정 사전 분포:'''
변수 ''x''1, ..., ''x''''n''의 임의의 유한한 집합에 대해, 함수 출력 은 평균 및 공분산 행렬 을 갖는 다변량 가우시안 분포를 따른다.
라고 가정하면, 이다.
여기서 이고, 는 표준 크로네커 델타 함수이다.[24]
'''가우시안 과정 사후 분포:'''
GP 사전 분포에 따라 다음을 얻는다.
:,
여기서 이고 이다.
x1*,...,xs*를 또 다른 유한한 변수 집합이라고 하면, 다음이 성립한다.
:,
여기서 , ,
위 식에 따르면, 출력 ''y'' 또한 다변량 가우시안 분포를 따른다. 따라서,
:
여기서 , , 이고, 은 크기의 항등 행렬이다.[24]
5. 7. 와일드 부트스트랩
와일드 부트스트랩은 Wu (1986)에 의해 처음 제안되었으며, 이분산성을 보이는 모델에 적합하다. 잔차 부트스트랩과 마찬가지로, 설명 변수는 표본 값으로 두고, 잔차 값을 기반으로 반응 변수를 리샘플링하는 방법이다. 즉, 각 복제본에 대해 다음을 기반으로 새로운 를 계산한다.:
따라서 잔차는 평균 0과 분산 1을 갖는 임의 변수 로 임의로 곱해진다. 대부분의 의 분포 (Mammen의 경우 제외)에서 이 방법은 '진짜' 잔차 분포가 대칭이라고 가정하며, 더 작은 표본 크기에 대해 단순 잔차 샘플링보다 이점을 제공할 수 있다. 임의 변수 에 대해 다음과 같은 다양한 형태가 사용된다.
- 표준 정규 분포
- Mammen (1993)이 제안한 분포.
:::
::근사적으로, Mammen의 분포는 다음과 같다.
:::
- 또는 더 간단한 분포로, 라데마허 분포와 연결되어 있다.
:::
무작위로 표본 추출한 잔차의 부호를 다시 무작위로 바꾸는 방법은 잔차의 분포가 대칭임을 가정하며, 원래 표본 수가 적을 경우 장점이 있다.
5. 8. 블록 부트스트랩
블록 부트스트랩은 데이터나 모형의 오차가 서로 상관되어 있을 때 사용되는 방법이다. 이 경우 단순 표본 추출이나 잔차 재표본 추출은 데이터의 상관 관계를 재현할 수 없어 실패한다. 블록 부트스트랩은 블로킹 (통계학)처럼 데이터 블록 내에서 재표본 추출을 수행하여 상관 관계를 재현하려 한다. 블록 부트스트랩은 주로 시간에 따라 상관된 데이터(즉, 시계열)에 사용되지만, 공간 또는 그룹 간에 상관된 데이터(클러스터 데이터)에도 사용 가능하다.일변량 분석에서는 보통 복원 추출로 재표본 추출을 해도 괜찮지만, 표본 수가 적거나 문제에 따라 모수적 부트스트랩이나 평활 부트스트랩 방법이 더 적절할 수도 있다.
5. 8. 1. 시계열: 단순 블록 부트스트랩
(단순) 블록 부트스트랩에서는 관심 변수를 서로 겹치지 않는 블록으로 나누어 재표본을 추출한다.5. 8. 2. 시계열: 이동 블록 부트스트랩
이동 블록 부트스트랩은 퀸쉬(Künsch, 1989)가 소개한 방법으로, 데이터를 길이 ''b''의 겹치는 블록 ''n'' − ''b'' + 1개로 분할한다. 관측치 1부터 b까지는 블록 1, 관측치 2부터 ''b'' + 1까지는 블록 2와 같이 정의한다. 이후 ''n'' − ''b'' + 1개의 블록에서 ''n''/''b''개의 블록을 복원 추출법으로 무작위 추출한다. 선택된 n/b개의 블록을 순서대로 정렬하면 부트스트랩 관측치가 된다.이 부트스트랩은 종속적인 데이터에 적용 가능하지만, 생성 방식 때문에 부트스트랩된 관측치는 더 이상 정상성을 갖지 않는다. 하지만 블록 길이를 무작위로 변경하면 이 문제를 피할 수 있는데, 이 방법을 ''정상 부트스트랩''이라고 한다. 이동 블록 부트스트랩의 다른 변형으로는 마르코프 부트스트랩과 표준 편차 매칭을 통해 연속 블록을 일치시키는 정상 부트스트랩 방법이 있다.[1]
5. 8. 3. 시계열: 최대 엔트로피 부트스트랩
비노드(2006)는[29] 평균 보존 및 질량 보존 제약 조건으로 에르고딕 정리를 만족하는 최대 엔트로피 원리를 사용하여 시계열 데이터를 부트스트랩하는 방법을 제시했다. 이 방법은 계량 경제학 및 컴퓨터 과학 분야에 적용할 수 있으며, 이를 활용하는 R 패키지 '''meboot'''가 있다.[30]5. 8. 4. 군집 데이터: 블록 부트스트랩
군집 자료는 단위당 많은 관측이 이루어지는 데이터를 설명한다. 이는 여러 주에서 많은 기업을 관측하거나, 여러 수업에서 학생들을 관측하는 경우일 수 있다. 이러한 경우, 상관 구조가 단순화되며, 일반적으로 데이터가 그룹/군집 내에서는 상관되어 있지만 그룹/군집 간에는 독립적이라는 가정을 한다. 블록 부트스트랩의 구조는 쉽게 얻을 수 있으며(여기서 블록은 그룹에 해당), 일반적으로 그룹만 재표본 추출되고, 그룹 내의 관측치는 변경되지 않은 채로 남겨진다. 캐머런 외(2008)는 선형 회귀에서 군집 오차에 대해 이를 논의한다.[31]6. 계산 효율성 향상 방법
부트스트랩은 강력한 기법이지만 시간과 메모리 측면에서 상당한 컴퓨팅 자원을 필요로 할 수 있다. 이러한 부담을 줄이기 위해 몇 가지 기법이 개발되었다. 이러한 기법들은 일반적으로 다양한 유형의 부트스트랩 방식 및 다양한 통계량 선택과 결합될 수 있다.
6. 1. 병렬 처리
각 부트스트랩 표본에 대한 관심 통계량은 다른 부트스트랩 표본에 의존하지 않는다. 따라서 이러한 계산은 개별 CPU 또는 계산 노드에서 수행될 수 있으며, 개별 노드의 결과는 최종 분석을 위해 집계되므로 병렬 처리가 가능하다.6. 2. 푸아송 부트스트랩
푸아송 부트스트랩은 모든 가 평균 1을 갖는 푸아송 변수로 독립적이고 동일하게 분포되어 있다고 가정하여 샘플을 추출한다.[32] 이는 이항 분포의 극한이 푸아송 분포이기 때문이다.:
Hanley와 MacGibbon은 푸아송 부트스트랩이 R 및 S-Plus 프로그래밍 언어의 부트스트랩 패키지가 없는 SAS 및 SPSS와 같은 소프트웨어를 사용하는 비통계학자에게 유용할 수 있다고 제안했다.[32] 이들은 n이 충분히 클 경우 결과가 비모수적 부트스트랩 추정치와 비교적 유사하다고 보고했지만, 푸아송 부트스트랩은 실제 응용 분야에서 거의 사용되지 않았다고 언급한다.
푸아송 부트스트랩의 또 다른 장점은 의 독립성으로 인해 스트림으로 처리해야 하는 대규모 데이터 세트에 이 방법을 더 쉽게 적용할 수 있다는 것이다.[33]
"순차적 부트스트랩"이라고 하는 푸아송 부트스트랩을 개선하는 방법은 고유 값의 비율이 원래 표본 크기 n의 ≈0.632가 되도록 처음 샘플을 추출하는 것이다.[34] 이는 거리 내에 있는 주요 경험적 특성을 가진 분포를 제공한다.[34] 경험적 조사를 통해 이 방법이 좋은 결과를 얻을 수 있음이 밝혀졌다.[35] 이는 축소된 부트스트랩 방법과 관련이 있다.[36]
6. 3. Bag of Little Bootstraps
Bag of Little Bootstraps (BLB)[37]는 대규모 데이터 집합에서 부트스트래핑을 할 때 계산 부담을 줄이기 위한 방법이다. 모든 표본 데이터를 메모리에 보관하고 다시 표본을 추출하는 것이 계산상 불가능한 경우가 많기 때문이다.BLB는 데이터를 사전 집계하는 방식으로 작동한다. 먼저 데이터 집합을 동일한 크기의 버킷 개로 나눈다. 그런 다음 각 버킷 내의 데이터를 집계한다. 이렇게 사전 집계된 데이터 집합을 이용하여 대체 추출 방식으로 표본을 추출한다.
BLB는 블록 부트스트랩과 유사하지만, 블록의 동기와 정의는 매우 다르다. 특정 가정 하에서, BLB의 표본 분포는 전체 부트스트랩 시나리오를 근사해야 한다. 한 가지 제약 조건은 버킷의 수 이며 여기서 이다. 저자들은 일반적인 해결책으로 을 사용할 것을 권장한다.
7. 통계량 선택
모집단 모수의 점 추정량에 대한 부트스트랩 분포는 해당 모수가 모집단 분포의 함수로 표현될 수 있는 경우 모수의 실제 값에 대한 부트스트랩된 신뢰 구간을 생성하는 데 사용된다.
모수는 여러 점 추정량으로 추정된다. 자주 사용되는 점 추정량에는 평균 불편 최소 분산 추정량, 중앙값 불편 추정량, 베이즈 추정량 (예: 사후 분포의 최빈값, 중앙값, 평균), 최대 우도 추정량이 있다.
점근 이론에 따르면 베이즈 점 추정량과 최대 우도 추정량은 표본 크기가 무한할 때 좋은 성능을 보이지만, 유한 표본을 가진 실제 문제에서는 다른 추정량이 더 나을 수 있다. 점근 이론은 부트스트랩 추정량의 성능을 향상시키는 기술을 제안하며, 최대 우도 추정량의 부트스트래핑은 피벗량과 관련된 변환을 사용하여 종종 개선될 수 있다.[38]
8. 부트스트랩 분포에서 신뢰 구간 도출
모수 추정량의 부트스트랩 분포는 해당 모집단 모수에 대한 신뢰 구간을 계산하는 데 자주 사용된다.[1] 신뢰 구간을 구성하는 다양한 방법이 제안되었지만, 어떤 방법이 최선인지에 대한 의견은 일치하지 않는다.
부트스트랩 방법은 모집단의 추정량(분산 등)의 성질을, 근사 분포에 따라 표본화했을 때의 성질을 계산하여 추정하는 방법이다. 근사 분포로는 측정값으로부터 구해지는 경험 분포를 사용하는 것이 표준적이다. 또한 가설 검정에 사용하는 경우도 있다. 가정되는 분포가 의심스러운 경우나, 파라메트릭한 가정이 불가능하거나 매우 복잡한 계산을 필요로 하는 경우에 파라메트릭한 가정에 기초한 추정 대신에 사용된다.
부트스트랩 방법의 장점은 해석적인 방법과 비교하여 매우 단순하다는 것이다. 모집단 분포의 복잡한 모수(백분위수점, 비율, 오즈비, 상관계수 등)의 복잡한 추정 함수에 대해 표준 오차나 신뢰 구간을 구하기 위해, 단순히 부트스트랩 표본을 적용하는 것만으로 충분하다.
한편 부트스트랩 방법의 단점으로는 점근적으로 일치하는 경우에는 유한 표본이 보장되지 않고, 낙관적으로 되는 경향이 있다는 점이 지적된다.
피셔가 제시한 붓꽃 데이터 세트를 사용한 예시를 통해 부트스트랩 신뢰 구간을 설명할 수 있다. 버지니아 붓꽃과 버시컬러 붓꽃 2종을 꽃받침 길이만을 설명 변수로 하여 판별하는 로지스틱 회귀 모델을 생각해보자. 최대 우도 추정을 사용하면, 다음 표와 같이 파라미터의 최대 우도 추정 값과 표준 오차를 얻을 수 있다.
설명 변수 | 최대 우도 추정값 | 표준 오차 |
---|---|---|
절편 | ||
2.91 | ||
꽃받침 길이 | 2.01 | 0.47 |
모델 식은 다음과 같다.
- 2.01 × 꽃받침 길이 - 12.57 ≧ 0일 때 버지니아 붓꽃으로 판별
- 2.01 × 꽃받침 길이 - 12.57 < 0일 때 버시컬러 붓꽃으로 판별
(이 모델에서는 버지니아 붓꽃은 표본 50개 중 37개, 버시컬러 붓꽃은 50개 중 36개가 올바르게 판별되었다.)
최대 우도 추정값은 점근적으로 정규 분포를 따른다고 알려져 있다. 하지만 표본 수가 유한하기 때문에 부트스트랩을 사용하여 추정량의 분포를 더 정확하게 파악할 수 있다. 10000회의 부트스트랩 추출을 통해 얻은 절편과 꽃받침 길이 계수의 커널 밀도 추정 프로파일은 정규 분포와 다소 차이가 있음을 보여준다.
부트스트랩 표본에서 신뢰 구간을 추정하는 방법으로, 추정량의 변위값을 사용하는 부트스트랩 백분위수 구간이 있다. 이 예시에서 절편과 꽃받침 길이 계수의 부트스트랩 95% 백분위수 구간은 각각 (-20.02, -7.08)과 (1.26, 3.20)이다. 반면, 정규 분포를 가정한 95% 신뢰 구간은 각각 (-18.26, -6.87)과 (1.10, 2.93)으로, 부트스트랩을 사용한 신뢰 구간보다 좁고 대칭적이다.
8. 1. 바람직한 속성
DiCiccio와 Efron의 부트스트랩 신뢰구간 방법에 대한 조사와 그에 따른 논의는 신뢰구간이 갖춰야 할 몇 가지 바람직한 속성들을 나열하는데, 일반적으로 이 모든 속성이 동시에 충족되지는 않는다.- '''변환 불변성''' - 변환된 데이터(예: 로그를 취하는 것)를 부트스트래핑하여 얻은 신뢰구간은 변환되지 않은 데이터를 부트스트래핑하여 얻은 신뢰구간을 변환한 것과 이상적으로는 같아야 한다.
- 신뢰구간은 '''유효'''하거나 '''일치'''해야 한다. 즉, 모수가 공칭 수준 인 신뢰구간에 포함될 확률은 와 같거나 적어도 확률적으로 에 수렴해야 한다. 후자의 기준은 Hall의 프레임워크를 사용하여 개선되고 확장되었다.[54] 이러한 개선은 참된 커버리지 확률이 공칭 값에 얼마나 빠르게 접근하는지에 따라 방법을 구별하기 위한 것으로, 여기서 방법이 (DiCiccio와 Efron의 용어를 사용하여) 근사 오차 항이 이면 '''1차 정확'''하고, 오차 항이 이면 '''2차 정확'''하다. 또한, 방법은 추정된 부트스트랩 임계점이 참된(알 수 없는) 점으로 수렴하는 속도에 따라 구별되며, 이 속도가 일 때 방법은 '''2차 보정'''된다.
- 논문에 대한 토론에서 Gleser는 이전 항목의 점근적 설명의 한계는 항이 모수 또는 참된 분포에서 반드시 균일하지 않다는 점이라고 주장한다.
8. 2. 편향, 비대칭 및 신뢰 구간
부트스트랩 분포와 표본이 체계적으로 일치하지 않을 수 있으며, 이 경우 편향이 발생할 수 있다.[54] 추정량의 부트스트랩 분포가 대칭인 경우, 백분위수 신뢰 구간이 자주 사용된다. 이러한 구간은 특히 최소 위험의 중앙값-비편향 추정량(절대값 손실 함수와 관련하여)에 적합하다. 부트스트랩 분포의 편향은 신뢰 구간의 편향으로 이어진다. 반면 부트스트랩 분포가 비대칭인 경우, 백분위수 신뢰 구간은 종종 부적절하다.8. 3. 부트스트랩 신뢰 구간 방법
부트스트랩 (통계학)에서 신뢰 구간을 구성하는 데는 여러 가지 방법이 있다. 모수 추정량의 부트스트랩 분포는 해당 모집단 모수에 대한 신뢰 구간을 계산하는 데 자주 사용된다.[1] 하지만 어떤 방법이 최선인지에 대한 의견은 일치하지 않는다.- '''기본 부트스트랩''' ('''역 백분위수 구간'''[39]): 신뢰 구간을 구성하는 간단한 방식이다. 매개변수의 부트스트랩 분포에서 경험적 분위수를 가져온다(Davison and Hinkley 1997, equ. 5.6 p. 194 참조).[38] 공식은 다음과 같다.
::
::여기서 는 부트스트랩된 계수 의 백분위수를 나타낸다.
- '''백분위수 부트스트랩''': 기본 부트스트랩과 유사하게 부트스트랩 분포의 백분위수를 사용하지만, 다른 공식을 사용한다(왼쪽 및 오른쪽 분위수의 반전을 참고).
::
::여기서 는 부트스트랩된 계수 의 백분위수를 나타낸다.
::Davison and Hinkley (1997, equ. 5.18 p. 203) 및 Efron and Tibshirani (1993, equ 13.5 p. 171)을 참조.
::이 방법은 모든 통계량에 적용할 수 있다. 부트스트랩 분포가 관측된 통계량에 대해 대칭이고 중심을 이루는 경우,[40] 표본 통계량이 중앙값-무편향이고 최대 집중도(또는 절대값 손실 함수에 대한 최소 위험)를 갖는 경우 잘 작동한다. 작은 표본(예: 50 미만)에서는 기본/역 백분위수 및 백분위수 신뢰 구간이 너무 좁아지는 경향이 있다.[41] 예를 들어, 20개의 점으로 구성된 표본에서 90% 신뢰 구간은 실제 분산을 78%의 시간 동안만 포함한다. 기본/역 백분위수 신뢰 구간은 수학적으로 정당화하기 쉽지만,[42] 백분위수 신뢰 구간보다 정확도가 떨어지는 경우가 많아 일부 저자는 사용을 권장하지 않는다.
- '''Student화된 부트스트랩''' ('''부트스트랩-t'''): 표준 신뢰 구간과 유사하게 계산되지만, 정규 또는 스튜던트 근사의 분위수를 Student's t-test의 부트스트랩 분포의 분위수로 대체한다(Davison and Hinkley 1997, equ. 5.7 p. 194 및 Efron and Tibshirani 1993 equ 12.22, p. 160 참조).
::
::여기서 는 부트스트랩된 Student's t-test 의 백분위수를 나타내고, 는 원래 모델의 계수의 추정된 표준 오차이다.
::Student화된 테스트는 부트스트랩된 통계량이 피벗이므로(즉, t-검정이 점근적으로 N(0,1) 분포를 따르므로 불필요한 매개변수에 의존하지 않음) 백분위수 부트스트랩과 달리 최적의 속성을 가진다.
- '''편향 보정 부트스트랩''': 부트스트랩 분포의 편향을 조정한다.
- '''가속 부트스트랩''' ('''BCa 부트스트랩'''): Efron(1987)이 개발한 방법으로,[43] 부트스트랩 분포의 편향과 왜도를 모두 조정한다. 이 접근 방식은 다양한 설정에서 정확하고, 합리적인 계산 요구 사항을 갖추고 있으며, 합리적으로 좁은 구간을 생성한다.[43]
피셔가 제시한 붓꽃 데이터 세트를 사용한 예시를 통해 부트스트랩 신뢰 구간을 설명할 수 있다. 버지니아 붓꽃과 버시컬러 붓꽃 2종을 꽃받침 길이만을 설명 변수로 하여 판별하는 로지스틱 회귀 모델을 생각해보자. 최대 우도 추정을 사용하면, 다음 표와 같이 파라미터의 최대 우도 추정 값과 표준 오차를 얻을 수 있다.
설명 변수 | 최대 우도 추정값 | 표준 오차 |
---|---|---|
절편 | -12.57 | 2.91 |
꽃받침 길이 | 2.01 | 0.47 |
모델 식은 다음과 같다.
- 2.01 × 꽃받침 길이 - 12.57 ≧ 0일 때 버지니아 붓꽃으로 판별
- 2.01 × 꽃받침 길이 - 12.57 < 0일 때 버시컬러 붓꽃으로 판별
(이 모델에서는 버지니아 붓꽃은 표본 50개 중 37개, 버시컬러 붓꽃은 50개 중 36개가 올바르게 판별되었다.)
최대 우도 추정값은 점근적으로 정규 분포를 따른다고 알려져 있다. 하지만 표본 수가 유한하기 때문에 부트스트랩을 사용하여 추정량의 분포를 더 정확하게 파악할 수 있다. 10000회의 부트스트랩 추출을 통해 얻은 절편과 꽃받침 길이 계수의 커널 밀도 추정 프로파일은 정규 분포와 다소 차이가 있음을 보여준다.
부트스트랩 표본에서 신뢰 구간을 추정하는 방법으로, 추정량의 변위값을 사용하는 부트스트랩 백분위수 구간이 있다. 이 예시에서 절편과 꽃받침 길이 계수의 부트스트랩 95% 백분위수 구간은 각각 (-20.02, -7.08)과 (1.26, 3.20)이다. 반면, 정규 분포를 가정한 95% 신뢰 구간은 각각 (-18.26, -6.87)과 (1.10, 2.93)으로, 부트스트랩을 사용한 신뢰 구간보다 좁고 대칭적이다.
9. 부트스트랩 가설 검정
에프론(Efron)과 팁시라니(Tibshirani)[1]는 두 독립 표본의 평균을 비교하기 위한 다음 알고리즘을 제안한다.
을 표본 평균 와 표본 분산 을 가진 분포 F에서 추출한 랜덤 표본이라고 가정한다. 을 평균 와 분산 을 가진 분포 G에서 추출한 또 다른 독립 랜덤 표본이라고 가정한다.
1. 검정 통계량 을 계산한다.
2. 값들이 및 인 두 개의 새로운 데이터 집합을 만든다. 여기서 는 결합된 표본의 평균이다.
3. 에서 크기 의 랜덤 표본()을 복원 추출하고, 에서 크기 의 다른 랜덤 표본()을 복원 추출한다.
4. 검정 통계량 을 계산한다.
5. 3단계와 4단계를 번 반복하여(예: ) 검정 통계량의 개 값을 수집한다.
6. p-값을 로 추정한다. 여기서 는 ''condition''이 참일 때, 그렇지 않으면 0이다.
10. 응용 예시
로널드 피셔가 제시한 붓꽃 데이터 세트를 사용하여 붓꽃의 두 종(버지니아 붓꽃, 버시컬러 붓꽃)을 판별하는 모델을 구축하는 예시를 통해 부트스트랩 방법의 기본 개념을 설명한다.
꽃받침의 길이만을 설명 변수로 하여 두 종을 판별하는 로지스틱 회귀 모델을 만들고, 최대 우도 추정을 사용하면 다음 표와 같은 결과를 얻을 수 있다.
설명 변수 | 최대 우도 추정값 | 표준 오차 |
---|---|---|
절편 | -12.57 | 2.91 |
꽃받침 길이 | 2.01 | 0.47 |
모델 식은 다음과 같다.
- 2.01 × 꽃받침 길이 - 12.57 ≧ 0일 때 버지니아 붓꽃으로 판별
- 2.01 × 꽃받침 길이 - 12.57 < 0일 때 버시컬러 붓꽃으로 판별
이 모델을 통해 버지니아 붓꽃은 50개 중 37개, 버시컬러 붓꽃은 50개 중 36개가 올바르게 판별되었다.
최대 우도 추정값은 점근적으로 정규 분포를 따른다고 알려져 있다. 부트스트랩법을 사용하여 이 추정값이 얼마나 정규 분포에 가까운지 확인할 수 있다.
부트스트랩 절차:1. 원 데이터에서 n개의 표본을 복원 추출한다. (n은 원 데이터의 표본 수)
2. 최대 우도법으로 로지스틱 회귀 모델에 적용한다.
3. 이 과정을 B회 반복한다.
4. 계산된 "추정량의 표본 분포"는 원래 표본 분포의 근사가 된다.
400px
위 그림은 10000회의 부트스트랩 추출로 추정된 두 파라미터의 커널 밀도 추정 프로파일이다. 이 분포는 정규 분포가 아닌데, 이는 표본 수가 유한하기 때문이다. 하지만 부트스트랩을 통해 얻은 분포를 사용하면 최대 우도 추정값의 신뢰 구간 추정 및 가설 검정을 수행할 수 있다.
부트스트랩 표본에서 신뢰 구간을 추정하는 방법으로 부트스트랩 백분위수 구간을 사용할 수 있다. 이 예시에서 절편과 꽃받침 길이 계수의 부트스트랩 95% 백분위수 구간은 각각 (-20.02, -7.08)와 (1.26, 3.20)이다.
정규 분포를 가정한 95% 신뢰 구간은 최대 우도 추정값 ± 1.96 × 표준 오차로 계산되며, 각각 (-18.26, -6.87)과 (1.10, 2.93)이다. 정규 분포를 가정하여 구한 신뢰 구간은 대칭이며, 부트스트랩을 사용한 신뢰 구간보다 좁다.
비복원 추출, 이표본 문제, 회귀 분석, 시계열, 계층적 추출, 매개 분석 등 더 복잡한 문제에도 부트스트랩법을 적용할 수 있다. 부트스트랩 방법은 정규성을 요구하지 않고 적은 표본 수(N < 20)에서도 효과적이므로, 매개 변인 검정에 널리 사용된다.[55][56]
10. 1. 스무딩 부트스트랩
사이먼 뉴컴의 광속 데이터에 스무딩 부트스트랩을 적용하여 표본 중앙값의 신뢰 구간을 추정할 수 있다. 뉴컴의 데이터에는 두 개의 이상치가 있어 표본 평균보다 표본 중앙값이 더 강건한 통계량으로 선호된다.[44]스무딩 부트스트랩은 각 부트스트랩 표본에 작은 양의 임의 노이즈를 추가하여 부트스트랩 분포의 이산성을 줄이는 방법이다. 보통 표본 크기 ''n''에 대해 표준 편차 의 노이즈를 추가하며, 이는 종종 자유도가 ''n-1''인 스튜던트 t-분포에서 추출된다.[45] 이렇게 하면 표본 평균의 분산에 대한 거의 편향되지 않은 추정량을 얻을 수 있다.[46] 즉, 부트스트랩 분포에서 추출된 표본이 평균적으로 전체 모집단의 분산과 동일한 분산을 갖게 된다.
위 그림은 표본 중앙값의 부트스트랩 분포와 스무딩 부트스트랩 분포의 히스토그램을 나타낸다. 표본 중앙값의 부트스트랩 분포는 소수의 값만 갖는 반면, 스무딩 부트스트랩 분포는 더 풍부한 지지를 갖는다.[47]
뉴컴의 광속 데이터 예에서 모집단 중앙값에 대한 부트스트랩된 95% (백분위수) 신뢰 구간은 (26, 28.5)이며, 스무딩 부트스트랩에 대한 구간은 (25.98, 28.46)으로 나타났다.
11. 추론에 대한 다른 접근 방식과의 관계
부트스트랩은 잭나이프, 교차 검증과 같은 다른 재표본 추출 방법들과 구별된다. 잭나이프는 표본 통계량의 편향과 분산을 추정하는 데 사용되며, 교차 검증은 한 부분 표본에서 추정된 매개변수를 다른 부분 표본에 적용하는 방법이다. 부트스트랩 집계(배깅)는 여러 부트스트랩 표본에서 훈련된 모델에서 얻은 모델 예측을 평균하는 것을 기반으로 하는 메타 알고리즘이다.
소수의 데이터 항목(''r''개)을 사용하여 필요한 특성을 측정할 수 있는 상황에서, 전체 표본을 기반으로 하는 해당 통계량을 공식화할 수 있다. 주어진 ''r''-표본 통계량을 사용하여 부트스트래핑과 유사한 방식으로 ''n''-표본 통계량을 만들 수 있는데, 이 절차는 특정 좋은 속성을 갖는 것으로 알려져 있으며 결과는 U-통계량이다. 표본 평균과 표본 분산은 ''r''=1 및 ''r''=2에 해당하는 이러한 형태이다.
11. 1. 다른 재표본 추출 방법과의 관계
부트스트랩은 다음과 같은 재표본 추출 방법들과 구별된다.- 잭나이프: 표본 통계량의 편향과 분산을 추정하는 데 사용된다.
- 교차 검증: 한 부분 표본에서 추정된 매개변수(예: 회귀 가중치, 요인 적재)를 다른 부분 표본에 적용하는 방법이다.
부트스트랩 집계(배깅)는 여러 부트스트랩 표본에서 훈련된 모델에서 얻은 모델 예측을 평균하는 것을 기반으로 하는 메타 알고리즘이다.
더 자세한 내용은 재표본 추출 문서를 참조.
11. 2. U-통계량
명백한 통계량을 사용하여 소수의 데이터 항목, 즉 ''r''개를 사용하여 필요한 특성을 측정할 수 있는 상황에서, 전체 표본을 기반으로 하는 해당 통계량을 공식화할 수 있다. 주어진 ''r''-표본 통계량을 사용하여 부트스트래핑과 유사한 방식으로(크기가 ''r''인 모든 하위 표본에 대한 통계량의 평균을 구함) ''n''-표본 통계량을 만들 수 있다. 이 절차는 특정 좋은 속성을 갖는 것으로 알려져 있으며 결과는 U-통계량이다. 표본 평균과 표본 분산은 ''r''=1 및 ''r''=2에 해당하는 이러한 형태이다.12. 점근 이론
부트스트랩은 특정 조건에서 바람직한 점근적 성질을 갖는다. 가장 흔히 설명되는 점근적 성질은 부트스트랩 경험적 과정의 표본 경로의 약한 수렴/일치성, 그리고 부트스트랩에서 파생된 신뢰 구간의 유효성이다.
부트스트랩 방법은 모집단의 추정량(분산 등)의 성질을, 근사 분포에 따라 표본화했을 때의 성질을 계산하여 추정하는 방법이다. 여기서 근사 분포로는 측정값으로부터 구해지는 경험 분포를 사용하는 것이 일반적이다. 가설 검정에 사용되는 경우도 있는데, 가정되는 분포가 의심스럽거나, 파라메트릭한 가정이 불가능하거나 매우 복잡한 계산을 필요로 하는 경우에 사용된다.
부트스트랩 방법의 장점은 해석적인 방법에 비해 매우 단순하다는 것이다. 모집단 분포의 복잡한 모수(백분위수점, 비율, 오즈비, 상관계수 등)의 복잡한 추정 함수의 표준 오차나 신뢰 구간을 구하기 위해, 단순히 부트스트랩 표본을 적용하는 것만으로 충분하다.
하지만 부트스트랩 방법은 점근적으로 일치하는 경우에는 유한 표본이 보장되지 않고, 낙관적으로 되는 경향이 있다는 단점이 있다.
12. 1. 확률적 수렴
이 문단은 반 데어 바르트와 웰너[48] 및 코소록[49]의 확률적 수렴에 대한 설명을 요약한다. 부트스트랩은 어떤 집합 로 인덱싱된 확률 과정, 즉 일련의 확률 변수를 정의하며, 여기서 는 일반적으로 실수선 () 또는 함수군이다. 관심 있는 과정은 유계 표본 경로, 즉 L-infinity ()의 표본 경로를 갖는 과정으로, 에서 로 가는 모든 균등 유계 함수의 집합이다. 균등 거리를 갖춘 는 거리 공간이며, 일 때 의 두 부분 공간이 특히 중요하다. 은 에서 단위 구간 [0,1]로 가는 모든 연속 함수의 공간이고, 은 에서 [0,1]로 가는 모든 cadlag 함수의 공간이다. 이는 이 모든 연속 확률 변수의 분포 함수를 포함하고, 이 모든 확률 변수의 분포 함수를 포함하기 때문이다. 부트스트랩의 일관성에 대한 진술은 부트스트랩 과정의 표본 경로가 거리 공간 또는 이의 일부 부분 공간, 특히 또는 의 확률적 원소로 수렴하는 것에 대한 진술이다.12. 2. 일관성
부트스트랩은 특정 조건 하에서 바람직한 점근적 성질을 갖는다. Horowitz는 '''일관성'''을 다음과 같이 정의한다. 부트스트랩 추정량 은 각 에 대해 가 일 때 0으로 확률 수렴하면 [통계량 에 대해] 일관성을 가진다.[50] 여기서 은 원래 표본에서 관심 있는 통계량의 분포이고, 은 통계량의 실제 분포이지만 알려지지 않은 분포이며, 는 의 점근 분포 함수이고, 는 분포 함수에서 색인 변수이다. (즉, 이다.)Horowitz는 Mammen의 정리를 사용하여[51] 특정 일반적인 형태의 통계량에 대한 일관성을 확인하기 더 쉬운 필요충분조건을 제공하는 것을 권장한다. 특히 을 확률 표본이라고 할 때, 만약 이 숫자 시퀀스 과 에 대해 성립한다면, 누적 분포 함수의 부트스트랩 추정량은 이 분포 수렴하여 표준 정규 분포에 수렴할 때만 경험적 누적 분포 함수를 추정한다.
12. 3. 강한 일관성
위에서 설명한 (외부) 확률 수렴은 '''약한 일치성'''이라고도 한다. 부트스트랩은 약간 더 강력한 가정을 통해 (외부) 확률 수렴을 (외부) 거의 확실한 수렴으로 대체하는 '''강한 일치성'''을 가짐을 보일 수도 있다.[49] 단일 유형의 일치성만 설명되는 경우 이는 일반적으로 약한 일치성이다. 이는 부트스트랩에서 파생된 신뢰 띠가 점근적으로 유효하므로 대부분의 통계적 응용 분야에 적합하다.[49]12. 4. 중심 극한 정리를 사용하여 일관성 보이기
부트스트랩 방법은 모집단의 추정량(분산 등)의 성질을, 근사 분포에 따라 표본화했을 때의 성질을 계산하여 추정하는 방법이다. 근사 분포로는, 측정값으로부터 구해지는 경험 분포를 사용하는 것이 표준적이다.참조
[1]
서적
An Introduction to the Bootstrap
http://lib.stat.cmu.[...]
Chapman & Hall/CRC
2012-07-12
[2]
논문
Second thoughts on the bootstrap
https://projecteucli[...]
2003
[3]
논문
Bootstrap methods in econometrics
2019
[4]
간행물
Introduction to Neyman and Pearson (1933) On the Problem of the Most Efficient Tests of Statistical Hypotheses
Springer-Verlag
[5]
논문
Bootstrap methods: Another look at the jackknife
[6]
논문
Approximate tests of correlation in time-series
1949
[7]
논문
Bias and confidence in not-quite large samples
[8]
문서
The infinitesimal jackknife
[9]
논문
Some asymptotic theory for the bootstrap
[10]
논문
On the asymptotic accuracy of Efron's bootstrap
https://www.jstor.or[...]
[11]
논문
The Bayesian bootstrap
[12]
논문
More accurate confidence intervals in exponential families
https://academic.oup[...]
2024-01-31
[13]
문서
Resampling Methods
Birkhauser
[14]
논문
Bootstrap confidence intervals (with Discussion)
[15]
논문
'[Bootstrap: More than a Stab in the Dark?]: Comment'
[16]
논문
Does PLS have advantages for small sample size or non-normal data?
[17]
문서
Resampling methods of estimation
Elsevier
[18]
논문
Bootstrap of the mean in the infinite variance case
[19]
웹사이트
How many different bootstrap samples are there? Statweb.stanford.edu
http://statweb.stanf[...]
2019-12-09
[20]
웹사이트
21 Bootstrapping Regression Models
https://www.sagepub.[...]
[21]
논문
The Bayesian bootstrap
[22]
논문
Optimizing the smoothed bootstrap
1995
[23]
서적
A modern introduction to probability and statistics : understanding why and how
Springer
2005
[24]
논문
Gaussian process regression bootstrapping: exploring the effects of uncertainty in time course data
2009
[25]
논문
Jackknife, bootstrap and other resampling methods in regression analysis (with discussions)
http://dml.cz/bitstr[...]
[26]
논문
Bootstrap and wild bootstrap for high dimensional linear models
1993-03
[27]
논문
The Jackknife and the Bootstrap for General Stationary Observations
[28]
논문
The Stationary Bootstrap
[29]
논문
Maximum entropy ensembles for time series inference in economics
2006
[30]
논문
Maximum entropy bootstrap for time series: The meboot R package
2009
[31]
논문
Bootstrap-based improvements for inference with clustered errors
http://www.nber.org/[...]
[32]
논문
Creating non-parametric bootstrap samples using Poisson frequencies
[33]
웹사이트
Estimating Uncertainty for Massive Data Streams
http://www.unofficia[...]
2024-08-14
[34]
논문
Second-order correctness of the Poisson bootstrap
[35]
논문
The sequential bootstrap: a comparison with regular bootstrap
[36]
논문
Reduced bootstrap for the median
[37]
논문
A scalable bootstrap for massive data
[38]
서적
Bootstrap methods and their application
Cambridge University Press
[39]
arXiv
What Teachers Should Know about the Bootstrap: Resampling in the Undergraduate Statistics Curriculum
[40]
서적
The jackknife, the bootstrap, and other resampling plans
Society of Industrial and Applied Mathematics CBMS-NSF Monographs
[41]
서적
Design and Analysis of Ecological Experiments
https://archive.org/[...]
CRC Press
[42]
서적
Mathematical Statistics and Data Analysis
[43]
논문
Better Bootstrap Confidence Intervals
Journal of the American Statistical Association, Vol. 82, No. 397
[44]
웹사이트
Data from examples in Bayesian Data Analysis
http://www.stat.colu[...]
[45]
서적
Mathematical Statistics with Resampling and R
https://onlinelibrar[...]
John Wiley & Sons, Inc.
2018-08-03
[46]
서적
Unbiased estimators and their applications. Vol. 1: Univariate case
Kluwer Academic Publishers
[47]
논문
Alternative Smoothed Bootstraps
http://dx.doi.org/10[...]
1990-07
[48]
서적
Weak Convergence and Empirical Processes With Applications to Statistics
Springer Science+Business Media
[49]
서적
Introduction to Empirical Processes and Semiparametric Inference
Springer Science+Business Media
[50]
서적
Asymptotic Statistics
Cambridge University Press
[51]
서적
When Does Bootstrap Work?: Aysmptotic Results and Simulations
Springer-Verlag
[52]
웹사이트
Some results based on the Lindeberg central limit theorem
https://people.stat.[...]
2023-12-29
[53]
서적
Advising on research methods: A consultant's companion
Johannes van Kessel Publishing
[54]
논문
Theoretical comparison of bootstrap confidence intervals
[55]
웹사이트
Testing of Mediation Models in SPSS and SAS
http://www.comm.ohio[...]
The Ohio State University
2024-07-17
[56]
웹사이트
Calculation for the Sobel Test
http://www.psych.ku.[...]
University of Kansas
2007-12-21
[57]
웹사이트
SEM: Mediation
http://davidakenny.n[...]
2024-07-17
[58]
서적
An Introduction to the Bootstrap
http://lib.stat.cmu.[...]
[59]
문서
Second Thoughts on the Bootstrap – Bradley Efron, 2003
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com