선택 편향
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
선택 편향은 표본 추출, 시간 간격, 노출, 데이터, 연구, 탈락, 관찰자 선택, 자원자 등의 다양한 유형으로 발생하며, 연구 결과의 왜곡을 초래하는 문제이다. 표본 추출 편향은 모집단의 비무작위 표본으로 인해 발생하고, 탈락 편향은 연구 참여자의 탈락으로 인해 발생한다. 선택 편향은 기존 데이터의 통계적 분석만으로는 극복하기 어렵지만, 특수한 경우 Heckman 보정을 사용할 수 있다. 선택 편향은 출판 편향, 확증 편향, 제외 편향과 같은 문제들과 관련이 있다.
더 읽어볼만한 페이지
- 편향 - 알고리즘 편향
알고리즘 편향은 데이터 수집 및 설계, 사용 방식 등 다양한 단계에서 특정 집단에 불리한 결과를 초래하는 체계적인 오류로, 인종, 성별 등 민감한 속성에 따라 불공정성을 야기하며, 투명하고 책임감 있는 개발과 지속적인 연구 및 규제가 요구된다. - 편향 - 공정성
공정성은 기계 학습 알고리즘의 편향으로 인한 사회적 불평등 문제 해결을 위한 개념과 방법론으로, 다양한 공정성 기준과 편향 완화 전략이 제시되지만, 기술적 노력과 함께 사회적 논의와 윤리적 고려가 필요하다. - 심리학에 관한 - 허버트 사이먼
허버트 사이먼은 제한된 합리성 개념을 제시하고 조직 내 의사결정 과정을 연구하여 노벨 경제학상을 수상한 미국의 경제학자, 인지심리학자, 컴퓨터 과학자이자 철학자이며, 인공지능 분야 초기 연구에 기여했고 카네기 멜론 대학교에서 교수로 재직하며 인지과학 발전에 영향을 미쳤다. - 심리학에 관한 - 대니얼 카너먼
대니얼 카너먼은 1934년 텔아비브에서 태어난 심리학자이자 행동 경제학자로, 판단과 의사 결정에 대한 연구로 2002년 노벨 경제학상을 수상했으며, 2024년 3월에 사망했다. - 철학에 관한 - 인류학
인류학은 인간의 생물학적, 문화적, 사회적 측면을 종합적으로 연구하는 학문으로, 형질인류학, 문화인류학, 고고학, 언어인류학 등의 분야로 나뉘어 인간의 진화, 문화적 다양성, 사회 조직, 언어의 기원과 발전을 탐구하며, 학제 간 연구를 통해 인간과 사회에 대한 포괄적인 이해를 추구한다. - 철학에 관한 - 문학
문학은 언어를 통해 심미적 효과를 추구하며 다양한 형식과 사조를 보이고, 저작권 및 감상과 비평을 통해 독자들과 소통하는 예술 분야이다.
선택 편향 | |
---|---|
선택 편향 | |
정의 | 연구 모집단이 표본으로 선택될 때, 모집단의 부분 집합이 다른 부분 집합보다 더 높은 (또는 낮은) 확률을 가질 때 발생하는 통계적 분석의 편향. |
발생 이유 | 샘플링 방법의 오류 자발적인 참여 또는 탈락 데이터 수집 과정의 편향 연구 설계의 오류 |
일반적인 유형 | 자기 선택 편향 관찰자 선택 편향 표본 추출 편향 시간 간격 편향 |
영향 | 연구 결과의 왜곡 및 일반화 가능성 감소. |
극복 방법 | 무작위 표본 추출 적절한 통계적 방법 사용 연구 설계 단계에서 편향 가능성 고려. |
관련 용어 | |
다른 이름 | 선택 효과, 선택 오차 |
관련 편향 | 생존 편향 베르크손의 역설 검열 편향 출판 편향 데이터 마이닝 편향 자가 보고 편향 |
반대 개념 | 무작위 표본 추출 |
설명 | |
개요 | 선택 편향은 분석을 위해 데이터를 선택하는 과정에서 발생하는 통계적 편향으로, 이는 대표성이 없는 샘플을 초래하여 모집단에 대한 결론이 잘못될 수 있음. |
원인 | 의도적 또는 비의도적인 샘플 선택 과정의 편향 특정 그룹이 연구에 참여할 가능성이 더 높거나 낮은 경우. 선택 과정에서 누락되거나 왜곡된 데이터의 발생. |
연구 결과에 미치는 영향 | 편향된 결과로 인해 잘못된 결론이나 일반화 가능성을 저해. 연구의 타당성을 감소시키고, 연구 결과를 실제 세계에 적용하는 데 어려움을 유발. |
극복 전략 | 무작위 표본 추출을 통해 각 모집단 구성원이 선택될 가능성을 동등하게 함. 연구 설계 단계에서 선택 편향을 유발할 수 있는 요소들을 미리 고려하여 설계. 데이터를 수집하고 분석할 때 편향을 교정하기 위한 통계적 방법 활용. |
유형 및 사례 | |
자기 선택 편향 | 연구 참가자가 자발적으로 참여하여 특정 특성을 가진 개인이 과다 또는 과소 대표되는 경우 발생. |
관찰자 선택 편향 | 관찰자가 자신이 보고 싶어하는 데이터만 선택하거나 해석하는 경우 발생. |
표본 추출 편향 | 표본이 모집단의 대표성을 가지지 못할 때 발생하며, 이는 모집단의 특정 부분을 과도하게 반영할 수 있음. |
시간 간격 편향 | 특정 기간 동안 수집된 데이터가 전체적인 상황을 반영하지 못할 때 발생. |
생존 편향 | 연구에서 성공하거나 살아남은 사례만 분석하고 실패하거나 사라진 사례는 고려하지 않을 때 발생. |
예시 | 인터넷 설문 조사는 인터넷 사용자만 참여하므로 일반 인구 전체를 대표하지 못함. 병원 환자를 대상으로 한 연구는 건강하지 않은 사람들을 과대 대표할 수 있음. 특정 지역의 데이터만을 사용하여 전체 지역에 대한 결론을 내릴 때 편향 발생. |
통계적 처리 방법 | |
재가중치 부여 | 선택 편향을 보정하기 위해 샘플의 가중치를 조정하는 방법. |
층화 표본 추출 | 모집단을 여러 하위 그룹으로 나누어 각 그룹에서 표본을 추출하는 방법으로, 각 그룹의 대표성을 확보. |
성향 점수 매칭 | 처리를 받는 그룹과 받지 않는 그룹 간의 특성을 매칭하여 선택 편향을 줄이는 방법. |
도구 변수 사용 | 선택 편향에 영향을 주지 않지만 처리 변수와 상관관계가 있는 변수를 사용하여 분석. |
참고 자료 | |
참고 문헌 | [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10651317/|출판 편향에 대한 상세한 연구 분석.] [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6891087/|선택 편향을 유발할 수 있는 다양한 요인들을 제시.] [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10084001/|데이터 수집 시 관찰자 선택 편향의 위험을 설명.] [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6545033/|생존 편향의 개념과 그 영향을 설명.] |
2. 선택 편향의 유형
선택 편향은 발생하는 원인과 과정에 따라 다양한 유형으로 분류될 수 있다.
- '''표본 추출 편향(Sampling bias):''' 모집단의 비무작위 표본 추출로 인해 발생하는 체계적인 오류이다.[2] 모집단의 일부 구성원이 다른 구성원보다 표본에 포함될 가능성이 낮아져 편향된 표본이 발생하게 된다.[3]
- '''시간 간격(Time interval):''' 시험 결과가 원하는 결론에 유리하게 조작하기 위해 시험을 조기에 종료하는 경우 발생한다.[1]
- '''노출(Exposure):'''
- '''임상적 취약성 편향:''' 한 질병이 다른 질병의 발병 위험을 증가시키고, 첫 번째 질병에 대한 치료가 두 번째 질병의 발병 위험을 증가시키는 것처럼 보이게 하는 경우이다.[9]
- '''원인 편향(Protopathic bias):''' 질병이나 다른 결과의 초기 증상에 대한 치료가 결과를 유발하는 것처럼 보이는 경우이다.[9]
- '''적응증 편향:''' 노출이 적응증에 따라 달라지는 경우(예: 질병 발생 위험이 높은 사람들에게 치료가 제공되는 경우) 원인과 결과가 혼동될 수 있는 잠재적인 문제이다.[11]
- '''데이터(Data):''' 데이터를 분할하거나 포함 여부를 변경하는 과정에서 발생한다.
- '''연구(Studies):''' 연구를 선택하거나 결과를 보고하는 과정에서 발생한다.
- '''탈락 편향(Attrition bias):''' 참가자 손실로 인해 발생하는 선택 편향의 일종이다.[13]
- '''관찰자 선택(Observer selection):''' 데이터가 연구 설계와 측정뿐만 아니라, 연구를 수행하는 사람이 존재해야 한다는 필수적인 전제 조건에 의해서도 필터링된다는 것이다.
- '''자원자 편향(Volunteer bias):''' 실험 참여자를 미리 걸러내거나 특정한 집단에서 자원자를 뽑는 경우가 해당한다.
2. 1. 표본 추출 편향 (Sampling bias)
표본 추출 편향은 모집단의 비무작위 표본 추출로 인해 발생하는 체계적인 오류로,[2] 모집단의 일부 구성원이 다른 구성원보다 표본에 포함될 가능성이 낮아져 편향된 표본이 발생하게 된다.[3] 이는 모집단(또는 비인적 요소)의 통계적 표본에서 모든 참가자가 동등하게 균형을 이루거나 객관적으로 대표되지 않는 경우를 의미한다.표본 추출 편향의 예시로는 자기 선택, 시험 참가자 사전 선별, 완료되지 않은 시험 대상/검사 제외, 연구 지역으로 최근 이주하거나 이주한 대상을 제외하는 이주 편향, 예후가 더 좋은 서서히 진행되는 질병이 발견되는 시간 길이 편향, 질병의 평균 경과는 동일하지만 비교 집단보다 참가자에게 질병이 더 일찍 진단되는 선행 시간 편향 등이 있다.
2. 2. 시간 간격 (Time interval)
시험 결과가 원하는 결론에 유리하게 조작하기 위해 시험을 조기에 종료하는 경우 발생한다.[1] 모든 변수가 비슷한 평균을 가지더라도 극단적인 값은 가장 큰 분산을 가진 변수에 의해 도달될 가능성이 높다. 따라서 분산이 큰 변수의 평균은 과추정된다.[1]2. 3. 노출 (Exposure)
- 임상적 취약성 편향: 한 질병이 다른 질병의 발병 위험을 증가시키고, 첫 번째 질병에 대한 치료가 두 번째 질병의 발병 위험을 증가시키는 것처럼 보이게 하는 경우이다. 예를 들어, 폐경기 증후군은 자궁내막암 발병 가능성을 높이므로, 폐경기 증후군에 대해 투여되는 에스트로겐이 자궁내막암을 유발하는 것으로 실제보다 과도하게 비난받을 수 있다.[9]
- 원인 편향(Protopathic bias): 질병이나 다른 결과의 초기 증상에 대한 치료가 결과를 유발하는 것처럼 보이는 경우이다. 초기 증상과 치료 시작부터 실제 진단까지 시간적 지연이 있을 때 잠재적인 편향이 될 수 있다.[9] 이는 지체 기간 고려, 즉 진단 전 특정 기간에 발생한 노출을 제외함으로써 완화할 수 있다.[10]
- 적응증 편향: 노출이 적응증에 따라 달라지는 경우(예: 질병 발생 위험이 높은 사람들에게 치료가 제공되는 경우) 원인과 결과가 혼동될 수 있는 잠재적인 문제이다. 이로 인해 치료가 질병의 원인인 것처럼 잘못 보일 수 있다.[11]
2. 4. 데이터 (Data)
데이터를 분할하거나 포함 여부를 변경하는 과정에서 발생하는 편향은 다음과 같다.- 계열의 극단점을 고르는 경우. 예를 들어, 주장하는 경향을 강조하려고 비정상적으로 낮은 값을 보인 시점에서 시작해서 높은 시점에서 끝낼 수 있다.
- 원하는 결론을 지지하는 결과가 나왔을 때 시행을 일찍 끝내는 경우
- 한 시행이 극단 값에서 일찍 끝날 수 있다. 모든 변수가 비슷한 평균을 가지더라도 극단 값은 분산이 큰 변수에 의해 나타날 수 있다. 따라서 분산이 큰 변수의 평균은 과대추정된다.
- 자료를 부분들의 내용에 대한 지식을 가지고 나눈 다음, 무선적으로 나눈 경우에 맞춰 설계된 테스트로 분석할 경우
- 이미 보편적으로 확립된 기준이 아니라 임의적 기준으로 '나쁜' 자료를 걸러낼 때
- 데이터를 분할(나누기)할 때 각 파티션의 내용을 알고 있으면서, 마치 무작위로 선택된 파티션인 것처럼 설계된 검정을 사용하여 분석하는 것.
- 사후적으로(사후) 임의적이거나 주관적인 이유에 따라 데이터 포함 여부를 변경하는 것. 여기에는 다음이 포함된다.
- 확증편향에 해당하는 일화적 증거의 오류(실제로는 선택적 편향이 아니지만), 특정 데이터 하위 집합을 선택하여 결론을 뒷받침하는 것. 예를 들어 항공기 추락 사례를 인용하여 항공기 비행이 안전하지 않다는 증거로 제시하면서 훨씬 더 흔한 안전하게 완료된 비행 사례는 무시하는 경우가 있다.( 가용성 휴리스틱 참조)[12]
- (1) 사전에 명시된 기준이나 일반적으로 합의된 기준 대신 임의적인 근거로 나쁜 데이터를 제거하거나 (2) "이상치"를 통계적 근거로 제거하면서, "극단적인" 관측치에서 얻을 수 있는 중요한 정보를 고려하지 않는 것.[12]
2. 5. 연구 (Studies)
연구를 선택하거나 결과를 보고하는 과정에서 발생하는 편향이다.- 메타 분석에 포함시킬 연구를 선택하는 경우[1]
- 반복 실험을 수행하고 마음에 드는 결과만 보고하는 경우(아마도 다른 실험 자료에는 "조정 실험", "도구 오류" 또는 "사전 조사" 따위로 딱지를 다시 붙일 것이다.)[2]
- 메타분석에 포함할 연구의 선택 (결합 메타분석 참조).[3]
- 반복적인 실험을 수행하고 가장 유리한 결과만 보고하며, 다른 실험의 실험실 기록을 "보정 테스트", "계측 오류" 또는 "예비 조사"로 재분류하는 경우.[4]
- 데이터 긁어모으기의 가장 중요한 결과를 마치 단일 실험인 것처럼 제시하는 것 (논리적으로 이전 항목과 동일하지만 훨씬 덜 부정직하게 여겨짐).[5]
- --
변경 사항 없음:제출하신 결과물은 이미 주어진 지시사항 및 허용된 문법을 완벽하게 준수하고 있습니다. 따라서 수정할 부분이 없습니다.
- 필수 준수 사항 및 세부 지침 모두 만족합니다.
- 허용된 문법 오류 없습니다.
- 오탈자, 문법 오류, 문맥 오류 등 추가적인 문제도 발견되지 않습니다.
- 중복되는 내용 없이 간결하게 잘 작성되었습니다.
2. 6. 탈락 편향 (Attrition bias)
탈락 편향(Attrition bias)은 참가자 손실로 인해 발생하는 선택 편향의 일종이다.[13] 이는 완료되지 않은 시험 대상이나 검사를 제외함으로써 발생한다. 탈락 편향은 생존자 편향과 밀접하게 관련되어 있는데, 생존자 편향은 과정을 "통과한" 대상만을 분석에 포함하는 반면, 실패 편향은 과정을 "실패한" 대상만을 포함한다. 탈락 편향에는 탈락, 무응답(낮은 응답률), 철회 및 프로토콜 위반 등이 포함된다. 이러한 요인들이 노출 및/또는 결과와 관련하여 불균등하게 발생할 경우, 편향된 결과를 초래할 수 있다. 예를 들어, 특정 다이어트 프로그램의 효과를 테스트하는 연구에서 연구자가 중도 포기한 참가자들을 제외한다면, 이는 탈락 편향으로 이어질 수 있다. 왜냐하면 중도 포기자들 대부분은 프로그램의 효과를 보지 못한 사람들이기 때문이다. 중재군과 비교군 간 대상 손실의 차이는 연구된 보건 중재와 관계없이 그룹 및 결과의 특성을 변경시킬 수 있다.[13]추적 관찰 상실은 탈락 편향의 또 다른 형태이며, 주로 장기간에 걸친 의학 연구에서 나타난다. 무응답 편향 또는 유지 편향은 재산, 교육, 이타심, 연구 및 요구 사항에 대한 초기 이해와 같은 다양한 유형 및 무형 요인의 영향을 받을 수 있다.[14] 연구자는 초기 모집 및 연구 단계에서 수집된 불충분한 식별 정보 및 연락처 정보로 인해 추적 연락을 수행하지 못할 수도 있다.[15]
2. 7. 관찰자 선택 (Observer selection)
철학자 닉 보스트롬은 데이터가 연구 설계와 측정뿐만 아니라, 연구를 수행하는 사람이 존재해야 한다는 필수적인 전제 조건에 의해서도 필터링된다고 주장했다. 관찰자 또는 연구의 존재가 데이터와 상관관계가 있는 경우, 관찰 선택 효과가 발생하며 인류원리적 추론이 필요하다.[16]예를 들어 지구의 과거 충돌 사건 기록을 들 수 있다. 대규모 충돌이 대량 멸종과 생태계 교란을 일으켜 장기간 지능적인 관찰자의 진화를 막는다면, 아무도 최근 과거의 대규모 충돌에 대한 증거를 관찰하지 못할 것이다(그러한 충돌이 지능적인 관찰자의 진화를 막았을 것이기 때문이다). 따라서 지구의 충돌 기록에는 잠재적인 편향이 있다.[17] 마찬가지로 천문학적 존재적 위험 또한 선택 편향으로 인해 과소평가될 수 있으며, 인류원리적 수정이 도입되어야 한다.[18]
2. 8. 자원자 편향 (Volunteer bias)
실험 참여자를 미리 걸러내거나 특정한 집단에서 자원자를 뽑는 경우가 해당한다. 예를 들어, 담배가 몸매에 나쁜 영향을 미치지 않는다는 것을 증명하기 위해 헬스클럽에서 자원자를 뽑는데, 흡연자는 고급 에어로빅반에서 뽑고 비흡연자는 체중 감량 과정에서 뽑는 경우가 있다.[19]실험을 끝까지 하지 못한 참여자의 자료를 빼는 경우도 자원자 편향에 해당한다. 예를 들어, 체중 감량 프로그램에서 연구자는 중도 포기한 참여자의 자료를 제외할 수 있다. 그러나 중도 포기한 참여자의 대부분은 체중 감량 프로그램이 효과가 없는 사람들이다.[19]
자기 선택 편향 또는 자원자 편향은 연구의 타당성에 대한 추가적인 위협이 되는데, 이는 참가자들이 연구의 표적 모집단과 본질적으로 다른 특성을 가지고 있을 수 있기 때문이다.[19] 연구에 따르면 자원자들은 낮은 사회경제적 배경보다 높은 사회적 지위 출신인 경향이 있다.[20] 또한, 다른 연구에 따르면 여성이 남성보다 연구에 자원할 가능성이 더 높다.[20] 자원자 편향은 모집부터 추적 조사까지 연구 수명 주기 전반에 걸쳐 나타난다. 더 일반적으로 말하면 자원자 반응은 개인의 이타심, 승인 욕구, 연구 주제와의 개인적 관계 및 기타 이유로 설명될 수 있다.[20][14]
3. 선택 편향의 완화
선택 편향은 기존 데이터 분석만으로는 완전히 해결하기 어렵지만, 특수한 경우에는 Heckman 보정을 사용할 수 있다. 선택 편향의 정도는 외생적(배경) 변수와 처리 지표 간의 상관관계를 조사하여 평가할 수 있다. 그러나 회귀 모델에서는 결과의 ''관찰되지 않는'' 결정 요인과 표본에 대한 선택의 ''관찰되지 않는'' 결정 요인 사이의 상관관계가 추정치에 편향을 일으킨다. 이러한 관찰되지 않는 요인들 간의 상관관계는 관찰된 처리 결정 요인으로 직접 평가할 수 없다.[21]
데이터를 적합 또는 예측 목적으로 선택하는 경우, 모든 데이터 변수의 부분 집합에 적합 또는 예측 정확도 함수를 정의할 수 있도록 연합 게임을 설정할 수 있다.
4. 관련 문제
- 출판 편향 또는 보고 편향: 흥미롭지 않은 (일반적으로 부정적인) 결과나 실험자의 편견, 후원자의 이해관계 또는 사회적 기대와 상반되는 결과를 발표하지 않음으로써 사회적 인식이나 메타 분석에 발생하는 왜곡이다.[1]
- 확증 편향: 인간이 자신의 기존 관점을 확인하는 것에 더 많은 관심을 기울이는 일반적인 경향이다. 또는 실험 과학에서 구체적으로는 가설을 반증하려고 노력하는 대신 확인적 증거를 찾도록 설계된 실험으로 인해 발생하는 왜곡이다.[1]
- 제외 편향: 연구 참여 자격에 대한 사례와 대조군에 다른 기준을 적용하거나 제외의 근거로 다른 변수를 사용하는 것에서 비롯된 결과이다.[1]
참조
[1]
웹사이트
Dictionary of Cancer Terms → selection bias
http://www.cancer.go[...]
2009-09-23
[2]
웹사이트
Medical Dictionary - 'Sampling Bias'
http://www.medilexic[...]
2009-09-23
[3]
웹사이트
TheFreeDictionary → biased sample
http://medical-dicti[...]
Mosby's Medical Dictionary
2009-09-23
[4]
웹사이트
Dictionary of Cancer Terms → Selection Bias
http://medical.weben[...]
2009-09-23
[5]
논문
The effects of sample selection bias on racial differences in child abuse reporting
[6]
서적
Algorithmic Learning Theory
http://www.cs.nyu.ed[...]
[7]
논문
Domain adaptation and sample bias correction theory and algorithm for regression
http://www.cs.nyu.ed[...]
[8]
서적
Behavioral Science
https://books.google[...]
Lippincott Williams & Wilkins
[9]
논문
A critique of the statistical evidence associating estrogens with endometrial cancer
1978-11-01
[10]
논문
Application of lag-time into exposure definitions to control for protopathic bias
2007-03-01
[11]
서적
Hypertension (Key Diseases) (Acp Key Diseases Series)
American College of Physicians
[12]
논문
Some Remarks on Wild Observations
http://www.tufts.edu[...]
[13]
논문
Empirical evidence of attrition bias in clinical trials
[14]
논문
Volunteer Bias in Recruitment, Retention, and Blood Sample Donation in a Randomised Controlled Trial Involving Mothers and Their Children at Six Months and Two Years: A Longitudinal Analysis
2013-07-09
[15]
논문
Lost to Follow-Up
http://www.sciencedi[...]
1967-05-06
[16]
서적
Anthropic Bias: Observation Selection Effects in Science and Philosophy
Routledge
[17]
논문
Anthropic Shadow: Observation Selection Effects and Human Extinction Risks
[18]
논문
Astrophysics: Is a doomsday catastrophe likely?
[19]
논문
Selection Bias and Information Bias in Clinical Research
https://www.karger.c[...]
2010
[20]
웹사이트
Volunteer bias
https://catalogofbia[...]
2020-10-29
[21]
논문
Sample Selection Bias as a Specification Error
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com