맨위로가기

고전검사이론

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

고전검사이론은 측정 오류, 오류의 확률 변수 인식, 상관관계 개념과 지수화 방법을 바탕으로 1904년 찰스 스피어만에 의해 시작되었다. 이 이론은 개인의 관찰 점수를 진실 점수와 오차의 합으로 가정하고, 신뢰도를 관찰 점수 분산에 대한 진실 점수 분산의 비율로 정의한다. 신뢰도는 평행 검사나 크론바흐 알파를 통해 추정하며, 검사 점수의 질을 평가하는 중요한 지표로 활용된다. 개별 문항 분석에는 P값과 문항-총점 상관관계가 사용된다. 고전검사이론은 문항 반응 이론(IRT)과 일반화 가능도 이론(G-이론)의 등장으로 대체되었으며, 수검자 특성과 검사 특성의 분리 불가, 신뢰도 정의의 모호성, 측정의 표준 오차 가정, 검사 지향적이라는 한계를 지닌다.

더 읽어볼만한 페이지

  • 통계 이론 - 로지스틱 회귀
    로지스틱 회귀는 범주형 종속 변수를 다루는 회귀 분석 기법으로, 특히 이항 종속 변수에 널리 사용되며, 오즈에 로짓 변환을 적용하여 결과값이 0과 1 사이의 값을 가지도록 하는 일반화 선형 모형의 특수한 경우이다.
  • 통계 이론 - 정보 엔트로피
    정보 엔트로피는 확률 변수의 불확실성을 측정하는 방법으로, 사건 발생 가능성이 낮을수록 정보량이 커진다는 원리에 기반하며, 데이터 압축, 생물다양성 측정, 암호화 등 다양한 분야에서 활용된다.
  • 심리측정학 - 재현성
    재현성은 과학적 연구의 신뢰성을 평가하는 요소로, 동일한 조건에서 유사한 결과를 얻을 수 있는 정도를 의미하며, 실험 방법과 데이터의 투명한 공개를 통해 확보해야 한다.
  • 심리측정학 - 조작주의
    조작주의는 과학적 개념을 측정 과정을 통해 정의하는 과학적 실천 방법으로, 물리학에서 시작되어 다양한 분야에서 활용되지만, 경제학에서는 주관적인 개념을 정당화하는 데 사용된다는 비판과 함께 복잡한 사회 현상에 대한 신중한 검토가 필요하다.
고전검사이론

2. 역사

고전검사이론은 다음 세 가지 성과 또는 아이디어가 개념화된 후에 비로소 탄생했다.

1. 측정에 오류가 존재한다는 인식

2. 그 오류를 확률 변수로 인식

3. 상관관계에 대한 개념과 이를 지수화하는 방법

1904년, 찰스 스피어만은 측정 오류로 인한 감쇠에 대해 상관 계수를 수정하고 이 수정을 위해 필요한 신뢰도 지수를 얻는 방법을 알아냈다.[2] 스피어만의 발견은 일부 학자들(Traub, 1997)에 의해 고전검사이론의 시작으로 여겨진다. 고전검사이론의 틀에 영향을 미친 다른 학자들로는 조지 유들, 트루먼 리 켈리, 프리츠 쿠더 및 매리언 리처드슨이 쿠더-리처드슨 공식을 만드는 데 참여했고, 루이스 구트만, 그리고 최근에는 멜빈 노빅 등이 있으며, 스피어만의 초기 발견 이후 25년 동안 다른 많은 사람들이 영향을 미쳤다.

3. 정의

고전검사이론에서는 각 개인이 측정 오류가 없을 때 얻을 수 있는 '진실 점수'(T)를 가지고 있다고 가정한다. 개인의 진실 점수는 무한히 많은 독립적인 시험 시행에서 예상되는 정답 수로 정의된다. 하지만 시험 사용자는 개인의 진실 점수를 관찰할 수 없고, 단지 '관찰 점수'(X)만 관찰할 수 있다. 이때 '관찰 점수'는 '진실 점수'와 '오차'의 합으로 구성된다고 가정한다.

: X = T + E

:: 관찰 점수 = 진실 점수 + 오차

고전검사이론은 모집단에서 X, T, E 세 변수 간의 관계를 다루며, 이는 시험 점수의 질을 평가하는 데 사용된다. 여기서 가장 중요한 개념은 '신뢰도'이다. 관찰된 시험 점수 X의 신뢰도는 \rho^2_{XT}로 표시되며, 진실 점수 분산 \sigma^2_T을 관찰 점수 분산 \sigma^2_X으로 나눈 값으로 정의된다.

:\rho^2_{XT} = \frac{\sigma^2_T}{\sigma^2_X}

관찰 점수의 분산은 진실 점수의 분산과 오차 점수의 분산의 합과 같으므로, 신뢰도는 다음과 같이 표현할 수도 있다.

:\rho^2_{XT} = \frac{\sigma^2_T}{\sigma^2_X} = \frac{\sigma^2_T}{\sigma^2_T+\sigma^2_E}

이는 신호 대 잡음비(signal-to-noise ratio)를 나타내는 식으로, 시험 점수의 신뢰도는 시험 점수에서 오차 분산의 비율이 낮을수록 높아지며, 반대의 경우도 마찬가지이다. 신뢰도는 진실 점수를 알고 있을 때 설명 가능한 시험 점수 분산의 비율을 의미한다. 신뢰도의 제곱근은 진실 점수와 관찰 점수 간 상관 관계의 절댓값과 같다.

4. 신뢰도

고전검사이론에서 신뢰도는 관찰된 시험 점수(X)의 분산 중 진실 점수(T)의 분산이 차지하는 비율(\rho^2_{XT})로 정의된다. 이는 시험 점수에서 오차 분산의 비율이 낮을수록 신뢰도가 높아짐을 의미한다. 수식으로 표현하면 다음과 같다.

:\rho^2_{XT} = \frac{\sigma^2_T}{\sigma^2_X} = \frac{\sigma^2_T}{\sigma^2_T+\sigma^2_E}

여기서 \sigma^2_T는 진실 점수의 분산, \sigma^2_X는 관찰 점수의 분산, \sigma^2_E는 오차 점수의 분산을 나타낸다.

신뢰도는 진실 점수를 안다면 설명할 수 있는 시험 점수 분산의 비율을 나타내며, 신뢰도의 제곱근은 진실 점수와 관찰 점수 간 상관 관계의 절댓값과 같다. 하지만, 고전검사이론에서는 진실 점수를 직접 알 수 없으므로, 신뢰도를 직접 추정하는 것은 불가능하다.

(신뢰도 추정 방법에 관한 내용은 하위 섹션에서 자세히 다루고 있으므로 여기서는 생략한다.)

4. 1. 신뢰도 추정 방법

고전 검사 이론에서는 참 점수를 직접 추정하는 것이 불가능하기 때문에 다양한 방법을 통해 신뢰도를 추정한다.

  • 평행 검사: 평행 검사는 모든 개인에 대해 동일한 참 점수와 동일한 관찰 점수 분산을 제공하는 검사이다. 평행 검사 점수 간의 상관 관계는 신뢰도와 같다. 그러나 평행 검사를 구하기 어렵기 때문에 실제로 이 방법은 거의 사용되지 않는다.
  • 크론바흐의 α: 내적 일관성 척도로, 검사 항목 간의 일관성을 측정한다. 크론바흐 알파는 신뢰도의 하한을 제공하는 것으로 알려져 있다. 즉, 모집단에서 검사 점수의 신뢰도는 크론바흐 알파 값보다 항상 높다. 이 방법은 경험적으로 실행 가능하며, SPSS 및 SAS와 같은 통계 패키지에서 계산할 수 있어 연구자들 사이에서 매우 인기가 있다.[3]


크론바흐 알파(\alpha)는 다음과 같이 계산한다.

: \alpha =\frac k {k-1}\left(1-\frac{\sum_{j=1}^k \sigma^2_{U_j}}{\sigma^2_X}\right)

(k는 검사 항목 수, \sigma^2_{U_j}는 개별 항목 점수의 분산, \sigma^2_X는 총 검사 점수의 분산)

일반적으로 신뢰도가 높을수록 검사의 품질이 좋다고 평가한다. 그러나 신뢰도가 얼마나 높아야 하는지에 대한 명확한 기준은 없다. .9 이상의 크론바흐 알파 값은 항목의 중복을 나타낼 수 있다. 성격 연구에는 .8 정도가 권장되며, 개인의 고위험 검사에는 .9 이상이 바람직하다.[4] 이러한 기준은 관례와 전문적인 관행에 따른 것이며, 통계적 추론의 형식적인 원칙에 명확하게 매핑되지는 않는다.

5. 문항 분석

신뢰도는 단일 숫자로 검사의 질을 나타내는 편리한 지표를 제공하지만, 개별 문항을 평가하는 데 필요한 정보는 제공하지 않는다. 고전적 접근 방식의 문항 분석은 P값(비율)과 문항-총점 상관관계(점-이중 상관 계수)의 두 가지 통계에 의존하는 경우가 많다. P값은 정답 방향으로 응답한 응시자의 비율을 나타내며, 일반적으로 ''문항 난이도''라고 한다. 문항-총점 상관관계는 문항의 변별력 또는 차별화 능력을 나타내는 지표를 제공하며, 일반적으로 ''문항 변별도''라고 한다. 또한, 자주 사용되는 객관식 문항의 각 응답에 대해 이러한 통계가 계산되며, 이는 혼란스러운 오답과 같은 문제를 평가하고 진단하는 데 사용된다. 이러한 유용한 분석은 특별히 설계된 심리 측정 소프트웨어에서 제공된다.

6. 한계 및 대안

고전검사이론은 수검자 특성과 검사 특성을 분리할 수 없다는 중요한 단점을 가지고 있다. 즉, 각 특성은 서로의 맥락에서만 해석될 수 있다. 또한 고전검사이론에서 정의하는 신뢰도는 "검사의 평행 양식에 대한 검사 점수 간의 상관관계"로 정의되는데,[5] 이 정의는 평행 검사가 무엇인지에 대한 의견이 달라 문제가 된다. 다양한 신뢰도 계수는 신뢰도의 하한 추정치 또는 알 수 없는 편향이 있는 신뢰도 추정치를 제공한다.

세 번째 단점은 측정의 표준 오차와 관련이 있다. 고전검사이론에 따르면 측정의 표준 오차가 모든 수검자에게 동일하다고 가정한다. 그러나 햄블턴(Hambleton)이 설명했듯이, 어떤 검사 점수도 서로 다른 능력의 수검자에게 불균등하게 정확한 척도이므로 모든 수검자에 대한 동일한 측정 오차 가정은 타당하지 않다.

마지막으로 고전검사이론은 항목 지향적이기보다는 검사 지향적이다. 즉, 개인이든 수검자 집단이든 검사 항목에서 얼마나 잘 수행할 수 있는지 예측하는 데 도움이 되지 않는다.[5]

6. 1. 문항 반응 이론 (IRT)

심리 측정에서 고전검사이론은 문항 반응 이론(IRT)과 일반화 가능도 이론(G-이론)과 같은 더 정교한 모델로 대체되었다. IRT는 SPSS와 같은 표준 통계 패키지에는 포함되어 있지 않지만, SAS의 PROC IRT 및 PROC MCMC를 통해 IRT 모델을 추정할 수 있다. 또한, 오픈 소스 통계 프로그래밍 언어인 R에는 [https://cran.r-project.org/web/views/Psychometrics.html IRT 패키지](예: CTT)가 있다. 상업용 패키지는 일반적으로 크론바흐의 {\alpha} 추정치를 제공하지만, IRT 또는 G-이론의 경우 전문적인 심리 측정 소프트웨어가 선호될 수 있다. 그러나 일반적인 통계 패키지는 종종 완전한 고전 분석을 제공하지 않으며(크론바흐의 {\alpha}는 많은 중요한 통계 중 하나일 뿐임), 많은 경우 고전 분석을 위한 전문 소프트웨어도 필요하다.

참조

[1] 웹사이트 National Council on Measurement in Education http://www.ncme.org/[...] 2017-07-22
[2] 논문 Classical Test Theory in Historical Perspective
[3] 간행물 CTTITEM: SAS macro and SPSS syntax for classical item analysis
[4] 간행물 Starting at the Beginning: An Introduction to Coefficient Alpha and Internal Consistency
[5] 서적 Fundamentals of Item Response Theory Sage Publications, Inc.
[6] 웹사이트 National Council on Measurement in Education http://www.ncme.org/[...] 2017-07-22



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com