F 스코어

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

F 스코어는 정밀도와 재현율의 조화 평균을 나타내는 지표로, 분류 모델의 성능을 평가하는 데 사용된다. F1 점수는 정밀도와 재현율의 조화 평균으로, 모델의 전반적인 성능을 파악하는 데 도움을 준다. Fβ 점수는 재현율과 정밀도에 가중치를 부여하여 계산하며, 특정 문제에 더 적합한 지표를 선택할 수 있도록 한다. F 스코어는 정보 검색, 기계 학습, 자연어 처리 등 다양한 분야에서 모델의 성능을 평가하는 데 활용되며, 특히 클래스 불균형 데이터셋에서 유용하게 사용된다. F 스코어는 긍정 클래스에 대한 F1 점수를 특징으로 하며, 다이스 계수와 밀접한 관련이 있다. F 스코어는 데이터 세트의 클래스 불균형에 민감하게 반응하며, 참 음성을 무시한다는 비판을 받기도 한다. 다중 클래스 분류 문제에서는 매크로 F1과 마이크로 F1을 사용하여 모델의 성능을 평가한다.

더 읽어볼만한 페이지

통계학의 비 - 상대위험도
상대위험도는 특정 요인 노출 집단과 비노출 집단 간의 사건 발생 위험을 비교하는 지표로, 코호트 연구나 임상시험에서 요인과 질병 간의 인과관계를 파악하는 데 사용되며, 1보다 크면 위험 요인, 작으면 보호 효과를 의미하지만 인과관계를 직접 증명하지는 않는다.
기계 번역의 평가 - BLEU
BLEU는 기계 번역 품질 평가 알고리즘으로, 후보 번역과 참조 번역 간의 n-gram 일치도를 측정하여 정확성과 유창성을 평가하며, 인간의 판단과 상관관계가 높아 벤치마크로 사용된다.
기계 번역의 평가 - NIST (계량)
NIST (계량)는 미국의 국가 표준 및 기술 연구소로, 측정 표준 및 기술에 관한 연구를 수행하며 산업 경쟁력 강화, 과학 기술 발전, 국민 삶의 질 향상에 기여하는 것을 목표로 한다.
통계적 자연어 처리 - 확률적 앵무새
확률적 앵무새는 거대 언어 모델이 의미를 이해하지 못하고 확률적으로 단어를 연결하여 텍스트를 생성하는 것을 앵무새에 비유한 용어로, 환경적 비용, 편향성, 허위 정보 생성 가능성 등의 위험성을 경고하며 LLM의 이해 능력에 대한 논쟁을 불러일으킨다.
통계적 자연어 처리 - 언어 모델
언어 모델은 단어 시퀀스에 확률을 할당하는 통계적 모델로서 자연어 처리 분야에서 중요한 역할을 하며, 초기 마르코프 과정 기반 모델에서 지수 함수 모델, 신경망 모델을 거쳐 음성 입력 모델 등 다양한 형태로 연구되고, 벤치마크 데이터 세트를 통해 성능이 평가된다.

F 스코어
개요
종류	통계적 유의성 검정
목적	이진 분류 모델의 성능 평가
특징	정밀도와 재현율의 조화 평균
계산
공식	F = 2 * (정밀도 * 재현율) / (정밀도 + 재현율)
정밀도	참 긍정 / (참 긍정 + 거짓 긍정)
재현율	참 긍정 / (참 긍정 + 거짓 부정)
활용
적용 분야	정보 검색 기계 학습 자연어 처리
F-척도의 변형
F₁ 척도	정밀도와 재현율에 동일한 가중치를 부여 (β = 1)
F₂ 척도	재현율에 더 높은 가중치를 부여 (β = 2)
F₀.₅ 척도	정밀도에 더 높은 가중치를 부여 (β = 0.5)
관련 지표
혼동 행렬	모델의 성능을 시각적으로 보여주는 표
ROC 곡선	다양한 임계값에서 모델의 성능을 평가하는 데 사용
AUC	ROC 곡선 아래 영역의 면적

2. 어원

F-측정값은 정밀도와 재현율의 조화 평균을 나타내는 지표로, 모델의 성능을 평가하는 데 사용된다. F1 점수는 정밀도와 재현율의 조화 평균으로, 모델의 전반적인 성능을 파악하는 데 도움을 준다. 정밀도는 모델이 양성으로 예측한 항목 중 실제 양성인 항목의 비율을 나타내며, 재현율은 실제 양성 항목 중 모델이 양성으로 예측한 항목의 비율을 나타낸다. F1 점수는 다음과 같은 수식으로 계산된다.

$F1 = 2 \cdot \frac{\text{정밀도} \cdot \text{재현율}}{\text{정밀도} + \text{재현율}}$

F1 점수는 0과 1 사이의 값을 가지며, 1에 가까울수록 모델의 성능이 우수함을 의미한다.

Fβ 점수는 재현율과 정밀도의 조화 평균을 나타내는 또 다른 지표이다. Fβ 점수는 다음과 같이 정의된다.

$F_\beta = (1 + \beta^2) \cdot \frac{\text{정밀도} \cdot \text{재현율}}{(\beta^2 \cdot \text{정밀도}) + \text{재현율}}$

여기서 β는 정밀도와 재현율에 부여하는 가중치를 조절하는 값이다. β > 1이면 재현율에 더 큰 가중치를 부여하고, β < 1이면 정밀도에 더 큰 가중치를 부여한다. β = 1인 경우, F1 점수와 동일하며, 정밀도와 재현율에 동일한 가중치를 부여한다.

Fβ 점수를 사용하면, 특정 문제에 더 적합한 지표를 선택할 수 있다. 예를 들어, 암 진단과 같이 재현율이 중요한 문제에서는 β > 1을 사용하여 재현율에 더 큰 가중치를 부여할 수 있다. 반대로, 스팸 메일 필터와 같이 정밀도가 중요한 문제에서는 β < 1을 사용하여 정밀도에 더 큰 가중치를 부여할 수 있다.

F1 점수와 Fβ 점수는 모두 조화 평균으로 표현될 수 있다. F1 점수는 정밀도(precision)와 재현율(recall)의 조화 평균이며, 다음과 같이 계산된다.

$F_1 = 2 \cdot \frac{\text{precision} \cdot \text{recall}}{\text{precision} + \text{recall}}$

일반화된 Fβ 점수도 유사하게 조화 평균으로 정의된다. Fβ 점수는 정밀도와 재현율에 서로 다른 가중치를 부여하며, 다음 수식을 사용한다.

$F_\beta = (1 + \beta^2) \cdot \frac{\text{precision} \cdot \text{recall}}{(\beta^2 \cdot \text{precision}) + \text{recall}}$

여기서 β는 재현율에 부여하는 가중치를 나타낸다. β > 1인 경우, 재현율에 더 큰 비중을 두어 재현율을 중요하게 평가하고, β < 1인 경우, 정밀도에 더 큰 비중을 두어 정밀도를 중요하게 평가한다. F1 점수는 β = 1인 경우와 동일하다. 조화 평균은 데이터 과학과 정보 검색 분야에서 모델의 성능을 평가하는 데 널리 사용된다.

3. 정의

F 스코어는 정밀도와 재현율의 조화 평균을 나타내는 지표이다. F-측정은 분류 모델의 성능을 평가하는 데 사용되며, 특히 불균형한 데이터셋에서 유용하게 활용된다. Fβ 점수는 재현율과 정밀도의 조화 평균을 나타내는 또 다른 지표이다. Fβ 점수는 다음과 같이 정의된다.

$F_\beta = (1 + \beta^2) \cdot \frac{\text{정밀도} \cdot \text{재현율}}{(\beta^2 \cdot \text{정밀도}) + \text{재현율}}$

여기서 β는 정밀도와 재현율에 부여하는 가중치를 조절하는 값이다. β > 1이면 재현율에 더 큰 가중치를 부여하고, β < 1이면 정밀도에 더 큰 가중치를 부여한다. β = 1인 경우, F1 점수와 동일하며, 정밀도와 재현율에 동일한 가중치를 부여한다. F1 점수는 정밀도(precision)와 재현율(recall)의 조화 평균이며, 다음과 같이 계산된다.

$F_1 = 2 \cdot \frac{\text{precision} \cdot \text{recall}}{\text{precision} + \text{recall}}$

일반화된 Fβ 점수도 유사하게 조화 평균으로 정의된다. Fβ 점수는 정밀도와 재현율에 서로 다른 가중치를 부여하며, 다음 수식을 사용한다.

$F_\beta = (1 + \beta^2) \cdot \frac{\text{precision} \cdot \text{recall}}{(\beta^2 \cdot \text{precision}) + \text{recall}}$

Fβ 점수를 사용하면, 특정 문제에 더 적합한 지표를 선택할 수 있다. 예를 들어, 암 진단과 같이 재현율이 중요한 문제에서는 β > 1을 사용하여 재현율에 더 큰 가중치를 부여할 수 있다. 반대로, 스팸 메일 필터와 같이 정밀도가 중요한 문제에서는 β < 1을 사용하여 정밀도에 더 큰 가중치를 부여할 수 있다.

3. 1. F1 점수

F1 점수는 정밀도와 재현율의 조화 평균으로, 모델의 성능을 평가하는 데 사용된다. 정밀도는 모델이 양성으로 예측한 항목 중 실제 양성인 항목의 비율을 나타낸다. 재현율은 실제 양성 항목 중 모델이 양성으로 예측한 항목의 비율을 나타낸다. F1 점수는 이 두 지표의 균형을 맞춰 모델의 전반적인 성능을 파악하는 데 도움을 준다. F1 점수는 다음과 같은 수식으로 계산된다:

F1 = 2 \cdot \frac{\text{정밀도} \cdot \text{재현율}}{\text{정밀도} + \text{재현율}}

F1 점수는 0과 1 사이의 값을 가지며, 1에 가까울수록 모델의 성능이 우수함을 의미한다.

3. 2. Fβ 점수

Fβ 점수는 재현율과 정밀도의 조화 평균을 나타내는 또 다른 지표이다. Fβ 점수는 다음과 같이 정의된다.

$F_\beta = (1 + \beta^2) \cdot \frac{\text{정밀도} \cdot \text{재현율}}{(\beta^2 \cdot \text{정밀도}) + \text{재현율}}$

여기서 β는 정밀도와 재현율에 부여하는 가중치를 조절하는 값이다. β > 1이면 재현율에 더 큰 가중치를 부여하고, β < 1이면 정밀도에 더 큰 가중치를 부여한다. β = 1인 경우, F1 점수와 동일하며, 정밀도와 재현율에 동일한 가중치를 부여한다.

Fβ 점수를 사용하면, 특정 문제에 더 적합한 지표를 선택할 수 있다. 예를 들어, 암 진단과 같이 재현율이 중요한 문제에서는 β > 1을 사용하여 재현율에 더 큰 가중치를 부여할 수 있다. 반대로, 스팸 메일 필터와 같이 정밀도가 중요한 문제에서는 β < 1을 사용하여 정밀도에 더 큰 가중치를 부여할 수 있다.

3. 3. 조화 평균으로서의 기술

F1 점수와 Fβ 점수는 모두 조화 평균으로 표현될 수 있다. F1 점수는 정밀도(precision)와 재현율(recall)의 조화 평균이며, 다음과 같이 계산된다.

F_1 = 2 \cdot \frac{\text{precision} \cdot \text{recall}}{\text{precision} + \text{recall}}

일반화된 Fβ 점수도 유사하게 조화 평균으로 정의된다. Fβ 점수는 정밀도와 재현율에 서로 다른 가중치를 부여하며, 다음 수식을 사용한다.

F_\beta = (1 + \beta^2) \cdot \frac{\text{precision} \cdot \text{recall}}{(\beta^2 \cdot \text{precision}) + \text{recall}}

여기서 β는 재현율에 부여하는 가중치를 나타낸다. β > 1인 경우, 재현율에 더 큰 비중을 두어 재현율을 중요하게 평가하고, β < 1인 경우, 정밀도에 더 큰 비중을 두어 정밀도를 중요하게 평가한다. F1 점수는 β = 1인 경우와 동일하다. 조화 평균은 데이터 과학과 정보 검색 분야에서 모델의 성능을 평가하는 데 널리 사용된다.

4. 진단 검사

F-측정은 이진 분류에서 사용되는 성능 지표이며, 정밀도와 재현율의 조화 평균을 나타낸다. 재현율은 참 양성(TP)을 실제 양성(P)으로 나눈 값으로, 모델이 실제 양성 사례를 얼마나 잘 찾아내는지, 즉 민감도를 평가한다. F-측정은 재현율과 정밀도 사이의 균형을 맞추는 데 중요한 역할을 한다. 재현율이 높다는 것은 모델이 실제 양성 사례를 놓치지 않고 잘 찾아낸다는 것을 의미하며, 이는 특정 진단 검사나 질병 예측 모델에서 매우 중요한 요소이다. 예를 들어, 질병 진단 검사에서 재현율이 낮으면 환자를 제대로 진단하지 못해 치료 시기를 놓칠 수 있다. 따라서 F-측정은 재현율과 정밀도, 즉 민감도와 특이도를 모두 고려하여 모델의 성능을 종합적으로 평가하는 데 유용하다.

5. 클래스 불균형에 대한 F-점수의 의존성

F-점수는 클래스 불균형이 있는 문제에서 모델의 성능을 평가하는 데 유용하게 사용된다. 특히, 웹 검색, 문서 분류, 질의 분류 등 정보 검색 분야와 기계 학습, 그리고 자연어 처리 분야에서 널리 활용된다.

정보 검색 분야에서 F-점수는 검색 엔진의 성능 평가에 사용된다. 검색 결과의 정확성(Precision)과 재현율(Recall)을 종합적으로 고려하여 검색 시스템의 유용성을 측정한다. 또한, 문서 분류 모델의 성능을 평가하는데 활용되며, 뉴스 기사를 특정 카테고리로 분류하는 경우 F-점수는 분류 모델의 정확도를 측정하는 데 사용된다. 사용자의 질문 의도를 파악하고 질문 유형을 분류하는 시스템의 성능을 평가하는 데에도 사용된다.
기계 학습 분야에서 F-점수는 모델의 성능을 평가하는 데 널리 사용되며, 특히 분류 문제에서 정밀도와 재현율의 조화로운 균형을 평가하는 데 유용하다. F-점수는 정밀도와 재현율의 조화 평균으로 계산되며, 다음 수식으로 표현된다.

F-점수 = 2 * (정밀도 * 재현율) / (정밀도 + 재현율)

여기서 정밀도는 모델이 '긍정'으로 예측한 경우 중 실제로 긍정인 경우의 비율을 나타내며, 재현율은 실제 긍정인 경우 중 모델이 '긍정'으로 예측한 경우의 비율을 나타낸다. F-점수는 0과 1 사이의 값을 가지며, 1에 가까울수록 모델의 성능이 우수함을 의미한다. 의료 진단 모델과 스팸 메일 필터링 모델과 같이 정밀도와 재현율 모두 중요한 경우 F-점수를 사용하여 모델의 성능을 평가한다.
자연어 처리 분야에서도 F-점수는 모델의 성능 평가에 널리 사용된다. 개체명 인식(Named Entity Recognition, NER)이나 단어 분할(Word Segmentation)과 같은 작업에서 F-점수는 중요한 지표로 활용된다. 개체명 인식은 문장 내에서 인물, 장소, 조직 등의 고유 명사를 찾아내는 기술이며, 단어 분할은 띄어쓰기가 없는 언어에서 문장을 단어 단위로 분리하는 기술이다. 이러한 작업의 경우, 정확도(Precision)와 재현율(Recall) 간의 균형을 맞추는 것이 중요한데, F-점수는 이 두 지표를 결합하여 모델의 전반적인 성능을 평가하는 데 도움을 준다. 예를 들어, 개체명 인식 모델의 경우, F-점수가 높을수록 모델이 정확하게 많은 개체를 찾아내면서도 불필요한 개체를 적게 예측한다는 것을 의미한다. F-점수는 다음과 같은 수식으로 계산된다.

F-점수 = 2 * (정확도 * 재현율) / (정확도 + 재현율)

6. 활용

기계 학습 분야에서 F-점수는 모델의 성능을 평가하는 데 널리 사용된다. 특히, 분류 문제에서 정밀도와 재현율의 조화로운 균형을 평가하는 데 유용하다. F-점수는 정밀도와 재현율의 조화 평균으로 계산되며, 다음과 같은 수식으로 표현된다:

F-점수 = 2 * (정밀도 * 재현율) / (정밀도 + 재현율)

여기서 정밀도는 모델이 '긍정'으로 예측한 경우 중 실제로 긍정인 경우의 비율을 나타내며, 재현율은 실제 긍정인 경우 중 모델이 '긍정'으로 예측한 경우의 비율을 나타낸다. F-점수는 0과 1 사이의 값을 가지며, 1에 가까울수록 모델의 성능이 우수함을 의미한다. 기계 학습 모델의 성능을 평가할 때, F-점수는 정밀도와 재현율 간의 상충 관계를 고려하여 모델을 선택하는 데 도움을 준다. 예를 들어, 의료 진단 모델의 경우, '질병'으로 진단하는 정밀도와 실제 질병 환자를 찾아내는 재현율 모두 중요하기 때문에 F-점수를 사용하여 모델의 성능을 평가하는 것이 효과적이다. 또한, 스팸 메일 필터링 모델의 경우, 정상 메일을 스팸으로 분류하는 오류(낮은 정밀도)와 스팸 메일을 놓치는 오류(낮은 재현율)를 모두 최소화해야 하므로, F-점수를 사용하여 모델을 평가하고 튜닝할 수 있다.

자연어 처리 분야에서도 F-점수는 모델의 성능을 평가하는 데 널리 사용된다. 특히, 개체명 인식(Named Entity Recognition, NER)이나 단어 분할(Word Segmentation)과 같은 작업에서 F-점수는 중요한 지표로 활용된다. 개체명 인식은 문장 내에서 인물, 장소, 조직 등의 고유 명사를 찾아내는 기술이며, 단어 분할은 띄어쓰기가 없는 언어에서 문장을 단어 단위로 분리하는 기술이다. 이러한 작업의 경우, 정확도(Precision)와 재현율(Recall) 간의 균형을 맞추는 것이 중요한데, F-점수는 이 두 지표를 결합하여 모델의 전반적인 성능을 평가하는 데 도움을 준다. 예를 들어, 개체명 인식 모델의 경우, F-점수가 높을수록 모델이 정확하게 많은 개체를 찾아내면서도 불필요한 개체를 적게 예측한다는 것을 의미한다.

6. 1. 정보 검색

웹 검색, 문서 분류, 질의 분류 등 정보 검색 분야에서 F-점수는 널리 활용된다.

웹 검색: 검색 엔진의 성능을 평가하는 데 사용된다. 검색 결과의 정확성(Precision)과 재현율(Recall)을 종합적으로 고려하여, 검색 시스템이 얼마나 유용한 정보를 잘 찾아내는지 측정한다.
문서 분류: 주어진 문서가 어떤 범주에 속하는지 분류하는 모델의 성능을 평가한다. 예를 들어, 뉴스 기사를 정치, 경제, 사회 등 특정 카테고리로 분류하는 경우, F-점수는 분류 모델의 정확도를 측정하는 데 사용된다.
질의 분류: 사용자의 질문(Query)의 의도를 파악하고, 질문 유형을 분류하는 시스템의 성능을 평가한다. 예를 들어, "오늘 날씨"와 같은 질문의 의도를 날씨 정보 검색으로 분류하는 경우, F-점수는 질의 분류 시스템의 정확성을 평가하는 데 활용된다.

위와 같이 F-점수는 정보 검색 분야의 다양한 모델과 시스템의 성능을 객관적으로 평가하는 데 기여한다.

6. 2. 기계 학습

기계 학습 분야에서 F-점수는 모델의 성능을 평가하는 데 널리 사용되는 지표이다. 특히, 분류 문제에서 정밀도와 재현율의 조화로운 균형을 평가하는 데 유용하다. F-점수는 정밀도와 재현율의 조화 평균으로 계산되며, 다음과 같은 수식으로 표현된다:

F-점수 = 2 * (정밀도 * 재현율) / (정밀도 + 재현율)

여기서 정밀도는 모델이 '긍정'으로 예측한 경우 중 실제로 긍정인 경우의 비율을 나타내며, 재현율은 실제 긍정인 경우 중 모델이 '긍정'으로 예측한 경우의 비율을 나타낸다. F-점수는 0과 1 사이의 값을 가지며, 1에 가까울수록 모델의 성능이 우수함을 의미한다.

기계 학습 모델의 성능을 평가할 때, F-점수는 정밀도와 재현율 간의 상충 관계를 고려하여 모델을 선택하는 데 도움을 준다. 예를 들어, 의료 진단 모델의 경우, '질병'으로 진단하는 정밀도와 실제 질병 환자를 찾아내는 재현율 모두 중요하기 때문에 F-점수를 사용하여 모델의 성능을 평가하는 것이 효과적이다. 또한, 스팸 메일 필터링 모델의 경우, 정상 메일을 스팸으로 분류하는 오류(낮은 정밀도)와 스팸 메일을 놓치는 오류(낮은 재현율)를 모두 최소화해야 하므로, F-점수를 사용하여 모델을 평가하고 튜닝할 수 있다.

6. 3. 자연어 처리

자연어 처리 분야에서 F-점수는 모델의 성능을 평가하는 데 널리 사용된다. 특히, 개체명 인식(Named Entity Recognition, NER)이나 단어 분할(Word Segmentation)과 같은 작업에서 F-점수는 중요한 지표로 활용된다. 개체명 인식은 문장 내에서 인물, 장소, 조직 등의 고유 명사를 찾아내는 기술이며, 단어 분할은 띄어쓰기가 없는 언어에서 문장을 단어 단위로 분리하는 기술이다. 이러한 작업의 경우, 정확도(Precision)와 재현율(Recall) 간의 균형을 맞추는 것이 중요한데, F-점수는 이 두 지표를 결합하여 모델의 전반적인 성능을 평가하는 데 도움을 준다. 예를 들어, 개체명 인식 모델의 경우, F-점수가 높을수록 모델이 정확하게 많은 개체를 찾아내면서도 불필요한 개체를 적게 예측한다는 것을 의미한다. F-점수는 다음과 같은 수식으로 계산된다.

F-점수 = 2 * (정확도 * 재현율) / (정확도 + 재현율)

7. 특징

분류기의 예측은 긍정 클래스에 대한 F1 점수를 특징으로 한다. F1 점수는 분류 모델의 성능을 측정하는 지표로, 정밀도와 재현율의 조화 평균이다. F1 점수는 0과 1 사이의 값을 가지며, 1에 가까울수록 모델의 성능이 우수함을 의미한다. 긍정 클래스에 대한 F1 점수는 해당 클래스에 대한 예측의 정확성을 나타낸다. 모델이 긍정 클래스를 얼마나 잘 예측하는지를 평가하며, 실제 긍정 사례를 긍정으로 정확하게 예측하는 능력(재현율)과 긍정으로 예측된 사례 중 실제 긍정인 사례의 비율(정밀도)을 모두 고려한다.

F1 점수는 진양성률(TP, True Positive)의 오목 함수이다. 이는 아래 수식을 통해 증명할 수 있다. F1 점수는 다음과 같이 정의된다.

$F_1 = \frac{2TP}{2TP + FP + FN}$

여기서 FP는 거짓 양성(False Positive)이고 FN은 거짓 음성(False Negative)이다. 분모와 분자를 TP + TN (True Negative)로 나누면,

$F_1 = \frac{2 \frac{TP}{TP+TN}}{2 \frac{TP}{TP+TN} + \frac{FP+FN}{TP+TN}}$

를 얻을 수 있다. 이때 $\frac{TP}{TP+TN}$ 는 $P(D=1|X=1)$ 과 같으며, 이는 진양성률(TPR, True Positive Rate)이다. 그리고 $\frac{FP+FN}{TP+TN}$ 은 $1 - \frac{TN}{TP+TN}$ 과 같다. 따라서 F1 점수는 TPR의 함수로 다음과 같이 쓸 수 있다.

$F_1(TPR) = \frac{2TPR}{2TPR + (1 - \frac{TN}{TP+TN})}$

이제 $\frac{TN}{TP+TN}$ 이 TPR에 대해 감소하는 함수라고 가정하면, F1 점수는 TPR에 대해 오목 함수가 된다. 즉, F1 점수는 진양성률에 대해 오목 함수이다.

7. 1. 다이스 계수와의 관계

F1 점수는 검색된 항목 집합과 관련 항목 집합의 다이스 계수이다. 다이스 계수는 두 집합 간의 유사성을 측정하는 지표로, 두 집합의 교집합 크기를 각 집합 크기의 합으로 나눈 값이다. F1 점수는 정밀도와 재현율의 조화 평균이며, 다이스 계수와 동일한 원리를 따른다. 즉, F1 점수가 높을수록 검색된 항목과 관련 항목 간의 유사성이 높다는 것을 의미한다. 다이스 계수는 정보 검색, 생물 정보학 등 다양한 분야에서 사용되며, F1 점수와 함께 데이터 분석의 중요한 지표로 활용된다.

7. 2. 분류기 예측

분류기의 예측은 긍정 클래스에 대한 F1 점수를 특징으로 한다. F1 점수는 분류 모델의 성능을 측정하는 데 사용되는 지표로, 정밀도와 재현율의 조화 평균이다. F1 점수는 0과 1 사이의 값을 가지며, 1에 가까울수록 모델의 성능이 우수함을 의미한다. 긍정 클래스에 대한 F1 점수는 해당 클래스에 대한 예측의 정확성을 나타낸다. 모델이 긍정 클래스를 얼마나 잘 예측하는지를 평가하며, 실제 긍정 사례를 긍정으로 정확하게 예측하는 능력(재현율)과 긍정으로 예측된 사례 중 실제 긍정인 사례의 비율(정밀도)을 모두 고려한다.

7. 3. 오목 함수

F1 점수는 진양성률(TP, True Positive)의 오목 함수이다. 이 사실은 다음과 같이 증명할 수 있다. F1 점수는 다음과 같이 정의된다:

F_1 = \frac{2TP}{2TP + FP + FN}

여기서 FP는 거짓 양성(False Positive)이고 FN은 거짓 음성(False Negative)이다. 이제 분모와 분자를 TP + TN (True Negative)로 나누면,

F_1 = \frac{2 \frac{TP}{TP+TN}}{2 \frac{TP}{TP+TN} + \frac{FP+FN}{TP+TN}}

를 얻을 수 있다. 이때

\frac{TP}{TP+TN}

는

P(D=1|X=1)

와 같으며, 이는 진양성률(TPR, True Positive Rate)이다. 그리고

\frac{FP+FN}{TP+TN}

은

1 - \frac{TN}{TP+TN}

과 같다. 따라서 F1 점수는 TPR의 함수로 다음과 같이 쓸 수 있다:

F_1(TPR) = \frac{2TPR}{2TPR + (1 - \frac{TN}{TP+TN})}

이제

\frac{TN}{TP+TN}

이 TPR에 대해 감소하는 함수라고 가정하면, F1 점수는 TPR에 대해 오목 함수가 된다. 즉, F1 점수는 진양성률에 대해 오목 함수이다.

8. 비판

F-점수에 대한 주요 비판은 다음과 같다.

데이비드 핸드의 비판: F-점수는 정밀도와 재현율에 동일한 중요성을 부여한다는 점을 비판한다. 이는 실제 문제에서 두 지표의 중요성이 다를 수 있다는 점을 간과한다. 예를 들어, 암 진단에서는 거짓 음성을 줄이는 것이 거짓 양성을 줄이는 것보다 더 중요할 수 있다. F-점수는 이러한 상황을 제대로 반영하지 못한다.

다비데 치코와 주세페 유르만의 비판: F-점수는 매튜스 상관 계수(MCC)보다 덜 유익하다는 비판을 받는다. MCC는 이진 분류의 품질을 평가하는 데 더 포괄적인 지표로 간주되며, 불균형한 데이터 세트에서도 안정적인 결과를 제공한다. F-점수는 데이터 세트의 클래스 불균형에 민감하게 반응하며, MCC에 비해 해석이 어렵다는 단점이 있다.

데이비드 M. W. 파워스의 비판: F-점수는 참 음성을 무시하여 불균형 클래스에 대해 오해를 불러일으킬 수 있다는 비판을 받는다. 불균형한 데이터 세트에서 F-점수는 소수 클래스의 성능을 과대평가할 수 있으며, 다수 클래스에 대한 정보를 제대로 반영하지 못할 수 있다. 이는 실제 문제 해결에 있어서 치명적인 오류를 발생시킬 수 있다.

비대칭성 문제: F-점수는 데이터 세트의 레이블링 변경 시 값 변경 가능성이 있다는 비판을 받는다. F-점수는 정밀도와 재현율을 기반으로 계산되므로, 데이터 세트의 레이블을 바꾸면 값도 변동될 수 있다. 또한, F-점수는 P4 메트릭과 밀접한 관련이 있다. P4 메트릭은 정밀도와 재현율의 조화 평균을 사용하며, F-점수와 유사한 방식으로 불균형 클래스에 대한 평가를 수행한다.

9. Fowlkes–Mallows 지수와의 차이점

매크로 F1은 각 클래스에 대한 F1 점수의 산술 평균을 계산하여 구한다. 이는 각 클래스에 동등한 가중치를 부여하여 전체 모델 성능을 평가한다. 예를 들어, 모델이 세 개의 클래스를 예측하고 각 클래스에 대한 F1 점수가 각각 0.8, 0.7, 0.9인 경우, 매크로 F1 점수는 (0.8 + 0.7 + 0.9) / 3 = 0.8로 계산된다. 매크로 F1은 클래스 불균형이 심하지 않은 경우 유용하며, 각 클래스의 성능을 동일하게 중요하게 고려해야 할 때 사용된다.

마이크로 F1 점수는 다중 클래스 분류 문제에서 널리 사용되는 평가 지표이다. 이는 모든 클래스에 대한 개별 예측을 집계하여 계산된다. 마이크로 F1 점수는 전체 데이터셋에 대한 거짓 양성(FP) 및 거짓 음성(FN)을 사용하여 정규화된다.

마이크로 F1 점수를 계산하려면 먼저 모든 클래스에 대한 TP(True Positives, 참 양성), FP(False Positives, 거짓 양성) 및 FN(False Negatives, 거짓 음성)을 집계해야 한다. 그런 다음, 마이크로 정밀도(Precision)와 마이크로 재현율(Recall)을 다음과 같이 계산한다.

마이크로 정밀도 = TP / (TP + FP)
마이크로 재현율 = TP / (TP + FN)

마이크로 F1 점수는 정밀도와 재현율의 조화 평균으로 계산된다.

마이크로 F1 = 2 \* (마이크로 정밀도 \* 마이크로 재현율) / (마이크로 정밀도 + 마이크로 재현율)

마이크로 F1 점수의 중요한 특징 중 하나는 다중 클래스 문제에서 정확도와 동일하다는 것이다. 이는 각 클래스에 대한 TP, FP, FN을 집계하여 계산하기 때문이다. 따라서, 마이크로 F1 점수는 전체 데이터셋에 대한 모델의 전반적인 성능을 평가하는 데 유용하다.

다중 클래스 평가에서 마이크로 F1이 정확도와 동일한 이유는 다음과 같다. 정확도는 전체 예측 중 올바르게 예측된 샘플의 비율로 계산된다.

정확도 = TP (모든 클래스) / (TP (모든 클래스) + FP (모든 클래스))

마이크로 F1 점수는 각 클래스에 대한 TP, FP, FN을 집계하여 계산하기 때문에, 마이크로 F1 점수를 계산하는 과정에서 정확도를 계산하는 것과 동일한 계산이 수행된다. 즉, 마이크로 F1 점수는 정확도와 동일한 방식으로 모델의 성능을 평가한다.

10. 다중 클래스 분류로의 확장

마이크로 F1 점수는 다중 클래스 분류 문제에서 널리 활용되는 평가 지표이다. 이는 모든 클래스에 대한 개별 예측을 모아 계산하며, 전체 데이터셋에 대한 거짓 양성(FP) 및 거짓 음성(FN)을 사용하여 정규화된다. 마이크로 F1 점수는 다중 클래스 문제에서 정확도와 동일한 값을 갖는다는 중요한 특징을 가진다.

마이크로 F1 점수를 계산하기 위해서는 먼저 각 클래스에 대한 TP(True Positives, 참 양성), FP(False Positives, 거짓 양성) 및 FN(False Negatives, 거짓 음성)을 집계해야 한다. 그 다음, 마이크로 정밀도와 마이크로 재현율을 다음과 같이 계산한다.

마이크로 정밀도 = TP / (TP + FP)
마이크로 재현율 = TP / (TP + FN)

마이크로 F1 점수는 정밀도와 재현율의 조화 평균으로 계산된다.

마이크로 F1 = 2 \* (마이크로 정밀도 \* 마이크로 재현율) / (마이크로 정밀도 + 마이크로 재현율)

마이크로 F1 점수가 정확도와 동일한 이유는, 각 클래스에 대한 TP, FP, FN을 집계하여 계산하기 때문이다. 정확도는 전체 예측 중 올바르게 예측된 샘플의 비율로 계산되는데, 마이크로 F1 점수 계산 과정에서 정확도와 동일한 계산이 수행된다. 따라서 마이크로 F1 점수는 전체 데이터셋에 대한 모델의 전반적인 성능을 평가하는 데 유용하다.

10. 1. 매크로 F1

매크로 F1은 각 클래스에 대한 F1 점수의 산술 평균을 계산하여 구한다. 이는 각 클래스에 동등한 가중치를 부여하여 전체 모델 성능을 평가한다. 예를 들어, 모델이 세 개의 클래스를 예측하고 각 클래스에 대한 F1 점수가 각각 0.8, 0.7, 0.9인 경우, 매크로 F1 점수는 (0.8 + 0.7 + 0.9) / 3 = 0.8로 계산된다. 매크로 F1은 클래스 불균형이 심하지 않은 경우 유용하며, 각 클래스의 성능을 동일하게 중요하게 고려해야 할 때 사용된다.

10. 2. 마이크로 F1

마이크로 F1 점수는 다중 클래스 분류 문제에서 널리 사용되는 평가 지표이다. 이는 모든 클래스에 대한 개별 예측을 집계하여 계산된다. 마이크로 F1 점수는 전체 데이터셋에 대한 거짓 양성(FP) 및 거짓 음성(FN)을 사용하여 정규화된다.

마이크로 F1 점수를 계산하려면 먼저 모든 클래스에 대한 TP(True Positives, 참 양성), FP(False Positives, 거짓 양성) 및 FN(False Negatives, 거짓 음성)을 집계해야 한다. 그런 다음, 마이크로 정밀도(Precision)와 마이크로 재현율(Recall)을 다음과 같이 계산한다.

마이크로 정밀도 = TP / (TP + FP)
마이크로 재현율 = TP / (TP + FN)

마이크로 F1 점수는 정밀도와 재현율의 조화 평균으로 계산된다.

마이크로 F1 = 2 \* (마이크로 정밀도 \* 마이크로 재현율) / (마이크로 정밀도 + 마이크로 재현율)

마이크로 F1 점수의 중요한 특징 중 하나는 다중 클래스 문제에서 정확도와 동일하다는 것이다. 이는 각 클래스에 대한 TP, FP, FN을 집계하여 계산하기 때문이다. 따라서, 마이크로 F1 점수는 전체 데이터셋에 대한 모델의 전반적인 성능을 평가하는 데 유용하다.

다중 클래스 평가에서 마이크로 F1이 정확도와 동일한 이유는 다음과 같다. 정확도는 전체 예측 중 올바르게 예측된 샘플의 비율로 계산된다.

정확도 = TP (모든 클래스) / (TP (모든 클래스) + FP (모든 클래스))

마이크로 F1 점수는 각 클래스에 대한 TP, FP, FN을 집계하여 계산하기 때문에, 마이크로 F1 점수를 계산하는 과정에서 정확도를 계산하는 것과 동일한 계산이 수행된다. 즉, 마이크로 F1 점수는 정확도와 동일한 방식으로 모델의 성능을 평가한다.

참조

_[1] 뉴스 The truth of the F-measure https://nicolasshu.c[...]
_[2] 간행물 Metrics for evaluating 3D medical image segmentation: analysis, selection, and tool
_[3] 서적 Information Retrieval http://www.dcs.gla.a[...] Butterworth-Heinemann
_[4] 간행물 On model evaluation under non-constant class imbalance Springer
_[5] 간행물 Master your metrics with calibration Springer 2020
_[6] 학위논문 On Understanding and Classifying Web Queries IIT
_[7] 간행물 Learning query intent from regularized click graphs 2008-07
_[8] 문서
_[9] 간행물 What the F-measure doesn't measure
_[10] 간행물 Complementarity, F-score, and NLP Evaluation https://www.aclweb.o[...] 2016
_[11] 서적 An Introduction to Information Retrieval https://nlp.stanford[...] Cambridge University Press 2022-07-18
_[12] 웹사이트 What is the baseline of the F1 score for a binary classifier? https://stats.stacke[...]
_[13] 문서
_[14] 간행물 A note on using the F-measure for evaluating record linkage algorithms - Dimensions https://app.dimensio[...] 2018-12-08
_[15] 간행물 The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation 2020-01
_[16] 간행물 Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation 2011
_[17] 간행물 Extending F1 metric, probabilistic approach
_[18] 간행물 Classification assessment methods 2018-08
_[19] 간행물 A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice https://doi.org/10.1[...] 2024
_[20] 간행물 Macro F1 and Macro F1
_[21] 뉴스 The truth of the F-measure https://www.toyota-t[...]
_[22] 서적 Information Retrieval http://www.dcs.gla.a[...] Butterworth-Heinemann
_[23] 간행물 Learning query intent from regularized click graphs 2008-07
_[24] 문서
_[25] 간행물 What the F-measure doesn't measure
_[26] 간행물 Complementarity, F-score, and NLP Evaluation https://www.aclweb.o[...] 2016
_[27] 간행물 A note on using the F-measure for evaluating record linkage algorithms - Dimensions https://app.dimensio[...] 2018-12-08
_[28] 간행물 The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation 2020-01
_[29] 간행물 Classification assessment methods 2018-08
_[30] 간행물 Macro F1 and Macro F1

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com