맨위로가기

손실 함수

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

손실 함수는 확률 변수의 예측치와 실제값 간의 차이를 나타내는 함수로, 예측 손실을 계산하고, 결정 규칙을 선택하는 데 사용된다. 예측 손실은 손실 함수, 확률 변수, 확률 밀도 함수를 사용하여 계산하며, 빈도주의 통계학 및 베이즈 통계학에서 다르게 정의된다. 손실 함수의 종류로는 이차 손실 함수(제곱 오차 손실)와 0-1 손실 함수가 있으며, 결정 규칙으로는 미니맥스, 불변성, 평균 손실 최소화 등이 있다. 손실 함수는 응용 문제의 맥락에 따라 적절한 추정량을 선택하는 데 중요한 역할을 하며, 경제학, 공중 보건 등 다양한 분야에서 활용된다.

더 읽어볼만한 페이지

  • 최적 결정 - 효용 극대화
    효용 극대화는 소비자가 제한된 예산으로 상품 구매를 통해 얻는 만족을 최대로 하려는 경제 행위이며, 한계효용균등의 법칙에 따라 지출 배분을 결정하고 생산자의 이윤 극대화에도 적용된다.
  • 최적 결정 - 마르코프 결정 과정
    마르코프 결정 과정은 상태, 행동, 전이 함수, 보상 함수 등으로 구성되어 환경과의 상호작용을 통해 최적의 정책을 학습하는 의사결정 문제 모델링 프레임워크로, 인공지능, 제어 이론, 운영 연구 등 다양한 분야에서 활용된다.
  • 결정 이론 - 정책
    정책은 특정 목표 달성을 위해 조직이 마련한 의사 결정 지침이며, 대상, 기능, 효과, 도입 방식 등에 따라 분류되고, 다양한 분야에 존재하며, 정책 순환 모형을 통해 개발 과정을 분석한다.
  • 결정 이론 - 확률
    확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
손실 함수
손실 함수
다른 이름비용 함수
오차 함수
목적 함수
정의수학적 관계로서, 확률적 사건에 비용을 할당한다.
종류
예시제곱 오차
절대 오차
힌지 손실
로그 손실
활용
응용 분야통계적 추론
의사 결정 이론
기계 학습
경제적 비용
금융 위험 관리
후회(리그렛)
목적적합도 함수
모수 추정
특징최적화 목표
역사
기원해럴드 크레이머 (1930년)
에이브러햄 왈드 (1950년)

2. 예측 손실

손실 함수는 확률 변수의 정의를 만족하므로 누적 분포 함수와 예측치를 구할 수 있다.

예측 손실은 손실 함수의 기댓값으로, 모델의 평균적인 오차를 나타낸다. 빈도주의와 베이즈 확률 이론 모두 손실 함수의 기댓값에 기반한 의사결정을 포함하지만, 두 패러다임에서 이 값은 다르게 정의된다.

2. 1. 수식 표현

예측 손실은 다음과 같다.

:\Lambda = \int_{-\infty}^\infty \!\!\lambda(x)\, f(x)\, \mathrm{d}x

여기서

2. 2. 빈도주의 통계학에서의 예측 손실

빈도주의 통계학에서 예측 손실은 관측 데이터 ''X''의 확률 분포 ''P''''θ''에 대한 기댓값을 취하여 계산한다. 이는 결정 규칙 ''δ''와 모수 ''θ''의 위험 함수(risk function|리스크 함수영어)[11][12][13][14]라고도 불린다. 여기서 결정 규칙은 ''X''의 결과에 따라 달라진다. 위험 함수 ''R''(''θ'', ''δ'')는 다음과 같이 정의된다.

:R(\theta, \delta) = \operatorname{E}_\theta L\big( \theta, \delta(X) \big) = \int_X L\big( \theta, \delta(x) \big) \, \mathrm{d} P_\theta (x).

여기서,

  • ''θ''는 고정되어 있지만, 알 수 없는 자연 상태이다.
  • ''X''는 모집단에서 확률론적으로 추출된 관측값의 벡터이다.
  • \operatorname{E}_\theta는 ''X''의 모든 모집단 값에 대한 기댓값이다.
  • d''P''''θ''는 ''X''의 사건 공간에 대한 (θ에 의해 매개변수화된) 확률 측도이다.
  • 적분은 ''X''의 전체 지지집합에 대해 계산된다.

2. 3. 베이즈 통계학에서의 예측 손실

베이즈 통계학에서 기댓값은 모수 ''θ''의 사후 분포 ''π''\*를 사용하여 계산된다.

:\rho(\pi^*,a) = \int_\Theta \int _{\bold X} L(\theta, a(\bold x)) \, \mathrm{d} P(\bold x \vert \theta) \,\mathrm{d} \pi^* (\theta)= \int_{\bold X} \int_\Theta L(\theta,a(\bold x))\,\mathrm{d} \pi^*(\theta\vert \bold x)\,\mathrm{d}M(\bold x)

여기서 m(x)는 ''θ''가 "적분되어 제거된" 예측 가능도(predictive likelihood)이며, π*(θ | x)는 사후 분포이다. 이 기댓값 손실을 최소화하는 행동 a*를 선택해야 하는데, 이것을 베이즈 위험(Bayes Risk)이라고 한다.[12]

위 방정식에서 dx 안의 피적분 함수는 사후 위험(Posterior Risk)이며, 결정 a에 대해 이것을 최소화하면 전체 베이즈 위험도 최소화된다. 이 최적 결정 a*는 베이즈(결정) 규칙(Bayes (decision) Rule)으로 알려져 있으며, 모든 가능한 자연 상태 ''θ''에 대해, 모든 가능한 (확률 가중) 데이터 결과에 걸쳐 평균 손실을 최소화한다. 베이즈 접근법의 장점 중 하나는 균일하게 최적의 것을 얻기 위해 실제 관찰된 데이터 하에서 최적의 행동만 선택하면 된다는 것이다.

베이즈 접근법에서는, 모수 ''θ''의 사후 분포 π*를 사용하여 기댓값을 산출한다.

:\rho(\pi^*,a) = \int_\Theta L(\theta, a) \, \mathrm{d} \pi^* (\theta)

그리고 기대손실을 최소화하는 행동 a*를 선택한다. 베이즈적 방법은 실제로 관측된 데이터에 기반하여 최적의 행동을 선택하는 것에만 관심을 갖는다.

3. 손실 함수의 종류

손실 함수는 문제의 특성과 목적에 따라 다양한 종류가 존재하며, 적절한 손실 함수를 선택해야 한다.


  • 이차 손실 함수 (Quadratic Loss Function): 예측값과 실제값의 차이를 제곱하여 계산하는 함수이다. 최소 제곱법과 같이 이차 손실 함수를 사용하는 일반적인 경우이며, 통계학에서 t-검정, 회귀 분석, 실험계획법 등에 사용되는 선형 회귀 이론을 적용할 때 활용된다.[1] 평균 제곱 오차를 계산하는 데 사용된다.
  • 0-1 손실 함수 (0-1 Loss Function): 예측값이 실제값과 일치하면 0, 그렇지 않으면 1을 부여하는 함수이다. 통계학 및 의사결정 이론에서 자주 사용된다.
  • 후회 (Regret): 레너드 J. 새비지는 미니맥스 등 비베이즈 방법을 사용할 때, 최선의 결정과 실제 결정의 결과 차이를 바탕으로 하는 '후회' 개념을 손실 함수 기반으로 해야 한다고 주장했다.[1]

3. 1. 이차 손실 함수 (Quadratic Loss Function)

이차 손실 함수는 예측값과 실제값의 차이(오차)를 제곱하여 계산하는 함수이다. 이는 최소 제곱법과 같이 이차 손실 함수를 사용하는 일반적인 경우이며, 분산의 특성과 대칭성 때문에 다른 손실 함수보다 수학적으로 다루기 쉽다. 목표값을 상회하는 오차는 목표값을 하회하는 같은 크기의 오차와 동일한 손실을 갖는다. 목표값이 ''t''일 때, 이차 손실 함수는 다음과 같이 표현된다.

:\lambda(x) = C (t-x)^2 \;

여기서 ''C''는 상수이다. 이 상수는 결정에 영향을 주지 않으므로 보통 1로 설정하여 무시한다. 이는 '''제곱 오차 손실'''(squared error loss, SEL)이라고도 불린다.[1]

이차 손실 함수는 선형-이차 최적 제어 문제에도 사용된다. 이러한 문제에서는 불확실성이 없더라도 모든 목표 변수의 원하는 값을 달성하는 것이 불가능할 수 있다. 손실은 주로 관심 변수가 원하는 값에서 벗어난 정도를 나타내는 이차 형식으로 표현된다. 이 방식은 선형 일계 조건을 생성하여 다루기 쉬운 방법이다. 확률적 제어의 맥락에서는 이차 형식의 기댓값을 사용한다.

하지만 이차 손실은 제곱의 특성으로 인해 이상치(outlier)에 실제 데이터보다 더 큰 영향을 줄 수 있다. 따라서 데이터에 큰 이상치가 많은 경우에는 허버, Log-Cosh 및 SMAE 손실과 같은 다른 대안이 사용되기도 한다.

이상치가 있는 데이터에 대한 다른 손실 함수 사용의 효과

3. 1. 1. 통계학에서의 예시

통계학에서 t-검정, 회귀 모형, 실험계획법 등 많은 일반적인 통계량은 이차 손실 함수를 기반으로 하는 선형 회귀 이론을 적용한 최소 제곱법을 사용한다.[1] 이차 손실 함수는 평균 제곱 오차를 계산하는 데 사용되며, 이는 추정치의 성능을 평가하는 지표로 활용된다.

  • 스칼라 매개변수 θ에 대해, 출력값 \hat\theta가 θ의 추정치인 의사결정 함수와 제곱 오차 손실 L(\theta,\hat\theta)=(\theta-\hat\theta)^2, 에서 위험 함수는 추정치의 평균 제곱 오차가 된다. R(\theta,\hat\theta)= \operatorname{E}_\theta \left [ (\theta-\hat\theta)^2 \right ]. 평균 제곱 오차를 최소화하여 찾은 추정량은 사후 분포의 평균을 추정한다.
  • 밀도 추정에서 알려지지 않은 매개변수는 확률 밀도 자체이다. 손실 함수는 일반적으로 적절한 함수 공간에서 노름으로 선택된다. 예를 들어, ''L''2 노름의 경우, L(f,\hat f) = \|f-\hat f\|_2^2\,, 위험 함수는 평균 적분 제곱 오차가 된다. R(f,\hat f)=\operatorname{E} \left ( \|f-\hat f\|^2 \right ).\,

3. 2. 0-1 손실 함수 (0-1 Loss Function)

통계학과 의사결정 이론에서 자주 사용되는 손실 함수는 0-1 손실 함수이다. 0-1 손실 함수는 예측값이 실제값과 일치하면 0, 그렇지 않으면 1의 값을 갖는다.

0-1 손실 함수는 다음과 같이 표현된다.

: L(\hat{y}, y) = \left[ \hat{y} \ne y \right]

아이벌슨 브래킷 표기법을 사용하며, \hat{y} \ne y일 때 1을, 그렇지 않으면 0을 반환한다.

: L(\hat{y}, y) = I(\hat{y} \ne y)

여기서 I지시 함수이다. 즉, 입력이 참으로 평가되면 출력은 1이 되고, 그렇지 않으면 입력이 거짓으로 평가될 경우 출력은 0이 된다.

3. 3. 후회 (Regret)

레너드 J. 새비지는 미니맥스와 같은 비베이즈 방법을 사용할 때, 손실 함수는 '''후회'''의 개념에 기반해야 한다고 주장했다. 여기서 후회란, 어떤 결정을 내린 후 상황이 알려졌을 때 최선의 결정과 실제로 내린 결정의 결과 차이를 의미한다.[1]

4. 손실 함수와 목적 함수의 구축

많은 응용 분야에서 손실 함수와 같은 목적 함수는 문제 정의에 의해 결정된다. 다른 경우에는 의사 결정자의 선호도를 도출하여 최적화에 적합한 형태의 스칼라 값 함수(유틸리티 함수라고도 함)로 나타내야 하는데, 이는 라그나르 프리쉬가 노벨상 수상 강연에서 강조한 문제이다.[4] 목적 함수를 구성하는 기존 방법들은 두 개의 전문 학회 논문집에 수록되어 있다.[5][6] 특히, 안드라닉 탕기안은 가장 유용한 목적 함수(2차 및 가법적)가 몇 가지 무차별점에 의해 결정됨을 보였다. 그는 이 속성을 컴퓨터 지원 인터뷰를 통해 의사 결정자로부터 도출된 순서형 또는 기수형 데이터로부터 이러한 목적 함수를 구성하는 모델에 사용했다.[7][8] 그 외에도 그는 16개의 베스트팔렌 대학교[9]의 예산을 최적으로 배분하고 271개의 독일 지역 간 실업률을 동등하게 하기 위한 유럽 보조금을 위한 목적 함수를 구성했다.[10]

5. 결정 규칙 (Decision Rules)

결정 규칙은 최적성 기준을 사용하여 선택을 한다. 자주 사용되는 기준은 다음과 같다.


  • '''미니맥스''': 최악의 경우(최대 가능 손실)를 최소화한다.
  • '''불변성''': 불변성 요건을 만족하는 결정 규칙을 선택한다.
  • 손실 함수의 기댓값을 최소화하는 결정 규칙을 선택한다.

5. 1. 미니맥스 (Minimax)

결정 규칙은 최적성 기준을 사용하여 선택한다. 일반적으로 사용되는 기준은 다음과 같다.

  • '''미니맥스''': 최악의 손실이 가장 낮은 결정 규칙을 선택한다. 즉, 최악의 경우(최대 가능 손실)를 최소화한다.

: \underset{\delta} {\operatorname{arg\,min}} \ \max_{\theta \in \Theta} \ R(\theta,\delta).

5. 2. 불변성 (Invariance)

불변성은 불변성 요구 사항을 만족하는 결정 규칙을 선택하는 것이다.

5. 3. 평균 손실 최소화

손실의 평균이 가장 낮은 결정 규칙을 선택한다(즉, 손실 함수의 기댓값을 최소화한다).

: \underset{\delta} {\operatorname{arg\,min}} \operatorname{E}_{\theta \in \Theta} [R(\theta,\delta)] = \underset{\delta} {\operatorname{arg\,min}} \ \int_{\theta \in \Theta} R(\theta,\delta) \, p(\theta) \,d\theta.

6. 손실 함수 선택

건전한 통계적 실무는 특정 응용 문제의 맥락에서 실제로 허용 가능한 변동과 일치하는 추정량을 선택하는 것을 요구한다.[15] W. 에드워즈 데밍과 나심 니콜라스 탈레브는 경험적 현실이 손실 함수를 선택하는 유일한 근거가 되어야 하며, 실제 손실은 종종 수학적으로 깔끔하지 않고 미분 가능하거나 연속적이거나 대칭적이지 않다고 주장한다.[17] 예를 들어, 비행기 게이트 폐쇄 시간 전후의 도착은 불연속성과 비대칭성을 가지며, 약간 늦는 것이 훨씬 더 큰 비용을 초래할 수 있다. 약물 투여량 또한 너무 적으면 효과가 없고, 너무 많으면 허용 가능한 독성이 될 수 있어 비대칭성의 예시가 된다.

7. 참고 항목


  • 베이즈 후회(Bayesian regret) - 게임 이론에서 베이즈 전략의 효용과 최적 전략의 효용 간의 기대 차이
  • 분류를 위한 손실 함수(Loss functions for classification) - 분류 문제에서 예측의 부정확성에 대한 손실 함수
  • 할인된 최대 손실액(Discounted maximum loss) - 금융 포트폴리오의 최악의 시나리오의 현재 가치
  • 힌지 손실(Hinge loss) - 기계 학습에서 분류기를 훈련하는 데 사용되는 손실 함수
  • 스코어링 규칙(Scoring rule) - 의사결정 이론에서 확률적 예측을 평가하기 위한 종합 척도
  • 통계적 위험(Statistical risk) - 어떤 상황의 위험을 통계적 방법으로 정량화하는 것
  • 히스토그램
  • 커널 밀도 추정

참조

[1] 서적 The Elements of Statistical Learning https://web.stanford[...] Springer
[2] 서적 Statistical Decision Functions https://psycnet.apa.[...] Wiley
[3] 서적 On the mathematical theory of risk Centraltryckeriet
[4] 서적 The Nobel Prize–Prize Lecture https://www.nobelpri[...] 2021-02-15
[5] 서적 Constructing Scalar-Valued Objective Functions. Proceedings of the Third International Conference on Econometric Decision Models: Constructing Scalar-Valued Objective Functions, University of Hagen, held in Katholische Akademie Schwerte September 5–8, 1995 Springer 1997
[6] 서적 Constructing and Applying Objective Functions. Proceedings of the Fourth International Conference on Econometric Decision Models Constructing and Applying Objective Functions, University of Hagen, held in Haus Nordhelle, August, 28 — 31, 2000 Springer 2002
[7] 학술지 Constructing a quasi-concave quadratic objective function from interviewing a decision maker
[8] 학술지 A model for ordinally constructing additive objective functions
[9] 학술지 Redistribution of university budgets with respect to the status quo
[10] 학술지 Multi-criteria optimization of regional employment policy: A simulation analysis for Germany https://onlinelibrar[...]
[11] SpringerEOM Risk of a statistical procedure
[12] 서적 Statistical decision theory and Bayesian Analysis https://books.google[...] Springer-Verlag
[13] 서적 Optimal Statistical Decisions Wiley Classics Library
[14] 서적 The Bayesian Choice Springer
[15] 서적 Parametric Statistical Theory Walter de Gruyter
[16] 서적 Robust and Non-Robust Models in Statistics Nova Scientific Publishers, Inc.
[17] 서적 Out of the Crisis The MIT Press
[18] 서적 The Elements of Statistical Learning https://web.stanford[...] Springer
[19] 서적 Statistical Decision Functions https://psycnet.apa.[...] Wiley
[20] 서적 On the mathematical theory of risk
[21] 서적 The Nobel Prize–Prize Lecture https://www.nobelpri[...] 2021-02-15
[22] 서적 Constructing Scalar-Valued Objective Functions. Proceedings of the Third International Conference on Econometric Decision Models: Constructing Scalar-Valued Objective Functions, University of Hagen, held in Katholische Akademie Schwerte September 5–8, 1995 Springer 1997
[23] 서적 Constructing and Applying Objective Functions. Proceedings of the Fourth International Conference on Econometric Decision Models Constructing and Applying Objective Functions, University of Hagen, held in Haus Nordhelle, August, 28 — 31, 2000 Springer 2002
[24] 학술지 Constructing a quasi-concave quadratic objective function from interviewing a decision maker
[25] 학술지 A model for ordinally constructing additive objective functions
[26] 학술지 Redistribution of university budgets with respect to the status quo
[27] 학술지 Multi-criteria optimization of regional employment policy: A simulation analysis for Germany https://onlinelibrar[...]
[28] 서적 Parametric Statistical Theory Walter de Gruyter
[29] 서적 Robust and Non-Robust Models in Statistics Nova Scientific Publishers, Inc.
[30] 서적 Out of the Crisis The MIT Press



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com