맨위로가기

베이즈 게임

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

베이즈 게임은 불완전 정보 상황을 모델링하는 데 사용되는 게임 이론의 한 유형으로, 플레이어의 유형에 대한 불확실성을 특징으로 한다. 베이즈 게임은 (N, A, T, p, u)로 정의되며, 플레이어 집합(N), 각 플레이어의 행동 집합(A), 유형 집합(T), 사전 확률(p), 보수 함수(u)로 구성된다. 베이즈 게임은 사전, 중간, 사후 단계로 분석되며, 각 단계는 플레이어의 유형에 대한 지식을 나타낸다. 베이즈 게임의 균형은 베이즈 내시 균형과 완전 베이즈 균형으로 정의되며, 이는 각 플레이어가 상대방의 유형에 대한 자신의 믿음을 바탕으로 기대 보수를 극대화하는 전략 조합을 의미한다. 베이즈 게임은 시그널링 게임, 레몬 시장, 보안관의 딜레마, 독점 시장 진입 게임, 경매, 집단적 행위 주체성, 확률적 베이즈 게임 등 다양한 분야에 응용된다.

2. 베이즈 게임의 구성 요소

베이즈 게임은 불완전정보 게임을 분석하기 위한 모델로, 경기자, 행동, 유형, 보수, 사전 확률 등의 요소로 구성된다. 미비정보 게임은 가상의 경기자인 자연법칙을 도입하여 불완전정보 게임으로 변환할 수 있다.[33]

베이즈 게임은 튜플 (N, A, T, p, u)로 표현할 수 있는데,[33] 각 요소는 다음과 같다:

요소설명
N경기자 집합
A_i경기자 i의 행동 집합
T_i경기자 i의 유형 집합
p경기자의 유형에 관한 결합확률
u_i경기자 i의 보수함수



경기자의 전략은 자신의 유형에 따른 행동 계획으로 정의된다.[33] 순수전략은 함수 s_i : T_i \to A_i이고, 혼합전략은 함수 \sigma_i : T_i \to \triangle A_i이다.

완비 정보 게임의 정규형 표현은 플레이어들의 전략 공간과 효용 함수로 나타난다. 베이즈 게임에서는 각 플레이어에 대해 전략 공간, 타입 공간, 효용 함수 및 신념을 특정화해야 한다. 신념은 다른 플레이어의 타입에 관한 불확실성을 나타내며, 조건부 확률 ''p''(다른 플레이어의 타입 | 자신의 타입)로 표현된다.

베이즈 게임 G는 다음과 같이 정의된다.

:G = \langle N, \Omega, \langle A_i, u_i, T_i, \tau_i, p_i, C_i \rangle_{i\in N} \rangle

여기서,


  • C_i \subseteq A_i \times T_i는 플레이어 iT_i에 속하는 타입일 때 취할 수 있는 행동을 정한다.
  • p_i는 플레이어 i에 대한 \Omega 상의 확률 분포로, 각 플레이어는 자연 상태의 확률 분포에 대해 다른 견해를 가질 수 있다.


순수 전략 s_i: T_i \to A_i는 모든 t_i에 대해 (s_i (t_i), t_i) \in C_i를 만족해야 한다. 순수 전략의 집합 S_i는 다음과 같이 정의된다.

:S_i = \{ s_i: T_i \rightarrow A_i \mid (s_i (t_i) ,t_i) \in C_i, \forall t_i \}.

게임 G의 베이지안 균형은, 게임 \hat G = \langle N, \hat A = S_1 \times \cdots \times S_N, \hat u = u \rangle의 내쉬 균형으로 정의된다. 유한 게임 G에 대해서는, 베이지안 균형은 항상 존재한다.

2. 1. 플레이어 (N)

베이즈 게임에서 플레이어 집합 ''N''은 게임에 참여하는 의사 결정 주체들을 의미한다.[33] 플레이어는 각자 선택할 수 있는 행동 집합, 가질 수 있는 유형 집합, 그리고 유형과 행동에 따른 보수 함수를 가진다.

2. 2. 행동 집합 (A)

A_i는 경기자 i의 행동 집합이다.[33] 행동 집합은 게임 내에서 경기자가 선택할 수 있는 행동의 집합을 의미한다.[33] 예를 들어, 카드 게임에서 카드의 임의 정렬 순서와 같은 것들이 해당될 수 있다.

2. 3. 유형 집합 (T)

Bayes영어 게임에서 각 플레이어가 가질 수 있는 사적인 정보의 집합을 유형 집합이라고 하며, T_i로 표시한다. 이는 기업의 생산 비용, 개인의 능력, 제품의 품질 등 다양한 정보가 될 수 있다.[33]

베이즈 게임은 (N, A, T, p, u)로 정의되며, 여기서 T는 유형 집합을 나타낸다. 구체적으로, T_i는 경기자 i의 유형 집합을 의미한다.

T_i는 플레이어 i의 타입 집합이며, 함수 \tau_i: \Omega \to T_i에 의해 결정된다. 이는 자연의 각 상태에 따라 플레이어들이 다른 타입을 가지며, 플레이어들의 귀결이 타입을 결정한다는 것을 의미한다. 같은 귀결을 가진 플레이어는 같은 타입에 속한다.

2. 4. 보수 함수 (u)

Utility function|보수 함수영어는 각 플레이어의 행동과 유형에 따라 결정되는 효용 또는 이익을 나타내는 함수이다.[33] 베이즈 게임에서, 플레이어 ''i''의 보수 함수 ''ui''는 ''ui : A × T → ℝ'' 와 같이 표현된다. 여기서 ''A''는 행동 집합, ''T''는 유형 집합을 의미한다. 즉, 보수 함수는 플레이어의 행동과 유형의 조합에 따라 효용값을 결정한다.

보다 형식적으로, 베이즈 게임 ''G = ⟨N, Ω, ⟨Ai, ui, Ti, τi, pi, Cii∈N⟩'' 에서,

  • ''ui: Ω × A → R'' 은 플레이어 ''i''의 효용 함수를 나타낸다.
  • ''L = { (ω, a1, ..., aN) | ω ∈ Ω, ∀i, (ai, τi(ω)) ∈ Ci }'' 일 때, ''ui: L → R'' 이 된다.


여기서,

  • ''N''은 플레이어 집합
  • ''Ω''은 자연 상태 집합 (예: 카드 게임에서 카드의 무작위 배열)
  • ''Ai''는 플레이어 ''i''의 행동 집합, ''A = A1 × A2 × ... × AN''
  • ''Ti''는 플레이어 ''i''의 유형 집합, 함수 ''τi: Ω → Ti''에 의해 결정
  • ''Ci ⊆ Ai × Ti''는 플레이어 ''i''의 유형 ''Ti''가 취할 수 있는 행동을 정의
  • ''pi''는 플레이어 ''i''에 대한 ''Ω'' 상의 확률 분포


순수 전략 ''si: Ti → Ai''는 모든 ''ti''에 대해 ''(si(ti), ti) ∈ Ci''를 만족해야 한다. 플레이어 ''i''의 기대 효용은 ''ui(S) = Eω∼pi[ui(ω, s11(ω)), ..., sNN(ω)))]''로 주어진다.

2. 5. 사전 확률 (p)

사전 확률(p)은 다른 플레이어의 유형에 대한 각 플레이어의 초기 믿음을 나타내는 확률 분포이다. 모든 가능한 유형 프로필에 대한 확률 분포이며, 여기서 ''p(t) = p(t1, . . . ,tN)''는 플레이어 1이 유형 ''t1''을 갖고 플레이어 ''N''이 유형 ''tN''을 가질 확률이다.[1]

3. 베이즈 게임의 단계

베이즈 게임은 사전 단계, 중간 단계, 사후 단계의 세 단계로 분석할 수 있다.[7] 미비정보 게임은 가상의 경기자인 자연법칙이 확률적으로 움직이는 형태의 불완전정보 게임으로 변환할 수 있다.[33]

3. 1. 사전 단계

플레이어들은 자신의 유형이나 다른 플레이어들의 유형을 알지 못한다. 플레이어들은 가능한 모든 유형에 대한 사전 분포를 기반으로 보수를 기대값으로 인식한다.[7]

3. 2. 중간 단계

플레이어는 자신의 유형은 알지만, 다른 플레이어의 유형은 확률 분포로만 안다. 플레이어는 보수를 고려할 때 다른 플레이어의 유형에 대한 기대값을 연구한다.[7]

3. 3. 사후 단계

플레이어들은 자신의 유형과 다른 플레이어들의 유형을 모두 알게 된다. 보수는 플레이어들에게 알려져 있다.[7]

4. 베이즈 게임의 균형

일반 게임에서 상대방의 전략이 주어졌다고 가정할 때 최적반응은 내시 균형이다. 즉, 다른 모든 경기자의 전략이 주어져 있는 상태에서 경기자가 일방적으로 행동을 바꿈으로써 더 높은 보수를 얻을 수 없다. 베이즈 게임에서도 유사한 개념을 정의할 수 있는데, 일반 게임과의 차이점은 상대방의 유형에 대한 믿음 체계(beliefs)를 바탕으로 자신의 기대 보수를 극대화한다는 점이다.

유한 베이즈 게임(행동 공간과 유형 공간 모두 유한한 경우)에서는 에이전트 형태 게임이나 유도된 정규형이라는 두 가지 동등한 표현으로 베이즈 내시 균형(BNE)을 계산할 수 있다.[9][10] 제로섬 목적 함수를 가진 두 명의 플레이어를 고려할 때, 선형 계획법을 구성하여 BNE를 계산할 수 있다.[11]

4. 1. 베이즈 내시 균형 (Bayesian Nash Equilibrium)

내시 균형은 다른 모든 경기자의 전략이 주어져 있는 상태에서, 경기자가 일방적으로 행동을 바꿈으로써 더 높은 보수를 얻을 수 없는 상태를 의미한다. 베이즈 게임에서도 이와 유사한 개념을 정의할 수 있는데, 일반 게임과의 차이점은 상대방의 유형에 대한 믿음 체계(beliefs)를 바탕으로 자신의 기대 보수를 극대화한다는 점이다.

'''베이즈 내시 균형'''은 각 경기자가 상대방의 유형에 대한 자신의 믿음 체계와 상대방의 전략이 주어졌다고 가정할 때, 자신의 기대 보수를 극대화하는 전략 조합으로 정의된다. 모든 경기자 i에 대해서 다음 조건을 만족할 때 전략조합 (s_1^*, s_2^*, ..., s_n^*)은 베이즈 내시 균형이 된다.[34] 여기서 t_i \in T_i는 개별 경기자의 유형이다.

:\forall i, \quad s_{i}^{*} \in \operatorname{arg} \max_{s_i'} \sum_{t_{-i}} p(t_{-i}|t_i) u_{i}(s_i', s_{-i}^{*},t_{i}, t_{-i})

베이즈 게임의 베이즈-내시 균형은 관련된 사전적 정규형 게임의 내시 균형이다. 비베이즈 게임에서, 전략 프로파일은 프로파일 내의 모든 전략이 프로파일 내의 다른 모든 전략에 대한 최적 반응인 경우, 즉 다른 플레이어들이 사용하는 모든 전략을 고려할 때, 플레이어가 더 높은 보상을 얻을 수 있는 전략이 없는 경우 내시 균형이다.

베이즈 게임에서도 유사한 개념을 정의할 수 있는데, 차이점은 모든 플레이어의 전략이 자연 상태에 대한 그들의 믿음을 고려하여 기대 보상을 최대화한다는 것이다. 플레이어의 자연 상태에 대한 믿음은 베이즈 규칙에 따라 플레이어 자신의 유형에 대한 사전 확률 p를 조건화하여 형성된다.

''베이즈-내시 균형(BNE)''은 각 플레이어가 자신의 믿음과 다른 플레이어들이 사용하는 전략을 고려할 때 기대 보상을 최대화하는 전략 프로파일로 정의된다. 즉, 모든 플레이어 i에 대해, 다른 모든 플레이어의 전략을 고정하고, 전략 \sigma_i가 해당 플레이어의 믿음에 따라 플레이어 i의 기대 보상을 최대화하는 경우에만 전략 프로파일 \sigma는 베이즈-내시 균형이다.[5]

유한 베이즈 게임, 즉 행동 공간과 유형 공간 모두가 유한한 경우, 두 가지 동등한 표현이 있다. 첫 번째는 에이전트 형태 게임이라고 하며 (게임 이론 책의 정리 9.51 참조[9]), 플레이어의 수를 |N|에서 \sum_{i=1}^

|\Theta_i|로 확장한다. 즉, 각 플레이어의 모든 유형이 플레이어가 된다. 두 번째는 유도된 정규형이라고 하며 (다중 에이전트 시스템의 섹션 6.3.3 참조[10]) 여전히 |N|명의 플레이어가 있지만, 각 플레이어 i의 행동 수를 |A_i|에서 |A_i|^

로 확장한다. 즉, 순수 정책은 플레이어가 다른 유형에 대해 취해야 하는 행동의 조합이다. 내시 균형 (NE)은 이 두 가지 동등한 표현에서 계산할 수 있으며, BNE는 NE에서 복구할 수 있다. 제로섬 목적 함수를 가진 두 명의 플레이어를 고려해 보자. 선형 계획법을 구성하여 BNE를 계산할 수 있다.[11]

베이지안 게임에서는 전략 공간, 타입 공간, 효용 함수 및 신념을 각 플레이어에 대해 특정화해야 한다. 플레이어의 전략은 그 플레이어가 될 수 있는 모든 타입에 대해 발생할 수 있는 모든 상황을 커버하는 행동의 완전한 계획이다. 전략은 실제로 실현된 타입을 하나 주어졌을 때 그것에 대한 행동 계획이어야 하며, 만약 자신이 다른 타입이 되었다면 취했을 행동도 정해져 있어야 한다. 전략 공간은 앞서 언급한 바와 같다. 플레이어의 타입 공간은 단순히 그 플레이어가 취할 수 있는 모든 타입의 집합이다. 플레이어의 신념은 다른 플레이어의 타입에 관해 자신이 가지고 있는 불확실성을 나타낸 것이다. 각각의 신념은 그 신념을 가진 플레이어 자신의 타입을 주어진 것으로, 다른 플레이어들이 특정 타입을 가지고 있을 확률이다(즉, 신념은 조건부 확률 ''p''(다른 플레이어의 타입 | 자신의 타입)). 효용 함수는 전략 프로파일과 타입 프로파일의 2변수 함수이다. 플레이어가 효용 함수 U (x, y) 를 가지고, 그 타입이 t 라면, 이 플레이어가 얻는 효용은 U (x^*, t) 가 된다. 여기서 x^* 는 게임에서 취해지는 전략 프로파일(전략의 조).

게임 G 의 베이지안 균형은, 게임 \hat G = \langle N, \hat A = S_1 \times \cdots \times S_N, \hat u = u \rangle 의 (혼합 전략일 수 있는) 내쉬 균형으로 정의된다. 따라서, 유한 게임 G 에 대해서는, 베이지안 균형은 항상 존재한다.

베이즈 게임이 아닌 게임에서 전략 프로파일이 내쉬 균형이라는 것은, 해당 전략 프로파일에서의 각 플레이어의 전략이 다른 플레이어들의 전략에 대해 최적 반응을 보인다는 것을 의미하며, 즉, 다른 플레이어의 전략을 주어진 것으로 간주할 때 더 높은 이득을 얻을 수 있는 전략이 존재하지 않는다는 것을 의미한다. 베이즈 게임에서는 합리적인 플레이어는 다른 플레이어에 대한 자신의 신념을 주어진 것으로 간주하여 자신의 기대 이득을 최대화하려고 한다.

4. 2. 완전 베이즈 균형 (Perfect Bayesian Equilibrium)

확장형 게임에서의 완전 베이즈 평형은 전략과 신념의 조합으로, 다음과 같은 두 가지 조건을 만족한다.[15]

# 베이즈 일관성: 신념은 고려 중인 전략과 일치한다.

# 순차적 합리성: 플레이어는 자신의 신념을 바탕으로 최적의 선택을 한다.

베이즈 내시 균형은 플레이어가 동시에 움직이는 대신 순차적으로 움직이는 동적 게임에서 비현실적인 균형을 초래할 수 있다. 완전 정보 게임에서와 마찬가지로, 이는 균형 경로를 벗어난 비신뢰 전략을 통해 발생할 수 있다. 불완전 정보 게임에서는 비신뢰 신념이라는 추가적인 가능성 또한 존재한다.

이러한 문제를 해결하기 위해, 부분 게임 완전 균형처럼 완전 베이즈 평형은 모든 정보 집합에서 시작하여 이후의 플레이가 최적이어야 한다. 또한 긍정적인 확률로 발생하는 모든 플레이 경로에 대해 베이즈 정리와 일관되게 신념을 업데이트해야 한다.

베이즈 내시 균형이나 부분 게임 완전화에 의해 생성되는 균형을 정교화하기 위해 '''완전 베이즈 균형''' 개념을 사용할 수 있다. 완전 베이즈 균형에는 연속 플레이가 최적이어야 한다는 부분 게임 완전화의 정신이 있다. 그러나 한 점 집합이 아닌 정보 집합에서의 턴에서는, 보다 만족스러운 취급이 이루어지도록 결정절에 관한 플레이어의 신념을 정한다.

지금까지 베이즈 게임에 대해 논의해 온 곳에서는 정보가 완전하다고 (혹은 불완전할 때는 턴은 동시적이다) 가정해 왔다. 그러나 동학적인 게임을 조사함에 있어서는 불완비 정보를 모델화할 수단이 필요하게 된다. 완전 베이즈 균형은 이 수단을 제공한다. 플레이어들은 자신의 정보 집합에서 발생하는 노드에 신념을 정한다. 이것은 정보 집합이 자연(불완비 정보의 경우) 또는 다른 플레이어(불완전 정보의 경우)에 의해 생성될 수 있다는 것을 의미한다.

베이즈 게임에서 각 플레이어가 갖는 신념은 완전 베이즈 균형에서 더욱 엄밀하게 계산된다. 신념 체계는 임의의 정보 집합에서 그 안의 확률의 합이 1이 되도록 게임의 각 노드에 확률을 할당하는 것이다. 플레이어의 신념은 해당 플레이어가 차례를 갖는 모든 정보 집합에서 노드의 이러한 확률 분포이다 (플레이어의 신념은 해당 플레이어의 정보 집합의 합집합에서 [0, 1]로의 함수로 쓰이기도 한다). 신념 체계가 주어진 전략 프로파일과 '''합치'''된다는 것은, 해당 체계에 의해 각 노드에 할당되는 확률이 해당 전략 프로파일을 전제로 그 노드에 도달할 확률로서 베이즈 규칙을 사용하여 계산된 경우를 말한다.

연속 합리성의 개념은 완전 베이즈 균형에서 연속적인 플레이의 최적성을 결정하는 것이다. 전략 프로파일이 특정 신념 체계에 대해 특정 정보 집합에서 '''연속적으로 합리적'''이라는 것은, 해당 정보 집합에서 턴을 가진 플레이어의 기대 효용이 다른 플레이어의 전략을 전제로 최대임을 의미한다. 모든 정보 집합에 대해 전술한 조건이 성립할 때, 해당 전략 프로파일은 이 특정 신념 체계에 대해 연속적으로 합리적이라고 한다.

완전 베이즈 균형은 전략 프로파일과 신념 체계로, 전략이 신념 체계를 조건으로 순차적으로 합리적이며, 신념 체계가 전략 프로파일을 조건으로 도달 가능한 모든 부분에서 일관적인 것을 말한다.

"도달 가능한 모든 부분에서"라는 구절을 명시하는 것은 필요하다. 왜냐하면 전략 프로파일을 조건으로 어떤 정보 집합은 도달 불가능할 수 있는데, 그럴 때에는 그 집합 내의 점에 대해 확률을 계산할 때 베이즈 규칙을 사용할 수 없기 때문이다. 이러한 정보 집합은 '''균형 경로 밖''' (off the equilibrium path)이라고 하며, 어떤 신념도 할당할 수 있다. 더 강력한 일관성의 개념에서는 경로 밖 정보 집합에 대해서도 "합리적"이도록 추가적인 제약이 가해진다.

5. 시그널링 게임

시그널링 게임은 정보를 가진 측(송신자)이 정보를 가지지 못한 측(수신자)에게 자신의 유형에 대한 정보를 전달하는 베이즈 게임이다. 신호 발신자는 자신의 유형을 나타내는 신호를 보내고, 신호 수신자는 이 신호를 바탕으로 자신의 행동을 결정한다.[1]

시그널링 게임에서 정보를 가진 쪽("'''에이전트'''")은 자신의 유형을 알고 있지만, 정보를 가지지 못한 쪽("'''프린시펄'''")은 에이전트의 유형을 모른다. 이러한 게임에서는 "분리 균형"에서 프린시펄이 에이전트의 유형을 에이전트가 취하는 행동(프린시펄에게 보내는 신호)에 따라 추론할 수 있다.[1]

5. 1. 시그널링의 예시: 노동 시장 모델

시그널링 게임은 베이지안 게임의 한 예시이다. 노동 시장 모델은 시그널링 게임의 특별한 예시로, 구직자(에이전트)와 고용주(프린시펄)가 플레이어이다. 구직자는 유능함과 무능함의 두 가지 유형으로 나뉘며, 고용주는 구직자가 어느 유형인지 모르지만, 구직자의 90%는 무능하고 10%는 유능하다는 것을 알고 있다고 가정한다.

고용주는 임금을 통해 구직자의 능력을 예상하고 계약에 사용한다. 유능한 노동자에게 더 높은 임금을 지불하는 것이 고용주에게 더 큰 이익을 가져다주지만, 무능한 노동자에게는 성과가 없을 수 있다. 따라서 고용주는 구직자의 능력과 지불하는 임금에 따라 이익을 얻는다. 고용주는 구직자가 얼마나 유능한지에 대한 자신의 신념에 따라 제시하는 임금을 선택하고, 이 신념은 구직자로부터 보내지는 신호에 따라 결정된다.

구직자는 대학 교육을 받는지 여부로 행동을 선택한다. 유능한 노동자는 장학금을 받거나 수업이 어렵지 않아 대학 교육 비용이 낮을 수 있다. 이러한 대학 교육은 구직자가 고용주에게 자신이 유능하다는 것을 전달하는 "신호"가 된다.

고용주는 유능한 구직자라면 대학에 갈 수 있지만, 무능한 구직자에게는 충분하지 않은 임금을 제공하는 전략을 취할 수 있다. 이는 '''분리 균형'''을 만들어내는데, 유능한 구직자는 대학에 감으로써 자신의 능력을 나타내고, 무능한 구직자는 그렇지 않는다. 고용주는 어떤 노동자가 대학에 갈 수 있는지 관찰하여 유능한 노동자에게는 높은 임금을, 무능한 노동자에게는 낮은 임금을 지불하여 이익을 최대화할 수 있다.

5. 2. 분리 균형과 풀링 균형

시그널링 게임은 베이지안 게임의 한 예시이다. 정보를 가진 쪽의 참가자("'''에이전트'''")는 자신의 유형을 알고 있고, 그렇지 않은 쪽의 참가자("'''프린시펄'''")는 에이전트의 유형을 모른다. 이러한 게임에서는 "분리 균형"으로 알려진 균형에서 프린시펄이 에이전트의 유형을 에이전트가 취하는 행동(프린시펄에게 보내는 신호 형태로 나타남)에 따라 추론할 수 있는 경우가 있다.

시그널링 게임의 특별한 예시는 노동 시장 모델이다. 플레이어는 구직자(에이전트)와 고용주(프린시펄)이다. 구직자는 유능함과 무능함, 두 가지 유형으로 구분된다. 고용주는 구직자가 어느 유형인지 모르지만, 구직자의 90%는 무능하고 10%는 유능하다는 것을 알고 있다고 가정한다("유능" 유형의 확률은 0.1이고 "무능" 유형의 확률은 0.9).

고용주의 행동 공간은 자연수의 집합으로, 이는 임금을 나타낸다. 임금은 구직자가 얼마나 유능할 것으로 예상되는지에 따라 계약 시 사용된다. 유능한 노동자에게 더 높은 임금을 지불하는 것은 고용주에게 더 큰 이익을 가져다주겠지만, 무능한 노동자에게 임금이 지불되면, 그다지 성과는 없을 것이다. 따라서 고용주의 이익은 (만약 계약이 체결된다면) 구직자의 능력과 지불하는 임금에 따라 결정된다. 중요한 점은, 고용주는 구직자가 얼마나 유능한지에 대한 자신의 신념에 따라 행동(제시하는 임금)을 선택하는데, 이 신념은 구직자로부터 보내지는 신호를 통해 대부분 결정된다는 것이다.

구직자의 행동 공간은 대학 교육을 받는지 안 받는지의 두 가지 행동으로 구성된다고 가정한다. 유능한 노동자는 장학금을 받을 수 있다거나, 수업이 별로 어렵지 않다거나 하는 이유로 대학 교육을 받는 데 드는 비용이 낮다고 가정한다. 이렇게 대학 교육이 구직자가 고용주에게 자신이 실제로 유능하다는 것을 전달할 수 있는 수단, 즉 "신호"가 된다.

고용주가 취할 수 있는 한 가지 전략은, 유능한 구직자라면(그 교육을 받는 비용이 낮기 때문에) 대학에 갈 수 있지만 무능한 구직자에게는 충분하지 않은 임금을 모든 구직자에게 제공하는 것이다. 이는 '''분리 균형'''을 만들어낸다. 이때 유능한 구직자는 대학에 감으로써 자신의 능력을 나타낼 수 있고, 무능한 구직자는 그렇게 하지 않는다. 고용주는 어떤 노동자가 대학에 갈 수 있는지를 관찰할 수 있으며, 따라서 유능한 노동자에게는 높은 임금을, 무능한 노동자에게는 낮은 임금을 지불함으로써 자신의 이익을 최대화할 수 있다.

6. 베이즈 게임의 응용

베이즈 게임은 현실의 여러 상황을 분석하고 해결하는 데 유용하게 쓰인다. 특히, 정보가 불완전한 상황에서 의사 결정을 해야 할 때 그 진가를 발휘한다.



예를 들어, 중고차 시장에서 구매자는 판매자가 제시하는 차의 실제 가치를 알 수 없다. 이러한 정보의 비대칭성은 레몬 시장 문제로 이어져, 결국 시장 전체의 붕괴를 초래할 수 있다. 베이즈 게임은 이러한 상황을 분석하여, 구매자와 판매자 모두에게 최선의 전략을 찾도록 돕는다.



'보안관의 딜레마' 상황처럼 보안관과 용의자가 대치하는 경우에도 베이즈 게임으로 분석할 수 있다. 용의자가 범죄자인지 민간인인지 알 수 없는 상황에서, 보안관은 확률에 기반하여 총을 쏠지 말지 결정해야 한다.



새로운 회사가 독점 시장에 진입하려 할 때도 베이즈 게임이 활용될 수 있다. 기존 독점 기업의 유형을 알 수 없지만, 과거 사례를 통해 확률을 추론하고, 이를 바탕으로 시장 진입 전략을 수립할 수 있다.



베이즈 게임은 집단적 행위 주체성을 다루는 데에도 확장될 수 있다. 개별 플레이어의 행동뿐만 아니라, 집단의 관점을 고려하여 의사 결정 과정을 분석할 수 있다.



확률적 베이즈 게임은 베이즈 게임과 확률적 게임의 정의를 결합한 것이다.[16] 환경 상태를 확률적으로 표현하고, 각 상태에서 서로 다른 플레이어 유형에 대한 불확실성을 고려한다. 이는 방위 및 보안 계획,[17] 발전소의 사이버 보안,[18] 자율 주행,[19] 모바일 에지 컴퓨팅,[20] 등 다양한 문제를 해결하는 데 사용된다.[22]

6. 1. 레몬 시장

레몬 시장역선택이라는 개념과 관련이 있다.

'''설정'''

중고차 시장에서, 잠재적 구매자인 플레이어 1은 판매자(플레이어 2)가 가진 차의 가치(''v'', 차량 상태 등)를 알지 못한다. 플레이어 1은 차의 가치가 0에서 100 사이에서 균등하게 분포한다고 믿는다.

플레이어 1은 0에서 100 사이의 가격(''p'')을 제시할 수 있고, 플레이어 2는 이를 수락하거나 거부할 수 있다. 각 플레이어의 보상은 다음과 같다.

  • 플레이어 1의 보상: 입찰 수락 시 ''3/2v-p'', 입찰 거부 시 0
  • 플레이어 2의 보상: 입찰 수락 시 ''p'', 입찰 거부 시 ''v''


'''중요 포인트: 컷오프 전략'''

플레이어 2는 특정 가격 ''P*'' 이상의 모든 입찰을 수락하고, ''P*'' 미만의 입찰을 거부하는 컷오프 전략을 사용한다.

  • "레몬"(상태가 좋지 않은 중고차, 특히 가치가 ''p'' 이하인 차)만 거래된다.[27]
  • 플레이어 1은 0을 입찰하여 보상을 0으로 보장할 수 있으므로, 균형 상태에서 ''p'' = 0이다.[27]
  • "레몬"만 거래되므로 시장이 붕괴된다.[27]
  • 거래가 경제적 효율성을 가져다줄 수 있음에도 거래가 불가능하다.[27]

6. 2. 보안관의 딜레마

보안관과 무장한 용의자가 대치하는 상황에서, 둘은 동시에 서로를 쏠지 말지 결정해야 한다.

용의자는 "범죄자" 또는 "민간인" 유형 중 하나일 수 있다. 보안관은 용의자의 유형을 모르지만, 용의자는 자신의 유형과 보안관의 유형을 알고 있다. 이러한 정보의 비대칭성 때문에 이 상황은 불완전 정보를 가진 베이즈 게임이 된다. 용의자가 범죄자일 확률은 ''p''이고, 민간인일 확률은 ''1-p''이다.

보안관은 용의자가 쏘면 자신을 방어하기 위해 쏘는 것을 선호하고, 용의자가 쏘지 않으면 쏘지 않는 것을 선호한다. 용의자는 범죄자일 경우 보안관이 쏘지 않아도 쏘는 것을 선호하지만, 민간인일 경우 보안관이 쏘더라도 쏘지 않는 것을 선호한다.

이 게임의 보수 행렬은 다음과 같다.

유형 = "범죄자"
보안관의 행동
쏘기안 쏘기
용의자의 행동쏘기0, 02, -2
안 쏘기-2, -1-1, 1



유형 = "민간인"
보안관의 행동
쏘기안 쏘기
용의자의 행동쏘기-3, -1-1, -2
안 쏘기-2, -10, 0



두 선수 모두 합리적이고 서로가 합리적임을 알고 있다는 공통 지식 하에, 게임의 플레이는 다음과 같이 진행된다.[25][26]

용의자는 범죄자일 때 쏘는 것이 우월 전략이고, 민간인일 때 쏘지 않는 것이 우월 전략이다. 보안관이 쏠 경우, 기대 보수는 ''p-1''이고, 쏘지 않을 경우 기대 보수는 ''-2p''이다. 따라서 보안관은 ''p-1 > -2p'', 즉 ''p > 1/3''일 때 항상 쏠 것이다.

6. 3. 독점 시장 진입 게임

새로운 회사(플레이어 1)가 대기업에 의해 독점된 시장에 진입하려는 경우, 두 가지 유형의 독점 기업(플레이어 2)과 마주하게 된다. 유형 1은 진입을 방해하고 유형 2는 진입을 허용한다. 플레이어 1은 플레이어 2에 대한 완전한 정보를 갖지 못하지만, 시장 진입을 시도했던 이전 회사가 방해받았는지 여부를 통해 유형 1과 유형 2가 나타날 확률을 추론할 수 있으며, 이는 베이즈 게임이다. 이러한 판단의 이유는 플레이어 2에게 방해 비용이 발생하기 때문이다. 플레이어 2는 플레이어 1이 시장에 진입하는 것을 막기 위해 상당한 가격 인하를 해야 할 수 있으며, 따라서 시장 진입을 통해 얻는 이익이 방해 비용보다 클 경우 플레이어 1을 방해할 것이다.

6. 4. 집단적 행위 주체성

베이즈 게임은 집단적 행위주체성을 다루는 데에도 확장될 수 있다. 한 가지 접근 방식은 개별 플레이어가 고립적으로 추론하지만, 특정 확률로 집단의 관점에서 추론하도록 허용하는 것이다.[23] 또 다른 접근 방식은 모든 집단적 행위자 내의 플레이어는 해당 행위자가 존재한다는 것을 알고 있지만, 다른 플레이어는 이를 알지 못하며, 다만 특정 확률로 의심한다는 것이다.[24] 예를 들어, 앨리스와 밥은 자연 상태에 따라 개별적으로 최적화하거나 팀으로 공모할 수 있지만, 다른 플레이어는 어떤 경우인지 알 수 없다.

6. 5. 확률적 베이즈 게임

하서니는 베이즈 게임에 대해 두 가지 중요하고 새로운 측면을 명시했다.[8] 첫째, 베이즈 게임은 완전 정보 게임과 동일하게 구성되지만, 확률을 부여함으로써 불완전 정보 게임처럼 작동한다. 따라서 플레이어는 불완전한 정보를 가진 것으로 모델링될 수 있으며, 게임의 확률 공간은 전확률의 법칙을 따른다. 베이즈 게임은 플레이어가 서로의 생각을 파악하려 할 때 발생하는 무한 시퀀스 계산을 필요로 하지 않는다. 예를 들어, "만약 내가 플레이어 B로부터 어떤 행동을 기대한다면, 플레이어 B는 내가 그 행동을 기대할 것이라고 예상할 것이고, 따라서 나는 그 예상을 예상해야 한다"와 같이 결정할 수 있다. 베이즈 게임은 서로 다른 결과에 서로 다른 확률 가중치를 할당하여 이러한 계산을 한 번에 수행한다. 그 결과, 베이즈 게임은 비 베이즈 설정에서는 계산하기 비합리적일 수 있는 여러 게임을 모델링할 수 있게 해준다.

확률적 베이즈 게임[16]은 베이즈 게임과 확률적 게임의 정의를 결합하여, 환경 상태(예: 물리적 세계 상태)를 상태 간의 확률적 전이뿐만 아니라 각 상태에서 서로 다른 플레이어 유형에 대한 불확실성으로 표현한다. 결과 모델은 베이즈 내시 균형과 벨만 최적 방정식의 재귀적 조합을 통해 해결된다. 확률적 베이즈 게임은 방위 및 보안 계획,[17] 발전소의 사이버 보안,[18] 자율 주행,[19] 모바일 에지 컴퓨팅,[20] 동적 시스템의 자기 안정화,[21] 그리고 크라우드소싱 IoT의 잘못된 행위 처리를 포함한 다양한 문제를 해결하는 데 사용되어 왔다.[22]

참조

[1] 서적 Encyclopedia of Complexity and Systems Science 2009
[2] 문서 "Games with Incomplete Information Played by Bayesian Players, I-III." Management Science 14 (3): 159-183 (Part I), 14 (5): 320-334 (Part II), 14 (7): 486-502 (Part III). 1967/1968
[3] 학술지 Games with Incomplete Information Played by "Bayesian" Players, I-III. Part II. Bayesian Equilibrium Points 1968
[4] 학술지 Games with Incomplete Information Played by "Bayesian" Players, I-III. Part III. The Basic Probability Distribution of the Game 1968
[5] 학술지 The Robustness of Equilibria to Incomplete Information
[6] 학술지 Philosophy of Game Theory 2012
[7] 학술지 Ex ante versus ex post equilibria in classical Bayesian games with a nonlocal resource https://journals.aps[...] 2020-06-29
[8] 학술지 Games with Incomplete Information Played by "Bayesian" Players, I-III: Part I. The Basic Model 2004
[9] 서적 Game Theory http://ebooks.cambri[...] Cambridge University Press 2013
[10] 서적 Multiagent Systems Cambridge University Press 2008
[11] 학술지 The LP formulation of finite zero-sum games with incomplete information 1980-06
[12] 학술지 Extensive Form Games https://gtl.csa.iisc[...] 2012-07
[13] 간행물 Strategic-form games http://dx.doi.org/10[...] Cambridge University Press 2013-03-21
[14] 학술지 Bayes' rule: a tutorial introduction to Bayesian analysis 2014-01-21
[15] 서적 Game Theory Springer 2015
[16] 학술지 Belief and Truth in Hypothesised Behaviours
[17] 학술지 Defense and security planning under resource uncertainty and multi-period commitments https://onlinelibrar[...] 2022-08-08
[18] 서적 Stochastic Bayesian Games for the Cybersecurity of Nuclear Power Plants PhD Dissertation, University of Pittsburgh
[19] 서적 2019 IEEE Intelligent Vehicles Symposium (IV) IEEE
[20] 학술지 Fast and Secure Computational Offloading With Lagrange Coded Mobile Edge Computing https://ieeexplore.i[...]
[21] arXiv A Game-Theoretic Approach to Self-Stabilization with Selfish Agents
[22] conference 2023 20th Annual IEEE International Conference on Sensing, Communication, and Networking (SECON) https://hal.science/[...] IEEE 2023-09-11
[23] 학술지 Interactive team reasoning: A contribution to the theory of cooperation
[24] 학술지 Agency equilibrium
[25] 웹사이트 Coursera https://class.course[...] 2016-06-16
[26] 학술지 A Generalized Quantum-Inspired Decision Making Model for Intelligent Agent 2014-03-17
[27] 학술지 The Market for "Lemons": Quality Uncertainty and the Market Mechanism https://academic.oup[...] 1970-08
[28] 문서 "Games with Incomplete Information Played by Bayesian Players, I-III." Management Science 14 (3): 159-183 (Part I), 14 (5): 320-334 (Part II), 14 (7): 486-502 (Part III). 1967/1968
[29] 저널 https://archive.org/[...]
[30] 저널 https://archive.org/[...]
[31] 저널 https://archive.org/[...]
[32] 웹인용 https://www.nobelpri[...] 2022-04-29
[33] 서적 인용
[34] 웹인용 https://web.stanford[...] 2022-04-29



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com