게임 이론 — 내시 균형, 전략과 보수행렬

게임 이론은 다른 사람들이 무엇을 하느냐에 따라 내 최선의 선택이 달라지는 의사결정을 다룹니다. 보수행렬은 각 선택 조합의 결과를 보여 주고, 내시 균형은 다른 사람이 그대로일 때 어느 누구도 혼자 바꿔 더 나아질 수 없는 선택의 조합입니다.

이 세 가지 개념, 즉 전략, 보수, 균형은 대부분의 입문 게임 이론 문제의 핵심입니다. 이 개념들이 이해되면 교과서의 많은 예시가 훨씬 쉽게 읽힙니다.

게임 이론의 정의: 어떤 질문을 다루는가?

일반적인 최적화 문제에서는 고정된 상황에서 가장 좋은 선택을 고릅니다. 하지만 게임 이론에서는 다른 플레이어도 동시에 선택하거나, 당신의 선택에 반응해 움직이기 때문에 상황 자체가 달라질 수 있습니다.

그래서 질문도 "내게 가장 좋은 선택은 무엇인가?"에서 "다른 사람들이 어떻게 할 수 있는지를 고려할 때 내게 가장 좋은 선택은 무엇인가?"로 바뀝니다. 이런 관점의 전환이 전략적 상호작용의 핵심입니다.

전략과 보수를 쉬운 말로 이해하기

전략은 게임에서 플레이어가 사용할 수 있는 선택지 또는 행동 규칙입니다. 단 한 번 진행되는 단순한 게임에서는 전략이 협력하기, 배신하기 같은 하나의 행동일 수도 있습니다.

보수는 특정한 선택 조합에서 플레이어가 얻는 결과입니다. 돈, 점수, 효용, 또는 숫자가 클수록 그 플레이어에게 더 좋은 결과를 뜻하는 어떤 순위 체계로 나타낼 수 있습니다.

2인 게임에서는 이런 결과를 보수행렬로 정리하는 경우가 많습니다. 각 칸은 플레이어 A의 한 전략과 플레이어 B의 한 전략을 대응시킵니다.

보수행렬 읽는 법

다음은 죄수의 딜레마 형태의 표준적인 보수행렬입니다. 각 칸의 첫 번째 숫자는 플레이어 A의 보수이고, 두 번째 숫자는 플레이어 B의 보수입니다.

\begin{array}{c|cc} & \text{B: Cooperate} & \text{B: Defect} \\ \hline \text{A: Cooperate} & (3,3) & (0,5) \\ \text{A: Defect} & (5,0) & (1,1) \end{array}

각 칸은 하나의 완전한 결과로 읽으면 됩니다.

둘 다 협력하면 각자 $3$ 을 얻습니다.
한쪽이 배신하고 다른 쪽이 협력하면, 배신한 쪽은 $5$ 를 얻고 협력한 쪽은 $0$ 을 얻습니다.
둘 다 배신하면 각자 $1$ 을 얻습니다.

이 숫자들이 게임 이론의 법칙인 것은 아닙니다. 이것은 하나의 보수 패턴일 뿐입니다. 중요한 것은 유인 구조입니다. 두 플레이어 모두 상호 배신보다 상호 협력을 더 선호하지만, 각자에게는 배신할 유인이 있습니다.

내시 균형: 안정적인 결과

내시 균형은 다른 플레이어들의 전략이 그대로일 때, 어떤 플레이어도 혼자 전략을 바꿔 자신의 보수를 더 높일 수 없는 전략들의 조합입니다.

다르게 말하면, 각 플레이어의 선택이 다른 플레이어들의 선택에 대한 최적 반응이 되는 상태입니다.

그렇다고 해서 그 결과가 모두에게 가장 좋은 것은 아닙니다. 단지 어느 누구도 혼자서 그 상태를 벗어날 유인이 없다는 뜻입니다.

예제로 보는 내시 균형 찾기

위의 행렬을 사용해 봅시다.

플레이어 B가 협력한다면, 플레이어 A는 협력했을 때의 $3$ 과 배신했을 때의 $5$ 를 비교합니다. 배신이 더 낫습니다.

플레이어 B가 배신한다면, 플레이어 A는 협력했을 때의 $0$ 과 배신했을 때의 $1$ 을 비교합니다. 이 경우에도 배신이 더 낫습니다.

따라서 플레이어 A에게는 어느 경우든 배신이 최적 반응입니다. 대칭성에 의해 플레이어 B에게도 마찬가지입니다.

즉 $(\text{Defect}, \text{Defect})$ 는 내시 균형입니다. 두 플레이어가 그 상태에 있으면, 어느 쪽도 혼자 바꿔 더 나아질 수 없습니다.

하지만 이것이 두 사람에게 가장 좋은 공동 결과는 아닙니다. $(\text{Cooperate}, \text{Cooperate})$ 에서 총보수는 $3+3=6$ 이지만, $(\text{Defect}, \text{Defect})$ 에서 총보수는 $1+1=2$ 에 불과합니다.

이것이 핵심 통찰입니다. 내시 균형은 안정적일 수는 있어도, 집단 전체에 가장 좋은 결과일 필요는 없습니다.

학생들이 자주 하는 실수

흔한 실수 중 하나는 내시 균형이 모두에게 가능한 최선의 결과라고 생각하는 것입니다. 그렇지 않습니다. 내시 균형은 단지 어느 플레이어도 혼자 바꿔 이득을 보지 못한다는 뜻입니다.

또 다른 실수는 보수행렬을 한 플레이어의 관점에서만 읽는 것입니다. 각 칸은 반드시 두 플레이어 각각의 관점에서 확인해야 합니다.

또 학생들은 모델이 보수 구조에 의존한다는 점을 놓치기도 합니다. 보수가 바뀌면 최적 반응과 균형도 함께 바뀔 수 있습니다.

게임 이론은 어디에 쓰이는가

게임 이론은 경제학, 경매, 가격 설정, 협상, 투표, 네트워크 설계, 진화생물학에서 활용됩니다. 분야마다 세부 내용은 다르지만, 핵심 질문은 같습니다. 다른 주체들도 선택하고 있을 때 한 주체는 어떻게 행동해야 하는가?

더 발전된 내용에서는 혼합전략, 반복게임, 3인 이상 게임도 다룹니다. 하지만 처음 배울 때는 순수전략과 보수행렬만으로도 핵심 직관을 충분히 만들 수 있습니다.

비슷한 문제를 직접 해보기

행렬의 보수 하나를 바꿔 보고 최적 반응을 다시 계산해 보세요. 예를 들어 상호 협력의 보수를 $(4,4)$ 로 바꾸거나, 상호 배신의 보수를 $(2,2)$ 로 바꾸면 어떻게 되는지 생각해 볼 수 있습니다. 이렇게 해 보면 균형은 전략 이름이 아니라 유인 구조에 달려 있다는 점을 가장 빠르게 확인할 수 있습니다.

한 걸음 더 나아가고 싶다면, 이 구조를 조정 게임과 비교해 보세요. 조정 게임에서는 플레이어들이 서로 같은 선택을 할 때 이득을 봅니다. 두 경우를 나란히 보면 내시 균형을 훨씬 더 쉽게 알아볼 수 있습니다.

자주 묻는 질문

게임 이론을 쉽게 말하면 무엇인가요?: 게임 이론은 각자의 결과가 자신의 행동뿐 아니라 다른 사람들이 무엇을 하는지에도 달려 있는 의사결정을 연구합니다.
보수행렬이란 무엇인가요?: 보수행렬은 모든 전략 조합에 대한 결과를 정리한 표입니다. 2인 게임에서는 각 칸에 두 플레이어의 보수가 하나씩 표시됩니다.
내시 균형이란 무엇인가요?: 내시 균형은 다른 사람들이 선택을 고정했을 때, 어떤 플레이어도 혼자 전략을 바꿔 자신의 보수를 더 높일 수 없는 전략 조합입니다.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →