ゲーム理論 — ナッシュ均衡・戦略・利得行列

ゲーム理論は、自分にとって最善の行動が他の人の行動に依存するような意思決定を扱います。利得行列は選択の各組み合わせに対する結果を示し、ナッシュ均衡は、誰も自分だけ戦略を変えてよりよくできない選択の組です。

この3つ、つまり戦略・利得・均衡は、初歩的なゲーム理論の問題の中心となる考え方です。ここがつかめると、教科書に出てくる多くの例がずっと読みやすくなります。

ゲーム理論の定義：どんな問いを立てるのか？

通常の最適化問題では、固定された状況の中で最善の選択肢を選びます。ゲーム理論では、他のプレイヤーも同時に選んだり、あなたに反応して選んだりするため、状況そのものが変わりえます。

そのため問いは「自分にとって最善の手は何か？」から、「他の人がどう動くかを踏まえると、自分にとって最善の手は何か？」へと変わります。この視点の変化こそが、戦略的相互作用の基本です。

戦略とは、ゲームの中でプレイヤーが選べる行動、または行動のルールのことです。単純な1回限りのゲームでは、戦略は協力する・裏切るのような1つの行動であることもあります。

利得とは、ある選択の組み合わせからプレイヤーが得る結果です。お金、点数、効用、あるいは数が大きいほどそのプレイヤーにとって望ましいことを表す順位づけなどで表されます。

2人ゲームでは、こうした結果はしばしば利得行列に整理されます。各マスは、プレイヤーAの1つの戦略とプレイヤーBの1つの戦略の組み合わせに対応します。

次は、囚人のジレンマ型の標準的な利得行列です。各マスの最初の数がプレイヤーAの利得、2番目の数がプレイヤーBの利得です。

\begin{array}{c|cc} & \text{B: Cooperate} & \text{B: Defect} \\ \hline \text{A: Cooperate} & (3,3) & (0,5) \\ \text{A: Defect} & (5,0) & (1,1) \end{array}

各マスは、1つの完全な結果として読みます。

ここでの数値そのものがゲーム理論の法則というわけではありません。これはあくまで1つの利得パターンです。重要なのは誘因の構造で、両者とも相互裏切りより相互協力のほうが望ましいにもかかわらず、それでも各プレイヤーには裏切る誘惑があるという点です。

ナッシュ均衡とは、他のプレイヤーの戦略を固定したままでは、どのプレイヤーも自分だけ戦略を変えて自分の利得を改善できないような戦略の組です。

言い換えると、各プレイヤーの選択が他のプレイヤーの選択に対する最適反応になっている状態です。

これは、その結果が全員にとって最善だという意味ではありません。そこから一方的に離れる誘因が誰にもない、という意味にすぎません。

上の行列を使います。

プレイヤーBが協力するとき、プレイヤーAは協力した場合の $3$ と、裏切った場合の $5$ を比べます。よりよいのは裏切りです。

プレイヤーBが裏切るとき、プレイヤーAは協力した場合の $0$ と、裏切った場合の $1$ を比べます。この場合も裏切りのほうがよいです。

したがって、プレイヤーAにとっては、どちらの場合でも裏切りが最適反応です。対称性により、プレイヤーBについても同じことが成り立ちます。

つまり、 $(\text{Defect}, \text{Defect})$ はナッシュ均衡です。いったん両者がそこにいると、どちらも自分だけ戦略を変えて改善することはできません。

しかし、これは2人にとって最良の共同結果ではありません。 $(\text{Cooperate}, \text{Cooperate})$ における総利得は $3+3=6$ ですが、 $(\text{Defect}, \text{Defect})$ における総利得は $1+1=2$ にすぎません。

ここでの重要なポイントは、ナッシュ均衡は安定していても、集団全体として最善とは限らないということです。

よくある誤解の1つは、ナッシュ均衡を「全員にとって可能な最良の結果」だと思ってしまうことです。そうではありません。意味するのは、誰も自分だけ戦略を変えて得をしないということだけです。

もう1つの間違いは、利得行列を片方のプレイヤーの視点だけで読んでしまうことです。各マスは、それぞれのプレイヤーの立場から確認しなければなりません。

また、モデルは利得の構造に依存していることを見落とす場合もあります。利得が変われば、最適反応も均衡も変わりえます。

ゲーム理論は、経済学、オークション、価格設定、交渉、投票、ネットワーク設計、進化生物学などで使われます。分野ごとに細部は異なりますが、中心にある問いは同じです。つまり、他者も選択しているときに、1人の主体はどう行動すべきかという問いです。

より発展的な設定では、ゲーム理論は混合戦略、繰り返しゲーム、3人以上のプレイヤーがいるゲームも扱います。ただし、最初の理解としては、純粋戦略と利得行列だけで基本的な直感をつかむには十分です。

行列の中の利得を1つ変えて、最適反応をもう一度計算してみてください。たとえば、相互協力の利得が $(4,4)$ ならどうなるか、あるいは相互裏切りの利得が $(2,2)$ ならどうなるかを考えてみましょう。こうすると、均衡が戦略の名前ではなく、誘因に依存していることがすぐにわかります。

さらに一歩進みたいなら、この設定を協調ゲームと比べてみてください。協調ゲームでは、プレイヤーは互いの選択を一致させることで利益を得ます。2つを並べて見ると、ナッシュ均衡はずっと見つけやすくなります。

ゲーム理論を簡単に言うと何ですか？: ゲーム理論は、自分の結果が自分の行動だけでなく、他人の行動にも左右される意思決定を扱います。
利得行列とは何ですか？: 利得行列は、戦略のあらゆる組み合わせに対する結果を並べた表です。2人ゲームでは、各マスに各プレイヤーの利得が1つずつ示されます。
ナッシュ均衡とは何ですか？: ナッシュ均衡とは、他のプレイヤーが選択を固定したままのとき、どのプレイヤーも自分だけ戦略を変えて利得を改善できない戦略の組のことです。

問題をアップロードすると、検証済みのステップバイステップ解答が数秒で届きます。