ゲーム理論とナッシュ均衡

ゲーム理論とは複数人の意思決定の問題を数学的モデルを用いて分析するもので、数学者であるフォン・ノイマンと経済学者のオスカー・モルゲンシュテルンによって生み出されました。ポーカーは意思決定が重要な非協力ゲーム なので、さまざまなシチュエーションをゲーム理論を用いて説明・分析できます。

中でも、ジョン・ナッシュの論文から生まれた「ナッシュ均衡 (opens in a new tab)」という定義はポーカーのさまざまな方面で登場します。ここではポーカーの勉強に必要な知識としてのナッシュ均衡について学んでいきます。

ポーカーにおいて、ほぼすべてのシチュエーションはパレート最適です。パレート最適とはゼロサムゲームになっている状態のことで、誰かの利益が誰かの損失によって支えられている状況を指します。キャッシュゲームにおけるハウスレーキなど特殊な事情を除くと、ポーカーはすべてパレート最適です。

戦略

ナッシュ均衡ではたびたび「戦略」という言葉を使います。これはこの言葉の一般的な定義とほぼ同じで、とくに常に同じ指針に基づいて行動をとるときの「指針」のことを指します。例として以下のような戦略があります。

常にポットの 50%をベットする
常にコールする
50%の割合でコールし、50%の割合でフォールドする

これらはすべて戦略であり、戦略に基づいたプレイとは同じシチュエーションでは同じ指針に基づいた行動をするということです。

このうち、常に（=100%の割合で）ある一定の行動をとる戦略を 純粋戦略 と言います。対して、複数の行動を一定の割合ずつとる戦略を 混合戦略 と言います。

最適反応

ある戦略からそれ以上変更する誘因を持たない時の戦略を 最適反応 と言います。たとえば、じゃんけんで相手がグーとパーしか出してこないことがわかっている時、パーを出し続ければ負けることはありません。この「パーを 100%の割合で出す」という戦略が最適反応と呼べます。

ナッシュ均衡解

誰も戦略を変更する誘因を持たない状況、つまりプレイヤー誰もが自分の戦略を変えることで自身の利益の期待値を下げてしまうとき、それは 均衡している と表現し、均衡が発生する戦略の組み合わせを ナッシュ均衡解 と言います。言い換えると、すべてのプレイヤーの戦略が最適反応であるとき、それは均衡していることになります。

均衡戦略

じゃんけんでのナッシュ均衡解はすべてのプレイヤーがグー・チョキ・パーを同じ $\frac13$ の割合で出すことです。 この割合を崩してしまい「 $\frac12$ の割合でグー、 $\frac14$ でチョキ、 $\frac14$ でパーを出す」という戦略にしてしまうと、他のプレイヤーが「100%の割合でパーを出す」という戦略を取ることで負け越してしまいます。

ナッシュ均衡解における戦略を 均衡戦略 と呼びます。均衡戦略はカウンターとなる最適反応のない 戦略で、相手がどんな戦略をとっても無差別となります。じゃんけんの例の場合、グー・チョキ・パーをそれぞれ $\frac13$ の割合ずつで出していれば、相手が「常にグー」「 $\frac12$ の割合でパー、 $\frac12$ の割合でチョキ」といったどんな戦略を取ったとしても期待勝率が変わりません。

純粋戦略での均衡戦略が見つからない時、複数の純粋戦略を一定の頻度ずつ行うことが自身の最適反応になることがあります。ポーカーにはベットサイズやアクションの頻度などほぼ無数の選択肢があり、ほとんどのケースにおいて均衡戦略は混合戦略になります。

ゲームツリー

プレイヤーの取りうるアクションを場合分けし枝分かれしていくことを木構造で表現できます。これを ゲームツリー（ゲーム木）と呼びます。

gametree

これらすべての分岐で適切な行動とその行動の適切な頻度があります。しかしこれを人間の脳でプレイ中に計算するのは事実上不可能で、ソルバーと呼ばれるコンピューターソフトを使ってもベットサイズの選択肢を絞るなどした上で数時間の計算時間が必要になります。

Push-or-fold の純粋戦略ナッシュ均衡

稀なケースとして、ポーカーでも変数が少ない場合は純粋ナッシュ均衡が存在します。たとえばプリフロップにおいてエフェクティブスタックが少ない場合、とりうる行動がオールインかフォールドかという 2 択まで単純化することがあります。この場合、自身のスタックが何 BB 以下であればオールインあるいはコールするかという前提に立った純粋戦略ナッシュ均衡が求まります。

参考 : Push Fold Charts - FloatTheTurn (opens in a new tab)

ポーカーとはどんなゲームかハンドの能力を定量化する