えるきぃ @minimumbet

2021年5月31日

「ノードロック」の話 #ポーカーの話

ノードロックについての長文。FE先生の動画より

ポーカー

0

えるきぃ🍹 @minimumbet

超長くなるけど、今日の #ポーカーの話します。内容は、「ノードロック」。元ネタはFE先生の動画より。意訳誤訳あるとは思いますし、長いですがよかったらお付き合いください。

2021-05-30 22:55:28

えるきぃ🍹 @minimumbet

GTO vs Exploitの冷戦は終わった！War is Over！ポーカー界にはまだこの議論を続けている人もいますが、そういう人はゲーム理論の理解に乏しいか、そういった情報に踊らされている無知な人々からお金をせしめている一握りの人たちだけとなりました。（日本にもいますね！） pic.twitter.com/kxFseFaJjd

2021-05-30 22:57:12

拡大

えるきぃ🍹 @minimumbet

もはやエクスプロイト戦略が利用できるにもかかわらず、それを無視すべきと主張する純粋GTO派は絶滅しましたね。純粋なGTOでも純粋なエクスプロイトでも利益を得ることはできます。結論としては、どんなステークスでもゲームでも、EVを最大化するには両方に熟練しなければいけないということです。

2021-05-30 22:58:06

えるきぃ🍹 @minimumbet

GTOの概念を理解することで、ポーカーの基礎作りができるでしょう。そして、適切なエクスプロイトはその上に重なる応用となります。ここでは、ソルバーを使ってその両方、GTOとエクスプロイトを学ぶやり方を一緒に考えていきましょう。（初心者向けかもしれません）

2021-05-30 22:59:08

えるきぃ🍹 @minimumbet

GTOのよく知られた機能として、エクスプロイト不可能なGTO戦略を計算するというものがあります。しかし、実はソルバーには、「相手の既知の弱みに付け込んで最大限EVを奪い取れる戦略を計算する機能」というのもあるのです。それが「ノードロック」という機能です。どのソルバーにもあります。

2021-05-30 23:00:31

えるきぃ🍹 @minimumbet

GTOソルバーがどのように均衡戦略を計算しているかというと、AとB、それぞれのプレイヤーのプレーシナリオを何十億回も計算して、もっともチップを得られる戦略に寄せていきます。チップを失う戦略からは離れて、徐々にその戦略を取らなくなります。

2021-05-30 23:02:00

えるきぃ🍹 @minimumbet

その結果、これ以上追加でチップが得られない状態に達した時、それをナッシュ均衡と呼ぶわけですが、そのとき戦略をGTOと呼ぶのです。その状態では、お互いにこれ以上戦略を変更するインセンティブ（さらにEVを得られる見込み）がなくなるので、その状態で均衡するのです。

2021-05-30 23:02:00

えるきぃ🍹 @minimumbet

さて、ではもしBがGTOから逸脱した戦略を取り始めたらどうなるでしょう？この時、AのGTO戦略はすでにベストな戦略ではなくなってしまいます。ベストな戦略とは、最大限EVを得られる戦略ということです。

2021-05-30 23:02:47

えるきぃ🍹 @minimumbet

AのGTO戦略は、未だ効果的ですし、エクスプロイト不可能な戦略です。しかし、最も利益的な戦略ではなくなっているということです。ここで出てくるのが「ノードロック」です。

2021-05-30 23:04:55

えるきぃ🍹 @minimumbet

ノードロックは、Bの逸脱した戦略をGTOから切り離して固定します。そして、Bのリーク（GTOから外れた部分）から、最大限利益を得られる戦略を示してくれるのです。素晴らしいですね！ノードロックはポーカーを学習する上で非常にパワフルなツールですが、注意点もいくつかあります。

2021-05-30 23:08:00

えるきぃ🍹 @minimumbet

ちなみにノードロックは「node locking」です。nodeとは、節や結び目を意味する言葉で、イメージとしては、以下のように戦略が枝分かれしているnodeを固定して、強制的にそちらのシナリオに進ませることで再計算するという感じです。 pic.twitter.com/GyUIZ3jOF6

2021-05-30 23:12:40

拡大

えるきぃ🍹 @minimumbet

Pio、GTO＋、Simple Postflop、すべてのソルバーにノードロックの機能はありますが、操作ややり方などは割愛します。聞いてもらえればわかる範囲ならお答えできます。あと動画内で紹介されている具体例も省略して、一般的な概念だけを記していくことにします。

2021-05-30 23:16:17

えるきぃ🍹 @minimumbet

それでは、先ほど書いたノードロックの注意点。１．相手のリークは修正されないノードロックで固定した相手の戦略は、ゲーム上の新しいルール（前提）のように扱われます。なので、相手がそれを修正したりは出来ず、永遠にリークは存在したままになります。 pic.twitter.com/swYzDX53Cu

2021-05-30 23:18:22

拡大

えるきぃ🍹 @minimumbet

現実のポーカーでは、相手はいつでも戦略を変更できるので、相手が戦略を修正した場合、こちらがそれに気づかず古い戦略に対して最適化された戦略を取っていると、カウンターエクスプロイトされてしまいます。

2021-05-30 23:23:32

えるきぃ🍹 @minimumbet

つまり、相手のリークを突いてエクスプロイトするということは、自分自身のプレーもInbalanced（GTOからズレている）になっているということです。ノードロックの機能は、相手の修正やカウンターエクスプロイトまでは想定できません。

2021-05-30 23:23:33

えるきぃ🍹 @minimumbet

２つ目の注意点は、ノードロックである戦略を固定した場合、ソルバーはその”ハンデを負った”戦略をカバーするために、他の分岐にあるアクションを変更して、失われたEVを取り返そうとがんばる、ということです。 pic.twitter.com/AO2ggW0dOI

2021-05-30 23:26:40

拡大

えるきぃ🍹 @minimumbet

しかし現実では、アンバランスなプレイヤーが、自分がアンバランスであることに気付いて、他の戦略を調整してEVを取り戻す、といった高度なことが実行できる可能性はほぼゼロです。つまり、ノードロックして再計算された戦略は、現実の最適な戦略からはズレてしまっているということです。

2021-05-30 23:28:39

えるきぃ🍹 @minimumbet

相手のアンバランスな戦略へのエクスプロイトを正確に見積もるには、ゲームツリー（ゲームのシナリオ分岐）全てをノードロックして、全てのアクションとランアウトを計算しなければなりません。これは現実的には不可能です。

2021-05-30 23:30:45

えるきぃ🍹 @minimumbet

注意点３。正確にノードロックするには、相手のレンジやアクションを正確に入力する必要がありますが、もちろんそれは不可能だということです。ソルバーには「相手はこのスポットでルース」などと判断できる機能はありません。すべてのコンボについて予想して手動で％を指定しなければなりません。 pic.twitter.com/JvS11VNURk

2021-05-30 23:33:36

拡大

えるきぃ🍹 @minimumbet

例えば、「ブラフ頻度を0.8%変えただけで、コール頻度が倍になる」なんてことが起こりえるわけです。これらの注意点を考えてみると、ノードロックって使えないのでは？🤔と思いますよね？そんなことは、ないんです！

2021-05-30 23:35:53

えるきぃ🍹 @minimumbet

ノードロックは、エクスプロイト戦略を計算できる唯一にして有用なツールです。深く理解し、うまく使えばポーカーの成長に非常に強力な道具になるのです。そこで、ここからは実践的なノードロックのアドバイスを書いていくことにします。（長いね・・・すみません）

2021-05-30 23:38:00

えるきぃ🍹 @minimumbet

Tips①は、エクスプロイト戦略を記憶したり、正しい頻度を把握しようとはしない、ということです。そうではなく、ソルバーの「アジャストの方向性」を見極めるということです。 pic.twitter.com/h9r8ZAaGKq

2021-05-30 23:41:44

拡大

えるきぃ🍹 @minimumbet

例えば、相手がバリューコンボに対してブラフ過多である（とノードロックした）場合、ソルバーはコールレンジを拡大します。この例ならノードロックする必要もないですね。もっと”周辺的な”ゲームツリーの変化に気を配るのです。

2021-05-30 23:44:47

えるきぃ🍹 @minimumbet

#ポーカーの話自らはじめたけど長すぎて泣きそう。もうすぐ終わるはずです。。

2021-05-30 23:45:28

えるきぃ🍹 @minimumbet

TL占領して申し訳ありません。。

2021-05-30 23:45:42

えるきぃ🍹 @minimumbet

（例えば）ヒーローがBBで相手がSBのリバーのスポットを想定してください。 BBの私は、SBがチェックした際に2pot betをオーバーブラフで行ってしまうとします。均衡戦略ではこの2 pot betの頻度は3%しかありませんが、エアーのうち50%で 2 pot betをするとします。

2021-05-30 23:53:08

えるきぃ🍹 @minimumbet

このときSBは、当然コールレンジを弱いハンドに広げるのですが、チェックレンジも強い方向に広げる戦略を取ります。 BBのリークはSBがxした後に起こるので、SBはスロープレーするようになるわけです。ブラフキャッチしたほうが追加のEVが得られるからです。

2021-05-30 23:54:59

えるきぃ🍹 @minimumbet

TIPS②アジャストの方向が分かったら、GTOの混合戦略を、その方向に沿って純粋戦略に置き換えます。その理由は、GTOはエクスプロイトされない戦略を構築するために、一定の頻度を一定のアクションに当てはめていきます。正確に行うために、コンボ毎にその頻度を当てはめていくわけです。 pic.twitter.com/cginiOz9rj

2021-05-30 23:58:31

拡大

えるきぃ🍹 @minimumbet

例えば、SBのベットに対応するBBのコール戦略を考えるとき、ブラフにエクスプロイトされない頻度でコールするためにマージナルなコンボにもコールのアクションを当てはめていきます。コールとフォールドのEVを0にするためにそうするわけです。

2021-05-31 00:00:23

えるきぃ🍹 @minimumbet

つまり、混合戦略を採るコンボは、全てコールすることはできず、全てフォールドすることもできない境界にあるわけです。しかし、相手がGTOを外れたことで均衡が壊されれば、GTO的に混合戦略を採っていたコンボすべてでコールできるのです。

2021-05-31 00:03:12

えるきぃ🍹 @minimumbet

なぜなら、GTOが混合戦略を採るのは、複数のアクションのEVが等しいときだけです。 SBvsBBの例で、SBがGTO戦略から外れて、僅かｓｗもオーバーブラフになったとき、BBのコールのEVも僅かに増加します。フォールドのEVは常にゼロですので、全てのボーダーラインにあるコンボはピュアコールになります

2021-05-31 00:07:20

えるきぃ🍹 @minimumbet

論理的に、ソルバーは最も高いEVを生み出す戦略を採用するからです。

2021-05-31 00:08:31

えるきぃ🍹 @minimumbet

もうすぐ終わります。。

2021-05-31 00:09:25

えるきぃ🍹 @minimumbet

TIPS③、②ですべての混合戦略のコンボを純粋戦略にシフトした後、相手の逸脱度合いに応じて新しいアクションの境界線を見つけます。相手の逸脱度合いが大きいほど、我々も大きな調整をし、境界線になるコンボを広げます。 pic.twitter.com/QTienRjro4

2021-05-31 00:12:38

拡大

えるきぃ🍹 @minimumbet

相手の逸脱度合いによって、今は純粋戦略のコンボが混合戦略になったり、純粋戦略になる方向性（50%コール→100%コール、50%コール→100%フォールド）が変わったりするかもしれません。

2021-05-31 00:15:36

えるきぃ🍹 @minimumbet

ここまで長々と書いてきて、結論！アンバランスな相手に対応する場合でも、ベースとなるGTO戦略は変わらず重要であり続けます。アンバランスな相手をエクスプロイトする戦略というのは、究極的にはレンジ内のアクションの境界線となるポイントの変化でしかないからです。

2021-05-31 00:21:03

えるきぃ🍹 @minimumbet

GTO戦略を動かす、レンジアドバンテージやポジション、SPR、カードリムーバルなどの原則は変わりません。 GTO理論とレンジの構築を深く研究すれば、アンバランスな相手から追加のEVを引き出すためのアクションの境界線がどのように動くかの感覚をつかむことができるでしょう。長くなったけど以上！

2021-05-31 00:21:04