ゲームのリズム | TouchingFish.top

以前、二つのABM（エージェント・ベース・モデル）を作った。格子状のエージェントたちがランダムにペアを組み、一回ゲームをプレイし、アクションを更新する。唯一の変数は「何を見るか」——このステップの利得か、それとも過去の全ゲームの累積利得か。微分方程式は私には解けない（平均場近似は文献の引き写しだ）。しかしODEの階数くらいは見分けがつく。一方は一階、もう一方は二階。速度と加速度。記憶なしと慣性あり。ミクロの設定は、ほんのわずかな違いでしかない。

だが、この二つのモデルには暗黙の前提があった。利得行列は一枚岩だ、と。囚人のジレンマは常に囚人のジレンマ。タカ-ハト・ゲームは常にタカ-ハト・ゲーム。

草は痛まない。

Weitz et al.（2016）は草に命を吹き込んだ。戦略が環境を変え、環境が利得構造を書き換え、利得構造が戦略を再形成する。ループが閉じたとき、システムは呼吸を始める。

私がやりたいのはもっと単純なことだ。環境に連続的なフィードバック経路を与えるのではなく、格子にリズムを与えるだけだ。

格子にリズムを

もともとのABMに資源状態変数を追加する。初期値は $A$。各ステップ、エージェントたちは格子上でゲームを行い、1単位の資源を消費する。資源は $A$ から $0$ まで下がり、決まったステップ数の後にまた $A$ にリセットされる。

$b=1$ とし、資源量 $a \in \{0, 1, 2, 3, 4\}$ とする。利得行列は：

$$ \begin{matrix} & C & D \\\\ \hline C & a/2 & 0 \\\\ D & a & (a-1)/2 \end{matrix} $$

最初は $a=4 \implies \begin{pmatrix} 2 & 0 \\ 4 & 1.5 \end{pmatrix}$

純粋な囚人のジレンマだ。$D$ が $C$ を厳密に支配する——相手が何を選ぼうと、裏切りは協力より儲かる。レプリケーターダイナミクスが告げる——さあ、裏切り者を放て。全マスが陥落する。

$a=2 \implies \begin{pmatrix} 1 & 0 \\ 2 & 0.5 \end{pmatrix}$

依然として囚人のジレンマ。だが協力と裏切りのあいだの裂け目は狭まっている。

$a=1 \implies \begin{pmatrix} 0.5 & 0 \\ 1 & 0 \end{pmatrix}$

臨界。相手が裏切ったとき、協力を選んでも裏切りを選んでも五分だ。囚人のジレンマの構造が緩みはじめる。

$a=0 \implies \begin{pmatrix} 0 & 0 \\ 0 & -0.5 \end{pmatrix}$

テーブルがひっくり返る。相互裏切りはマイナスに転落——唯一損をしない選択は協力だ。これはタカ-ハト・ゲームの標準的な行列ではないが、タカ-ハト・ゲームと同じ遺伝子を共有している。裏切りはもはや支配戦略ではない。

一つのテーブル、五つの配置。$a=4$ から $a=0$ へ滑り落ちるにつれて、ゲームの地層は囚人のジレンマからタカ-ハト・ゲームへと剥がれ落ちていく。

資源が少なければ少ないほど、協力は「バカ」ではなくなる。

呼吸

さて、リセットを加える。

決まったステップごと——たとえば $10$ ステップ——資源は $A=4$ に跳ね返る。すると：

資源潤沢 → 囚人のジレンマ → 裏切りの拡大 → 資源の消費 → ゲームの緩み → 協力の台頭 → リセット発動 → 囚人のジレンマふたたび。

ひと息、吸って。ひと息、吐いて。縮んで、開いて。

Weitzとの違いはフィードバックの形式だけだ。彼は連続的な微分方程式で環境と戦略を結合し、私は離散的な資源予算＋周期リセットを使う。だが根底にある論理は同じ——ゲームの構造はもはや定数ではなく、資源量の関数だ。戦略が資源を蝕み、資源が行列を蝕み、行列が戦略を蝕む。ループ。

振動はバグじゃない。設計だ。

モデルⅠの予言：臨界密度

ここまでは全マス同期を仮定してきた——すべての格子が同時に $a$ を下げ、同時にリセットされる。平均場近似はこの仮定のうえで滑らかに走る。

しかしABMは平均場ではない。エージェントたちは格子上を局所的に動き、ペアリングは近傍で起きる。格子ごと、時刻ごとに、エージェントが遭遇する $a$ の値は異なる。

これでもう一段、層が増える。

あるステップで、かなりの割合の格子が $a=0$ に滑り込んだとしよう——タカ-ハト・ゲーム領域。協力者の当期利得は逆転し、$C$ はもはや不利ではない。しかしエージェントが $D$ から $C$ に変わるには、近傍で実際に $C$ と出会い、その $C$ の現在のスコアが自分より高い——そのうえで初めて乗り換えが起きる。

もし集団内の $C$ の割合が低すぎる——たとえば $5\%$ しかいない——ほとんどのエージェントの近傍には $C$ が見当たらない。彼らは他の $D$ しか見ることができない。そして $a=0$ の利得行列では、$D$-$D$ 遭遇は $-0.5$ を得る——たしかに $C$-$C$ の $0$ より悪い。だが問題は、エージェントは $C$-$C$ がいくら得るかを知らない。なぜなら $C$ を見たことがないからだ。彼の比較は「自分が見た者たち」のあいだでしか行われない。

転換には臨界密度が必要だ。ある閾値を下回ると、集団は $D$ に固定される——囚人のジレンマがいまだ続いているからではなく（利得行列はすでに変わっている）、十分な模範者がいないからだ。

ここから $N$——リセットのステップ数——の本当の役割が見えてくる。

$N$ は単に振動の位相の長さを決めるだけではない。$N$ とは、$a$ の谷のなかで協力が雪だるま式に膨らむための窓の幅である。

$N$ が短い——たとえば三五歩——窓は数人のエージェントが当期利得に従って $C$ に転じるだけの幅しかない。密度は連鎖反応の閾値には遠く及ばない。リセットが来れば、$a$ は $4$ に跳ね返り、囚人のジレンマのテーブルが再び整えられ、$D$ の当期の優位が残った $C$ をひとつひとつ呑み込んでゆく——次の $C$ 一匹すら繁殖できない。

$N$ が長い——たとえば二十歩、三十歩——窓は十分に広い。早期に転向した $C$ は、十分なステップ数を通じて局所近傍を介して他者に感染する。雪だるまがいったん転がり始めれば、加速は速い。リセットは雪だるまの一部を押し潰せるにすぎない。核は残る。

逆に考えてみよう。たとえ $N$ が十分に長くても、リセット時に格子全体にまだ $a$ 値の高い領域——囚人のジレンマの「高地」——が広がっていれば、それらの領域の裏切り者は $C$ の拡散にとって障壁でありつづける。$a$ の谷で $C$ になったばかりのエージェントが、次のステップで高 $a$ 領域に足を踏み入れれば、ただちに囚人のジレンマに罰せられる——相手は $D$ を選び、自分は $0$ を得る。彼の隣人は彼が一ラウンドでどん底に落ちるのを目撃する。誰が彼を見習うだろうか。

空間パターンはここで $N$ の長さと共働する。$a$ の谷は、十分に長く続くだけでなく、十分に広く覆わなければならない——$C$ の拡散が、保護区を出た途端に $D$ の有利な戦場に突っ込まないようになるまで。

こうしてモデルⅠの予言には、見えない一本の弦がある。$N$ はある臨界値を超えなければならない。その領域の $C$ 密度が「散発的」から「自己維持的」へと質的転換を遂げるために。この弦を越えて初めて、鋸歯状の振動が実際に起こる——旗が風になびく。超えなければ、$x$ は谷のなかで微動だにせず、続く囚人のジレンマにこともなげに呑まれる。

その弦はどこにあるのか。集団密度、初期 $C$ 比率、エージェントの移動速度、$a$ の空間分布に依存する——紙の上の微分方程式では出せない。コードを書く必要がある。

モデルⅡの予言：慣性のふたつの顔

モデルⅡは累積スコアを比較する。$U_A(t) = \int_0^t \pi_A d\tau$。慣性がある。

先の分析では、私は暗黙のうちに $N$ が短いと仮定していた——$a=0$ の段階が、$C$ が累積勘定で逆転するには短すぎるのだ。そのシナリオでは、適応ラグは純粋な足枷だ。それは正しい。

しかし $N$ が十分に長ければ、話は反転する。

長い $N$ は、$a=0$（あるいは $a=1$）の状態が数十ステップ続くことを意味する。各ステップで、$C$ の相対利得は $D$ を上回る。各ステップが $U_C$ の口座に蓄えられていく。額は大きくないが、ステップ数がものを言う。

$a=0$ の状態が $T$ ステップ続き、集団中に割合 $x$ の $C$ がいるとする。$C$ のステップあたり利得は $0$。$D$ のステップあたり期待利得は $0 \cdot x + (-0.5) \cdot (1-x) = -0.5(1-x)$。各ステップで、$U_C - U_D$ は $0.5(1-x)$ の差を広げる。

$T$ ステップ後、$U_C$ は $U_D$ より $0.5(1-x) \cdot T$ だけ多くなる。$T$ が十分に大きければ、この塵も積もればの差が、$D$ が囚人のジレンマ期に蓄積した歴史的優位を埋め合わせ——さらに追い抜くこともできる。

追い抜きがいったん起これば、性質が変わる。

エージェントたちが $D$ から $C$ へとまとめて転向しはじめる。$C$ が一つ増えるごとに、$(1-x)$ は縮み、$D$-$D$ 遭遇が増える——$D$ の期待利得 $-0.5(1-x)$ はさらにマイナスに振れる。$U_D$ は加速的に目減りする。$U_C$ は変わらない（常に $0$）が、$U_D$ に対して相対的に加速上昇する。正のフィードバック。

リセットが訪れて——$a$ が $4$ に跳ね返り、囚人のジレンマが再び口を開く——$C$ はすでに自分の名前で累積スコアを預けている。$a=4$ のなかでは、$D$ の当期利得が $C$ を圧倒する。$D$ 対 $C$ で $4$、$C$ 対 $D$ で $0$。各ステップが $C$ の累積資産を削り取っていく。だが資産が十分に厚ければ、削れるのも遅い。

これが協力慣性だ。

$C$ がタカ-ハトの窓のなかで積み上げた累積スコアが、囚人のジレンマの窓のなかでの盾となる。エージェントたちが比較するのは累積——そして累積の帳簿では、$C$ がまだリードしている。$D$ の当期の圧倒が帳簿をひっくり返すには、多くのステップを要する。そしてその「多くのステップ」のあいだ、$C$ はまだそこにいる——集団は純粋な $D$ に崩壊していない。

同じメカニズム、ふたつの顔。$N$ がスイッチだ。

短い $N$：$D$ が囚人のジレンマ段階で積んだ歴史的優位 → 慣性が協力の反撃を足止めする → リセットふたたび → $D$ の優位はさらに深まる。これが先の分析で述べた「歴史の重り」——慣性は協力だけを押さえつける。

長い $N$：$C$ がタカ-ハトの窓で積んだ歴史的優位 → 慣性がリセット後の $D$ の反撃を足止めする → $C$ は囚人のジレンマの衝撃を耐え抜く。慣性は逆に協力を守る。

さらに微妙なのは空間次元だ。もし $a=0$ の領域が空間的にひと続きになっていれば——「協力の飛び地」——$C$ はその中で互いにペアを組み、$U_C$ は安定して下がらない。$D$ が飛び地に侵入しても、出会うのはほとんど $C$ だから、利得も $0$ に固定される（マイナスではない）。したがって $U_D$ は下がらない——飛び地の慣性は「内部」の $C$ にしか作用しない。だがもし $a=0$ の領域が断片的で、$C$ と $D$ が混在していれば、$D$-$D$ 遭遇が頻発し、$U_D$ は加速的に低下する。協力慣性はむしろ速く築かれる。

（この論理はやや直感に反する。協力の飛び地があまりに「安全」だと、$D$ が罰せられず、累積勘定で差をつけるうえで不利になる。断片化した $a$ の谷——$D$ が互いに噛み合うこと——こそが、$C$ が慣性を築く近道なのだ。）

短い $N$：裏切りの慣性が協力を押し潰す。モデルⅡはあらゆる可能性のなかで最も $C$ に不利である。
長い $N$：協力の慣性がリセットに対抗する。モデルⅡはモデルⅠよりも $C$ を維持できるかもしれない——モデルⅠの協力者には記憶がなく、リセットが来れば $D$ に浚われてしまう。モデルⅡの協力者には蓄えがあり、次の $a$ の谷まで持ちこたえられる。

別の言語に翻訳する

前のブログ記事では、二つのモデルを「即時選別」と「歴史的選別」に翻訳した。当時私はこう書いた。自然選択が一体何を見ているのか——一歩のフィットネスなのか、累積のフィットネスなのか——我々にはわからない、と。

資源リズムを伴うこのバージョンでは、違いは「遅くなる」にとどまらない。違いは一枚の顔の裏表を得たのだ。

即時選別の弱点はもはや「近視眼的」ではない——有限集団において初めて現れる問題に変わった。非生物的条件は変わったのに、生物的反応は模範者の不足ゆえに追いついていない。利得行列はすでにタカ-ハト・ゲームに調整されているのに、密度が足りず、$D$ はその場に固定される。これは平均場方程式が決して見抜けないものだ——平均場は無限集団の完全混合を仮定し、密度は決して変数にならない。

歴史的選別の場合は、環境変動の持続時間——つまり $N$——に依存する。

短 $N$ 端：歴史的選別は裏切りの共犯者だ。$D$ が囚人のジレンマ段階で積み上げた累積優位が、すべての転向の努力を足止めする。$C$ が $a$ の谷で旧帳を追いつくまで漕ぎ着ける前に、リセットが来る。歴史は記憶ではない。重荷だ。

長 $N$ 端：歴史的選別は協力の鎧だ。$C$ は十分に長いタカ-ハトの窓のなかで十分な蓄えを積んだ——当期の一歩や二歩ではない、累積の数十歩だ。リセットが囚人のジレンマを再び開くが、$C$ の累積優位が $D$ の第一波の反撃を耐え抜く——集団に「考えてみる」ための猶予を与える。

同じメカニズム。二つの運命。スイッチは $N$。

このことは、生物学のきわめて現実的な問いを思い起こさせる。環境の変動周期はどれほどの長さか。ひと季節か。一年か。十年か。もし資源の谷が十分に深く、十分に長ければ——たとえば数年にわたる乾季——自然選択の累積記帳は、協力者が雨季の再来時にまだ足場を保てるようにする。もし谷が一瞬で過ぎ去るなら——数日しか続かない急な寒波——累積記帳はむしろ足を引っ張る。協力者は歴史的スコアから利益を得る前に、環境は暖かさを取り戻してしまう。

adaptive lag は絶対値ではない。記憶の窓と環境のリズムの位相差だ。

即時選別は激しく変動する環境ではオーバーフィットする——一度の偶然の $a$ の谷が協力への転向を騙し、一度の偶然の $a$ のピークがまた裏切りへの転向を騙す。
歴史的選別はゆっくりと漂流する環境ではアンダーフィットする——古い情報が重すぎて、どうしても新しいシグナルに従おうとしない。
しかし変動周期の長さがちょうど記憶の窓の内側に収まれば——歴史的選別はアンダーフィットもオーバーフィットもしない。それは一つのことを成し遂げる。低周波の慣性で高周波のノイズを濾過する。$a$ のあらゆる微動に振り回されず、かといって $a$ の趨勢的変化を完全に無視もしない。

自然選択は一歩も見ていないかもしれないし、全歴史も見ていないかもしれない。おそらく何らかのスライディング・ウィンドウ——直近 $n$ ステップの加重累積——なのだろう。ウィンドウの幅こそが、おそらく進化にとっての「現在」の定義だ。

ウィンドウが狭すぎれば、ノイズがすべてになる。ウィンドウが広すぎれば、シグナルは旧帳のなかに溺れる。

そしてこの呼吸する格子上では、ウィンドウの幅は $N$ だ。$N$ が十分に長ければ、協力の慣性は築かれる——協力が「より優れている」からではない。ただ、今度のタカ-ハトの窓がついに、歴史に別の言葉を語らせるだけの長さを持ったからだ。

コードの話

以上はまだ紙の上の推論だ。平均場近似は一階ODEの予言を与え、二階ODEも方向を示した。だがABMのなかの局所ペアリング、空間パッチ、有限集団——これらこそが物語の行方を本当に決める変数だ。

モデルⅠの臨界密度は一体どこにあるのか。モデルⅡの慣性が「協力を押す」から「協力を守る」へ反転する $N$ は、おおよそどのくらいか。$a$ の谷の空間的断片化は、協力の慣性形成を助けるのか、それとも飛び地を崩すのか。リセット歩数を $3$ から $30$ に引き伸ばしたとき、協力率は単調に上昇するのか、それともどこかで折れ曲がるのか。

もしかすると、コードを書き終えたら、以上のすべてが間違っていると判明するかもしれない。