Master-Thesis-Related on TouchingFish.top

ゲームのリズム

Mon, 19 Jun 2023 00:00:00 +0000

以前、二つのABM（エージェント・ベース・モデル）を作った。格子状のエージェントたちがランダムにペアを組み、一回ゲームをプレイし、アクションを更新する。唯一の変数は「何を見るか」——このステップの利得か、それとも過去の全ゲームの累積利得か。微分方程式は私には解けない（平均場近似は文献の引き写しだ）。しかしODEの階数くらいは見分けがつく。一方は一階、もう一方は二階。速度と加速度。記憶なしと慣性あり。ミクロの設定は、ほんのわずかな違いでしかない。

だが、この二つのモデルには暗黙の前提があった。利得行列は一枚岩だ、と。囚人のジレンマは常に囚人のジレンマ。タカ-ハト・ゲームは常にタカ-ハト・ゲーム。

草は痛まない。

Weitz et al.（2016）は草に命を吹き込んだ。戦略が環境を変え、環境が利得構造を書き換え、利得構造が戦略を再形成する。ループが閉じたとき、システムは呼吸を始める。

私がやりたいのはもっと単純なことだ。環境に連続的なフィードバック経路を与えるのではなく、格子にリズムを与えるだけだ。

格子にリズムを

もともとのABMに資源状態変数を追加する。初期値は $A$。各ステップ、エージェントたちは格子上でゲームを行い、1単位の資源を消費する。資源は $A$ から $0$ まで下がり、決まったステップ数の後にまた $A$ にリセットされる。

$b=1$ とし、資源量 $a \in \{0, 1, 2, 3, 4\}$ とする。利得行列は：

$$ \begin{matrix} & C & D \\\\ \hline C & a/2 & 0 \\\\ D & a & (a-1)/2 \end{matrix} $$

最初は $a=4 \implies \begin{pmatrix} 2 & 0 \\ 4 & 1.5 \end{pmatrix}$

純粋な囚人のジレンマだ。$D$ が $C$ を厳密に支配する——相手が何を選ぼうと、裏切りは協力より儲かる。レプリケーターダイナミクスが告げる——さあ、裏切り者を放て。全マスが陥落する。

$a=2 \implies \begin{pmatrix} 1 & 0 \\ 2 & 0.5 \end{pmatrix}$

共有地が呼吸を始めるとき

Thu, 15 Jun 2023 00:00:00 +0000

共有地の悲劇は、誰もが知る古い話だ。

1968年、ギャレット・ハーディンはこういう情景を描いた。誰もが自由に使える牧草地があり、牧夫たちはそれぞれ牛を一頭ずつ増やしていく。牛を一頭増やす利益はすべて自分のものになるが、草地が荒廃するコストは全員で分担する。その結果、誰もが牛を増やし続け、草地は最終的に完全に破壊される、というものである。

ゲーム理論の言葉で言い換えるのは簡単だ。裏切り（defect）が支配戦略である。相手がどう出ようと、裏切りのペイオフは協力より高い。レプリケーターダイナミクスに従えば、裏切り者が最終的に集団全体を飲み込む。

しかし、このモデルには暗黙の前提がある。草は死んだものだ、と。ペイオフ行列は固定されている。踏まれても痛がらない。食べ尽くされても、次のゲームのルールを変えたりしない。

ワイツらが2016年に『PNAS』に発表したこの論文がやったことは、ただ一つ。草に命を吹き込んだのだ。

草に命を吹き込む

論文が提唱するのは「共進化ゲーム理論（coevolutionary game theory）」という枠組みである。ゲームと環境が共に進化する、という考え方だ。核心となる修正点はただ一つ。ペイオフ行列はもはや固定された定数ではなく、環境の関数になる。環境が豊か（replete）なら、裏切りが有利。環境が枯渇（depleted）していれば、協力が有利。

直感的には理解しやすい。資源が潤沢なとき、ただ乗りが一番お得だ。誰かが努力し、自分はその恩恵にあずかる。資源が枯渇したときは、誰もただ乗りできない。協力しなければ共倒れだ。論文の言葉を借りれば、

mutual cooperation is a Nash equilibrium when n = 0 and mutual defection is a Nash equilibrium when n = 1.

$n$ は環境の状態であり、$n=0$ が枯渇（depleted）、$n=1$ が豊潤（replete）を表す。ペイオフ行列 $A(n)$ はこの二つの極値の間で線形補間され、協力と裏切りのナッシュ均衡がそれぞれ両端を占める。

しかし肝心なのは「環境が戦略を決める」ことではない。肝心なのはもう一つの方向だ。戦略が、逆に環境を変えるのである。

閉ループ

協力者は環境を改善する。たとえば細菌が共通の酵素を分泌して養分を分解したり、植生が土壌や水を安定させたりするように。裏切り者は環境を悪化させる。消費するだけで生産しない。こうして一つの閉ループが生まれる。

協力者が増える → 環境が良くなる → 裏切り者が有利になる → 環境が悪くなる → 協力者がまた有利になる →

システムが呼吸を始める。息を吸って、吐いて。栄えては、枯れる。

これこそ、論文全体で最も心を奪われた部分だ。数理モデルが予測するのは、安定した均衡点ではない。永遠に止むことのない振動である。協力者の割合 $x$ と環境状態 $n$ は、位相空間の中に次々と閉じた周期軌道を描く。より正確に言えば、それはヘテロクリニック・サイクル（異宿軌道）だ。システムは四つの境界点の間を繰り返し跳躍する。

$$(x=1, n=1) \to (x=0, n=1) \to (x=0, n=0) \to (x=1, n=0) \to (x=1, n=1)$$

（協力・豊潤）→（裏切り・豊潤）→（裏切り・枯渇）→（協力・枯渇）→（協力・豊潤）。

ワイツはこの現象を「振動する共有地の悲劇（oscillating tragedy of the commons）」と呼ぶ。なぜそれでも悲劇なのか。システムは決して最適な状態に留まれないからだ。豊潤と枯渇の間を行ったり来たりし、協力と裏切りが互いに消長を繰り返す。誰も安定させられない。ハーディンの言葉を借りれば、それは「運命の不可避性（the inevitableness of destiny）」である。

即時的淘汰と歴史的淘汰

Thu, 09 Mar 2023 00:00:00 +0000

単純なエージェントベースモデル（ABM）を考えよう。グリッド上を、それぞれ固有の行動（戦略）を持つエージェントたちがランダムに動き回る。各ステップで隣接するエージェントとペアを組み、一回ゲームを行い、利得を得たのち、自分の行動を更新する。更新ルールは単純だ——隣人のスコアを見て、より高いスコアを出した者の戦略を、次のステップで自分のものにする。

鍵となる変数はただ一つ——どのスコアを比較するのか。

モデル1：このステップのスコア $P_1$ を比較する。このラウンドでより多く稼いだ者を真似る。

モデル2：過去すべてのゲームの累積スコア $P_2$ を比較する。これまでの総計でより多く稼いだ者を真似る。

ミクロな設定としては、単に「現在を見る」か「履歴を見る」かの違いにすぎない。しかし数学的に導出すると、これら二つのモデルはまったく異なる力学系に対応していることがわかる——モデル1は一階の常微分方程式（レプリケータダイナミクス）であり、利得差が進化の「速度」を決める。モデル2は二階の積分微分方程式（慣性ダイナミクス）であり、利得差が進化の「加速度」を決める。速度と加速度、一階と二階、記憶なしと慣性あり。数学的な違いは明白である。

しかし私が本当にやりたいのは別のことだ——この二つのモデルを、生物学の言葉に翻訳すること。

翻訳の第一歩

このABMはそれ自体が自然淘汰のシミュレーションなので、翻訳はほぼ逐語訳で通じる。

行動 = 表現型（phenotype）
各ステップ = 一世代
優れた戦略を模倣する = 優れた遺伝子が世代間で広まる

では $P_1$ と $P_2$ はどうか。どちらも適応度（fitness）のように見える。モデル1では現在の適応度にもとづいて淘汰が行われ、モデル2では累積適応度にもとづいて淘汰が行われる。直感的には、モデル1の自然淘汰は反応が速く、モデル2は「慣性」を持つぶん反応が遅れ、自然淘汰が弱められているように見える。

この推論の大筋は正しい。ただし、三つの修正が必要だ。

$P_1$ と $P_2$ ——どちらも適応度だが、種類が違う

$P_1$ は、より正確には 瞬間的適応度（instantaneous fitness）、あるいは**現在の実現適応度（current realized fitness）に近い——その世代が、いまの環境下で示した適応度のパフォーマンスである。一方、$P_2$ は 累積的適応度（cumulative fitness）、あるいは生涯繁殖成功度（lifetime reproductive success）**に近い——一個体のこれまでの総合的な成績である。

この違いは、単に「一歩を見る」か「複数歩を見る」かという話ではない。$P_2$ は単純な累積値であるため、「長く生きていること」「比較の機会が多いこと」といった要因が混入する。ある個体の $P_2$ が高いのは、その戦略が本当に優れているからではなく、単にゲームに参加した回数が多いからかもしれない。つまり、$P_2$ が比較しているのは純粋に生物学的な意味での適応度ではなく、「累積時間の長さ」までもが混ざり込んだものなのである。

よりクリーンな生物学的解釈を得たいなら、一般的なやり方として $P_2$ を**インタラクションあたりの平均利得（average payoff per interaction）**に置き換えるか、年齢やインタラクション回数で正規化する方法がある。そうすれば比較対象は「一回あたりの平均的な成績」となり、「総成績」ではなくなる。

しかし我々のABMには、ある特殊な設定があり、この問題をより微妙なものにしている。

不死のエージェントたち

このモデルでは、すべてのエージェントは「永続的に」生きている——死は存在しない。各ステップは単にタイムステップを世代として抽象化したものにすぎない。したがって、伝統的な生物学で想定されるような「年長の個体が長く生きるぶん繁殖機会を多く蓄積する」という個体間の寿命差は、ここには存在しない。

では「長く生きていること」によるバイアスは、これで消えたのだろうか。

消えていない。かたちを変えただけだ。

$P_2$ は、初期の利得をその後もずっと保存し続けるため、**経路依存性（path dependence）**が生じる。年齢バイアスはなくとも、履歴軌跡バイアスは存在する——ある戦略が初期に優位に立つと、のちに環境が変化しても、その累積スコアのなかには過去の有利さがなおも残り続けるのである。

問題の本質は「長く生きていること」ではない。過去の情報の重みが大きすぎることにある。

「慣性」イコール「自然淘汰の弱まり」ではない

ここが最も重要な修正点である。

直感的な推論の流れはこうだ——$P_2$ の影響が大きい → 系に慣性が生じる → 自然淘汰が弱まる。方向性としては正しい。だが、結論はより精密に述べなければならない。

進化の速度と慣性

Sat, 04 Feb 2023 00:00:00 +0000

私は進化ゲーム理論の数学を理解しているわけではない。Replicator Dynamics も、自分にとっては単なる用語にすぎない。しかし、コンピュータ・シミュレーションならわかる。Agent-Based Model（ABM）こそが私の言語である。

いま、$n \times n$ のグリッド上に、グリッド数×人口密度のぶんだけエージェントを生成する。各ステップでエージェントはひとつの行動（action）を持ってグリッド上を動き、Von Neumann 近傍で別のエージェントを見つけてペアを作り、古典的なゲームを一局こなし、そのあと行動を更新して次のステップに進む。全エージェントが同じルールで行動を更新する。以上がモデルの基本要素である。

ここで、ひとつの決定的な変数を考えよう。エージェントは何にもとづいて行動を更新するのか。

一、このステップの利得 $P_1$ を隣人と比較し、次のステップでは $P_1$ の高い行動に変わる。

二、過去すべてのゲームの利得 $P_2$ を隣人と比較し、次のステップでは $P_2$ の高い行動に変わる。

ミクロな設定レベルでは、「現在を見る」か「歴史を見る」かの違いにすぎない。しかしこの二つのモデルを数学で記述しようとすると、両者はまったく異なる物理的ダイナミクス——一次系と二次系、速度と加速度——に対応していることが見えてきた。

以下、この導出を一段階ずつ進めていく。

コードから方程式へ：平均場近似

コンピュータ・シミュレーションの世界には $n \times n$ のグリッドがあり、エージェントはその上を歩きまわり、隣人を探す。数学者はここで「手抜き」だが極めて強力な仮定を置く——平均場近似（Mean-Field Approximation）：グリッドは無限大で、全員が気体分子のように完全に混合しており、ランダムに出会う、と仮定するのである。

これは何を意味するか。いま、全グリッド上で割合 $x$ の人々が戦略 $A$ を、割合 $1-x$ の人々が戦略 $B$ を採用しているとしよう。微小な時間幅 $\Delta t$ のあいだに、ランダムに一人のエージェントを選び出す。そのエージェントが戦略 $B$ である確率は $1-x$ である。そして、そのエージェントがたまたま戦略 $A$ の隣人に出会う確率は $x$ である。つまり、「$B$ が $A$ に出会う」という事象の同時確率は $x(1-x)$ になる。

$B$ が $A$ に出会ったあと、$A$ に変わるかどうか。我々のルールでは、比較するのは利得である。戦略切り替えの確率は両者の利得差に比例すると仮定しよう。つまり $\pi_A > \pi_B$ ならば、$B$ が $A$ に変わる確率は $P(B \to A) = \alpha (\pi_A - \pi_B)$ であり、$\alpha$ は定数の比例係数である。

酵母細胞から

Tue, 15 Nov 2022 00:00:00 +0000

酵母はインベルターゼを細胞外に分泌し、スクロースを消化する。消化された糖は誰でも利用できる——ここが面白い。ある細胞は「ただ乗り」を選べる。隣の細胞が分泌した酵素を盗み使い、自分では分泌しないのだ。研究者たちは、機能的な SUC2 遺伝子を持つ酵母を「協力者」、SUC2 遺伝子を欠失させた酵母を「裏切り者」と呼び、両者を競合させた。

結果は直感に反するものだった。

まばらな集団（低い社会的密度）では、裏切り者の適応度はわずか 0.87——協力者より劣る
密な集団（高い社会的密度）では、裏切り者の適応度はなんと 1.19——協力者を上回る

なぜか。社会的密度が高いほど、協力者は他の協力者と出会いやすい。皆が酵素を分泌すれば共有資源のプールは大きくなり、各個体の利益も増す。そこに裏切り者が紛れ込めば、一方的に共有の成果を享受しながらコストを払わないため、利益は爆発的に跳ね上がる。

密度が極めて高くなると、裏切り者はほぼ常に搾取対象を見つけられ、自分で分泌する以上の量を盗み取る。協力者はむしろ足を引っ張られる。

これは私の直感に完璧に合致する。だが、自分でもう一度やってみたかった——論文の結論を検証するためではなく、この過程を自らの手で「見る」ために。方程式を格子に書き込み、数字が走り出すのを眺めたかったのだ。

モデル設定

$n \times n$ の格子。個体群密度（population density）が各セルにエージェントを配置する確率を制御する。エージェントは二つの戦略をとる：C（協力、酵素を分泌する）と D（裏切り、分泌しない）。

二者が出会うたびに標準的な囚人のジレンマをプレイする。利得行列は：

$$ \begin{pmatrix} R=3 & S=0 \\ T=5 & P=1 \end{pmatrix} $$

R は協力-協力の報酬、T は裏切りの誘惑、S は裏切られた側の利得、P は相互裏切りの罰。古典的な設定に従い、$T > R > P > S$、かつ $2R > T + S$（互恵的協力は繰り返される裏切りより優れている）。

各ステップ：

エージェントはフォン・ノイマン近傍（上下左右の四セル）で隣人を探す
二人で一回のゲームを行う
このステップの利得 $\pi$ を比較する
利得差に比例する確率で隣人の戦略を模倣する
ランダムな方向に一格子単位で移動する

見るのは当期利得のみ。履歴はなく、計画もない。

理論的予測

レプリケータダイナミクス（Replicator Dynamics）は平均場における以下の方程式を与える：

$$\frac{dx}{dt} = x(1-x)[\pi_C - \pi_D]$$

$x$ は協力者の割合、$\pi_C$ と $\pi_D$ は各戦略の期待される単ステップ利得である。

利得は出会いの確率に依存する。平均場近似では、協力者が協力者に出会う確率は $x$、裏切り者に出会う確率は $1-x$。裏切り者についてはその逆：

$$\pi_C = x \cdot R + (1-x) \cdot S$$