進化の速度と慣性 | TouchingFish.top

私は進化ゲーム理論の数学を理解しているわけではない。Replicator Dynamics も、自分にとっては単なる用語にすぎない。しかし、コンピュータ・シミュレーションならわかる。Agent-Based Model（ABM）こそが私の言語である。

いま、$n \times n$ のグリッド上に、グリッド数×人口密度のぶんだけエージェントを生成する。各ステップでエージェントはひとつの行動（action）を持ってグリッド上を動き、Von Neumann 近傍で別のエージェントを見つけてペアを作り、古典的なゲームを一局こなし、そのあと行動を更新して次のステップに進む。全エージェントが同じルールで行動を更新する。以上がモデルの基本要素である。

ここで、ひとつの決定的な変数を考えよう。エージェントは何にもとづいて行動を更新するのか。

一、このステップの利得 $P_1$ を隣人と比較し、次のステップでは $P_1$ の高い行動に変わる。

二、過去すべてのゲームの利得 $P_2$ を隣人と比較し、次のステップでは $P_2$ の高い行動に変わる。

ミクロな設定レベルでは、「現在を見る」か「歴史を見る」かの違いにすぎない。しかしこの二つのモデルを数学で記述しようとすると、両者はまったく異なる物理的ダイナミクス——一次系と二次系、速度と加速度——に対応していることが見えてきた。

以下、この導出を一段階ずつ進めていく。

コードから方程式へ：平均場近似

コンピュータ・シミュレーションの世界には $n \times n$ のグリッドがあり、エージェントはその上を歩きまわり、隣人を探す。数学者はここで「手抜き」だが極めて強力な仮定を置く——平均場近似（Mean-Field Approximation）：グリッドは無限大で、全員が気体分子のように完全に混合しており、ランダムに出会う、と仮定するのである。

これは何を意味するか。いま、全グリッド上で割合 $x$ の人々が戦略 $A$ を、割合 $1-x$ の人々が戦略 $B$ を採用しているとしよう。微小な時間幅 $\Delta t$ のあいだに、ランダムに一人のエージェントを選び出す。そのエージェントが戦略 $B$ である確率は $1-x$ である。そして、そのエージェントがたまたま戦略 $A$ の隣人に出会う確率は $x$ である。つまり、「$B$ が $A$ に出会う」という事象の同時確率は $x(1-x)$ になる。

$B$ が $A$ に出会ったあと、$A$ に変わるかどうか。我々のルールでは、比較するのは利得である。戦略切り替えの確率は両者の利得差に比例すると仮定しよう。つまり $\pi_A > \pi_B$ ならば、$B$ が $A$ に変わる確率は $P(B \to A) = \alpha (\pi_A - \pi_B)$ であり、$\alpha$ は定数の比例係数である。

これがミクロからマクロへの架け橋だ。ここから先、二つのモデルは道を分かつ。

モデル一：現在の利得を見る——Replicator Dynamics

導出

時刻 $t$ において、全グリッドで戦略 $A$ を採用するエージェントの割合を $x(t)$、$B$ を採用する割合を $1-x(t)$ とする。戦略 $A$ の期待単回利得を $\pi_A(x)$、戦略 $B$ のそれを $\pi_B(x)$ とする。

微小な時間幅 $\Delta t$ ののち、戦略 $A$ の人口割合はどれだけ変化したか。

戦略 $A$ の増加分 = 「もともと $B$ だった人」×「$A$ に出会った」×「$A$ に変わる確率」：

$$\Delta x = (1-x) \cdot x \cdot \alpha(\pi_A - \pi_B) \cdot \Delta t$$

両辺を $\Delta t$ で割ると：

$$\frac{\Delta x}{\Delta t} = \alpha x(1-x)(\pi_A - \pi_B)$$

$\Delta t \to 0$ のとき、$\frac{\Delta x}{\Delta t}$ は導関数 $\frac{dx}{dt}$ になる。$\alpha = 1$ とおき（時間スケールに吸収させる）、以下を得る：

$$\frac{dx}{dt} = x(1-x)[\pi_A(x) - \pi_B(x)]$$

これが進化ゲーム理論で最もよく知られた**標準レプリケータ動学方程式（Standard Replicator Equation）**である。

特徴

直観的な解釈：速度 = 出会い確率 × 利得による駆動力。

これは一階常微分方程式である。$\frac{dx}{dt}$ は物理学でいう「速度」——個体群進化の速度——に相当し、現在の利得差によって直接決定される。このステップで $A$ の儲けが多ければ、全員がただちに $A$ へ向かう。

この系は**マルコフ性（無記憶性）**を持つ。次の状態は現在の利得状態だけに依存し、過去とは無関係である。

物理的アナロジー：濃い蜂蜜のなかでの運動。推力（利得差 0）がなくなれば、運動は即座に停止し、系はナッシュ均衡に達する。

モデル二：過去の累積利得を見る——Inertial Dynamics

導出

モデル二では、エージェントが比較するのは現在の単回利得 $\pi$ ではなく、過去すべてのゲームの累積利得である。

離散コードの世界では累積和を用いる。連続的な微積分の世界では、「時間とともに積み重ねる」ことは定積分にほかならない：

$$U_A(t) = \int_0^t \pi_A(x(\tau)) d\tau, \quad U_B(t) = \int_0^t \pi_B(x(\tau)) d\tau$$

エージェントの戦略更新ロジックは変わらない。比較対象を $U_A$ と $U_B$ に置き換えただけである：

$$\frac{dx}{dt} = x(1-x)[U_A(t) - U_B(t)]$$

見た目には $\pi$ を $U$ に変えただけだが、数学的性質は根本的に変わる。それをはっきり見るために、式を変形しよう。

$x(1-x)$ を左辺に移す：

$$\frac{1}{x(1-x)} \frac{dx}{dt} = \int_0^t \pi_A(x(\tau)) d\tau - \int_0^t \pi_B(x(\tau)) d\tau$$

この等式の両辺を、時間 $t$ で微分する。

微分積分学の基本定理（上端変数積分の導関数は被積分関数そのもの）により、右辺の積分記号は「はがされ」、当該ステップの利得 $\pi_A - \pi_B$ が姿を現す：

$$\frac{d}{dt} \left( \frac{1}{x(1-x)} \frac{dx}{dt} \right) = \pi_A(x) - \pi_B(x)$$

特徴

左辺は、速度 $\frac{dx}{dt}$ を含む項をさらに微分している——速度の導関数、つまり加速度である。

現在の利得差 $\pi_A - \pi_B$ が決定するのは、もはや速度ではなく加速度である。これは二階積分微分方程式であり、深刻な**経路依存性（Memory & Inertia）を持つ。文献では慣性動学（Inertial Dynamics）**と呼ばれる。

物理的アナロジー：ニュートンの第二法則 $F = ma$。現在の利得差は「力」のようなものであり、力が変えるのは加速度であって速度ではない。系は慣性を持つ。

二つの動学のシミュレーション上の振る舞い

この二つのモデルをコードに書き起こして動かすと、はっきりと異なる現象が観察される。

モデル一では、ゲームのナッシュ均衡点が移動しても、エージェントはきわめて柔軟にただちに新しい最適解へ向かい、曲線は滑らかに安定比率へ漸近する。モデル二では「方向転換の困難」が生じる——現在の $A$ がすでに $B$ よりも稼げなくなっていても（$\pi_A < \pi_B$）、$A$ が歴史の初期に巨額の富を蓄積しているため（$U_A > U_B$）、エージェントは盲目的に $A$ へ変化しつづける。$B$ の当期優位が十分長く持続し、歴史的な借りを追いついた時点ではじめて、個体群は方向を変えはじめる。曲線上には激しい振動、遅延が現れる。

モデル二の最初の数ラウンドで、あるエージェントたちがたまたま特定の戦略で極めて運に恵まれ、きわめて高い累積利得を積み上げてしまうと、その戦略が全グリッドを恒久的に「ロックイン（Lock-in）」してしまう可能性がある。たとえそれが、現時点での大域的最適解でなかったとしても。

まとめ

モデル一は「時流に乗る」ことの数学であり、モデル二は「歴史的蓄積」の数学である。この対応関係は、私にとって意外であると同時に、きわめて自然でもある。

In model 1, payoff differences directly determine the velocity of strategy evolution (replicator dynamics).
In model 2, payoff differences accumulate over time and determine the acceleration of strategy evolution, leading to an inertial (second-order) dynamic system.

ミクロなルールではほんのわずかな変更——当期利得を比較するか、累積利得を比較するか——であるにもかかわらず、マクロな数学では一階から二階へ、無記憶から慣性ありへと跳躍する。自然に思えるのは、いったんこの跳躍のロジックを考え抜いてしまえば、すべてが不可避に見えてくるからだ。累積利得は当期利得の積分であり、積分を方程式に入れてから時間微分して積分を消去すれば、導関数が一つ増えるのは当然である。

ABM は進化ゲームのミクロな視点——局所的相互作用、確率的模倣、限定合理性——であり、数学方程式はグリッド無限大・主体無限大・完全混合を仮定したときのマクロ近似である。

両者は同じコインの表裏であり、平均場近似こそがコインをひっくり返す手さばきである。

ABM は空間効果や確率的ゆらぎを捉えることができ、数学方程式は明確な定性的判断——たとえば「過去利得を見ると系は振動する」という結論を、二階方程式の数学的性質から事前に予測できる——を与える。

しかし逆に、数学方程式の予測にも限界はある。平均場近似は空間的凝集効果を無視している。エージェントが同類と集まりたがる傾向があるとき、実際の出会い確率は $x(1-x)$ から外れ、マクロ方程式の予測は外れてしまう。そういうときは、むしろ ABM のほうが正直な道具なのである。

進化動学の「慣性」から、私はより広い問題を考えさせられる。技術のロックイン、制度の経路依存性、文化の慣性——多くの社会現象は、似たような二階動学で理解できるのではないか。個人の意思決定が当期の信号ではなく歴史的蓄積情報にもとづくとき、系は当然、遅滞と振動を示す。これはおそらく偶然ではなく、より深い熱力学あるいは統計物理学的な法則が働いているのではないだろうか。