即時的淘汰と歴史的淘汰

単純なエージェントベースモデル（ABM）を考えよう。グリッド上を、それぞれ固有の行動（戦略）を持つエージェントたちがランダムに動き回る。各ステップで隣接するエージェントとペアを組み、一回ゲームを行い、利得を得たのち、自分の行動を更新する。更新ルールは単純だ——隣人のスコアを見て、より高いスコアを出した者の戦略を、次のステップで自分のものにする。

鍵となる変数はただ一つ——どのスコアを比較するのか。

モデル1：このステップのスコア $P_1$ を比較する。このラウンドでより多く稼いだ者を真似る。

モデル2：過去すべてのゲームの累積スコア $P_2$ を比較する。これまでの総計でより多く稼いだ者を真似る。

ミクロな設定としては、単に「現在を見る」か「履歴を見る」かの違いにすぎない。しかし数学的に導出すると、これら二つのモデルはまったく異なる力学系に対応していることがわかる——モデル1は一階の常微分方程式（レプリケータダイナミクス）であり、利得差が進化の「速度」を決める。モデル2は二階の積分微分方程式（慣性ダイナミクス）であり、利得差が進化の「加速度」を決める。速度と加速度、一階と二階、記憶なしと慣性あり。数学的な違いは明白である。

しかし私が本当にやりたいのは別のことだ——この二つのモデルを、生物学の言葉に翻訳すること。

翻訳の第一歩

このABMはそれ自体が自然淘汰のシミュレーションなので、翻訳はほぼ逐語訳で通じる。

行動 = 表現型（phenotype）
各ステップ = 一世代
優れた戦略を模倣する = 優れた遺伝子が世代間で広まる

では $P_1$ と $P_2$ はどうか。どちらも適応度（fitness）のように見える。モデル1では現在の適応度にもとづいて淘汰が行われ、モデル2では累積適応度にもとづいて淘汰が行われる。直感的には、モデル1の自然淘汰は反応が速く、モデル2は「慣性」を持つぶん反応が遅れ、自然淘汰が弱められているように見える。

この推論の大筋は正しい。ただし、三つの修正が必要だ。

$P_1$ と $P_2$ ——どちらも適応度だが、種類が違う

$P_1$ は、より正確には 瞬間的適応度（instantaneous fitness）、あるいは**現在の実現適応度（current realized fitness）に近い——その世代が、いまの環境下で示した適応度のパフォーマンスである。一方、$P_2$ は 累積的適応度（cumulative fitness）、あるいは生涯繁殖成功度（lifetime reproductive success）**に近い——一個体のこれまでの総合的な成績である。

この違いは、単に「一歩を見る」か「複数歩を見る」かという話ではない。$P_2$ は単純な累積値であるため、「長く生きていること」「比較の機会が多いこと」といった要因が混入する。ある個体の $P_2$ が高いのは、その戦略が本当に優れているからではなく、単にゲームに参加した回数が多いからかもしれない。つまり、$P_2$ が比較しているのは純粋に生物学的な意味での適応度ではなく、「累積時間の長さ」までもが混ざり込んだものなのである。

よりクリーンな生物学的解釈を得たいなら、一般的なやり方として $P_2$ を**インタラクションあたりの平均利得（average payoff per interaction）**に置き換えるか、年齢やインタラクション回数で正規化する方法がある。そうすれば比較対象は「一回あたりの平均的な成績」となり、「総成績」ではなくなる。

しかし我々のABMには、ある特殊な設定があり、この問題をより微妙なものにしている。

不死のエージェントたち

このモデルでは、すべてのエージェントは「永続的に」生きている——死は存在しない。各ステップは単にタイムステップを世代として抽象化したものにすぎない。したがって、伝統的な生物学で想定されるような「年長の個体が長く生きるぶん繁殖機会を多く蓄積する」という個体間の寿命差は、ここには存在しない。

では「長く生きていること」によるバイアスは、これで消えたのだろうか。

消えていない。かたちを変えただけだ。

$P_2$ は、初期の利得をその後もずっと保存し続けるため、**経路依存性（path dependence）**が生じる。年齢バイアスはなくとも、履歴軌跡バイアスは存在する——ある戦略が初期に優位に立つと、のちに環境が変化しても、その累積スコアのなかには過去の有利さがなおも残り続けるのである。

問題の本質は「長く生きていること」ではない。過去の情報の重みが大きすぎることにある。

「慣性」イコール「自然淘汰の弱まり」ではない

ここが最も重要な修正点である。

直感的な推論の流れはこうだ——$P_2$ の影響が大きい → 系に慣性が生じる → 自然淘汰が弱まる。方向性としては正しい。だが、結論はより精密に述べなければならない。

$P_2$ が導入する本質は、慣性そのものではなく、**記憶／経路依存性／時間平均化（memory / path dependence / time-averaging）**である。これによって、戦略の更新は目の前の一回の成績だけに依存するのではなく、過去の累積的な結果に依存するようになる。生物学的に言えば、これはむしろ「長期的な平均成績」や「履歴軌跡が現在の適応度に影響を及ぼすこと」に近く、古典物理的な意味での慣性とは異なる。

したがって「自然淘汰が弱まった」と言うのは正確ではない。より正確には、自然淘汰が「即時的淘汰」から「歴史的淘汰」へと、そのあり方を変えたと言うべきである。

両者の違いは「強い／弱い」ではなく、「何を見ているか」にある。

即時的淘汰：この世代でよい成績を出せば、次の世代で優位に立つ
歴史的淘汰：これまでの総成績がよければ、次の世代で優位に立つ

環境が安定している場合、歴史的淘汰は系をむしろ「安定」させて見せることさえある——短期の変動を抑え、信号を時間的に平滑化する効果を持つからだ。環境が急速に変化している場合にこそ、「ついていけない」ように見える——過去の時期に蓄積された情報が、新しい変化への足かせとなる。

「反応が遅くなる」というのは、あくまで環境変化との相対的な話であり、**適応遅延（adaptive lag）**であって、絶対的な性質ではない。

二つの自然淘汰モード

以上の修正を経て、翻訳は次のように完成する。

モデル1：淘汰は現在の表現型の成績に作用する。適応は即応的であり、記憶を持たない。自然淘汰は現在の適応度にもとづき、反応は速く、無記憶である。

モデル2：淘汰は歴史的な累積成績に作用する。適応は記憶と経路依存性をともなう。自然淘汰は過去の累積適応度にもとづき、記憶があり、経路依存性がある。

「各ステップ = 一世代」という解釈に立てば、$P_1$ は「この世代の繁殖成功率」に、$P_2$ は「世代をまたいで累積された繁殖成功の総量」ないし「長期的な適応度軌跡」に近い。モデル2は、遅延利得（delayed payoff）や経験蓄積（experience accumulation）、**長期戦略評価（long-term strategy evaluation）**といった現象を説明するのに、より適している。二つのモードの違いは淘汰の強さではなく、淘汰の拠りどころ——現在か、歴史か——にある。

Model 1 approximates selection based on instantaneous fitness, leading to a fast and locally responsive evolutionary update.
Model 2 approximates selection based on cumulative fitness, introducing memory and delayed response to environmental change.

結び

自然淘汰が、ゲームにおける「協力」行動に対してどのように作用しているのか——即時的淘汰なのか、歴史的淘汰なのか——実際のところ我々はまだ知らない。これは経験的な問いであり、数学が答えを出せる種類のものではない。

しかし、モデル1とモデル2がそれぞれこの二つのモードに対応していると仮定するならば、モデル2の自然淘汰は「反応が遅くなった」と言うのは妥当である——ただし、「遅くなる」ということを正確に理解したうえでの話だ。淘汰の強度が弱まったわけではない。環境変化に対する感度が落ち、適応遅延（adaptive lag）が存在するようになった、ということである。

Model 1: selection is more responsive and memoryless.
Model 2: selection is more history-dependent and has a lag.

自然淘汰はいったい何を「見て」いるのだろうか。おそらくこの問い自体が問い方を誤っている——自然淘汰が「見ている」わけではない。それはただの統計的な結果にすぎないのだから。

本当に「見ている」のは、それぞれの自由意志が決断を下すときの動機なのだろう、と私は思う。