即时筛选与历史筛选 | TouchingFish.top

考虑一个简单的 Agent-Based Model（ABM）。在一个网格上，一群 agents 各自带着一个 action（策略）随机移动，每一步找一个邻居配对，玩一把博弈，获得一个 payoff（收益），然后更新自己的 action。更新规则很简单——看看邻居的得分，谁的得分高，下一步就变成谁的策略。

关键变量只有一个：比较什么得分？

模型一：比较这一步的得分 $P_1$。谁这一轮赚得多，我就学谁。

模型二：比较历史所有博弈的累计得分 $P_2$。谁到目前为止总共赚得多，我就学谁。

微观设定上，只是"看当前"和"看历史"的区别。但数学推导告诉我们，这两个模型对应着两种截然不同的动态系统——模型一是一阶常微分方程（Replicator Dynamics），收益差决定演化的"速度"；模型二是二阶积分微分方程（Inertial Dynamics），收益差决定演化的"加速度"。速度与加速度，一阶与二阶，无记忆与有惯性。数学上的区别是清楚的。

但我想做另一件事：把这两个模型翻译成生物学的语言。

翻译的第一步

这个 ABM 本身就是自然选择的模拟，翻译几乎是直译：

Action = 表现型（phenotype）
每一步 = 一代
模仿更好的策略 = 更好的基因在代际之间被传播

那么 $P_1$ 和 $P_2$ 呢？它们都像是 fitness（适应度）。模型一依据当前 fitness 筛选，模型二依据累计 fitness 筛选。直觉上，模型一的自然选择反应快，模型二因为有"惯性"，反应慢，自然选择被减弱了。

这个推理大方向是对的。但有三处需要修正。

$P_1$ 和 $P_2$ 都是 fitness，但不是同一种

$P_1$ 更像 instantaneous fitness 或 current realized fitness——这一代在当前环境下的适应度表现。$P_2$ 更像 cumulative fitness 或 lifetime reproductive success——一个个体到目前为止的总表现。

区别不只是"看一步"和"看多步"。$P_2$ 作为简单累加，会混入"活得更久、比较次数更多"这些因素。一个个体 $P_2$ 高，可能不是因为它的策略真的好，只是因为它参与博弈的次数多。也就是说，$P_2$ 比较的不纯粹是生物学意义上的适应度，还混入了"累计时间长度"。

如果想要更干净的生物学解释，常见做法是把 $P_2$ 改成 average payoff per interaction，或者按年龄、交互次数做归一化。这样比较的就是"平均每次博弈的表现"，而非"总表现"。

但在我们的 ABM 里，有一个特殊设定让这个问题变得更微妙。

所有 agents 都"永久活着"

在我们的模型中，所有 agents 都是"永久"活着的——不存在死亡。每一步只是把 time step 抽象成 generation，所以不存在传统生物学里那种"年长个体因为活得久而累计更多繁殖机会"的个体寿命差异。

那"活得更久"的偏置问题是不是就消失了？

没有。它换了一种形式。

$P_2$ 仍然会把早期的 payoff 不断保留下来，形成 path dependence（路径依赖）。虽然没有"年龄偏置"，仍然有"历史轨迹偏置"：一个策略早期占优，后面即使环境变了，它的累计分数里仍然带着过去的优势。

问题不在"活得更久"，而在过去的信息权重太大。

“惯性"不等于"自然选择被减弱”

这是最关键的一处修正。

直觉推理：$P_2$ 影响更大 → 系统有惯性 → 自然选择被减弱了。方向是对的，结论需要精确化。

$P_2$ 引入的核心不是惯性本身，而是 memory / path dependence / time-averaging。它让策略更新不那么依赖当下的单次表现，而依赖过去累计的结果。生物学上这更像"长期平均表现"或"历史轨迹影响当前适应度"，而不是经典物理意义上的惯性。

说"自然选择被减弱了"是不准确的。更准确的说法是：它让自然选择从"即时筛选"变成"历史筛选"。

这两者的区别不是"强"与"弱"，而是"看什么"：

即时筛选：你这一代表现好，下一代就占优势
历史筛选：你历史总表现好，下一代就占优势

在环境稳定时，历史筛选甚至可能让系统看起来更"稳"——它减少了短期波动，相当于对信号做了时间平滑。在环境快速变化时，它才会显得"跟不上"——旧时期的累计信息拖住了新变化的脚步。

“反应变慢"是相对于环境变化而言的，是一个 adaptive lag（适应性延迟），不是一个绝对性质。

两种自然选择模式

经过以上修正，翻译可以完成了：

Model 1：selection acts on current phenotype performance；adaptation is responsive and local. 自然选择依据当前适应度，响应快，无记忆。

Model 2：selection acts on historical accumulated performance；adaptation has memory and path dependence. 自然选择依据历史累计适应度，有记忆，有路径依赖。

如果按"每一步 = 一代"来解释，$P_1$ 更像"这一代的繁殖成功率”，$P_2$ 更像"跨代累计的繁殖成功总量"或"长期适应度轨迹"。Model 2 更适合解释 delayed payoff（延迟收益）、experience accumulation（经验积累）或 long-term strategy evaluation（长期策略评估）这类现象。两种模式的区别不在于选择的强弱，而在于筛选的依据——当下还是历史。

Model 1 approximates selection based on instantaneous fitness, leading to a fast and locally responsive evolutionary update.
Model 2 approximates selection based on cumulative fitness, introducing memory and delayed response to environmental change.

结语

我们实际上并不知道自然选择对博弈中的"合作"行为是如何起作用的——是即时筛选，还是历史筛选？这是一个经验问题，不是数学能回答的。

但假设模型一和模型二分别对应这两种模式，说模型二的自然选择"反应变慢了"是合理的——只要精确地理解"变慢"：不是选择强度变弱，而是对环境变化的敏感性下降，存在一个 adaptive lag。

Model 1: selection is more responsive and memoryless.
Model 2: selection is more history-dependent and has a lag.

自然选择到底在"看"什么？也许这个问题本身就问错了——自然选择没有"在看"，它只是一个统计结果。

真正在"看"的，我想是每个 free will 做决策的动机吧。