即时筛选与历史筛选

Mar 9, 2023

考虑一个简单的 Agent-Based Model(ABM)。在一个网格上,一群 agents 各自带着一个 action(策略)随机移动,每一步找一个邻居配对,玩一把博弈,获得一个 payoff(收益),然后更新自己的 action。更新规则很简单——看看邻居的得分,谁的得分高,下一步就变成谁的策略。

关键变量只有一个:比较什么得分?

模型一:比较这一步的得分 $P_1$。谁这一轮赚得多,我就学谁。

模型二:比较历史所有博弈的累计得分 $P_2$。谁到目前为止总共赚得多,我就学谁。

微观设定上,只是"看当前"和"看历史"的区别。但数学推导告诉我们,这两个模型对应着两种截然不同的动态系统——模型一是一阶常微分方程(Replicator Dynamics),收益差决定演化的"速度";模型二是二阶积分微分方程(Inertial Dynamics),收益差决定演化的"加速度"。速度与加速度,一阶与二阶,无记忆与有惯性。数学上的区别是清楚的。

但我想做另一件事:把这两个模型翻译成生物学的语言。

翻译的第一步

这个 ABM 本身就是自然选择的模拟,翻译几乎是直译:

那么 $P_1$ 和 $P_2$ 呢?它们都像是 fitness(适应度)。模型一依据当前 fitness 筛选,模型二依据累计 fitness 筛选。直觉上,模型一的自然选择反应快,模型二因为有"惯性",反应慢,自然选择被减弱了。

这个推理大方向是对的。但有三处需要修正。

$P_1$ 和 $P_2$ 都是 fitness,但不是同一种

$P_1$ 更像 instantaneous fitnesscurrent realized fitness——这一代在当前环境下的适应度表现。$P_2$ 更像 cumulative fitnesslifetime reproductive success——一个个体到目前为止的总表现。

区别不只是"看一步"和"看多步"。$P_2$ 作为简单累加,会混入"活得更久、比较次数更多"这些因素。一个个体 $P_2$ 高,可能不是因为它的策略真的好,只是因为它参与博弈的次数多。也就是说,$P_2$ 比较的不纯粹是生物学意义上的适应度,还混入了"累计时间长度"。

如果想要更干净的生物学解释,常见做法是把 $P_2$ 改成 average payoff per interaction,或者按年龄、交互次数做归一化。这样比较的就是"平均每次博弈的表现",而非"总表现"。

但在我们的 ABM 里,有一个特殊设定让这个问题变得更微妙。

所有 agents 都"永久活着"

在我们的模型中,所有 agents 都是"永久"活着的——不存在死亡。每一步只是把 time step 抽象成 generation,所以不存在传统生物学里那种"年长个体因为活得久而累计更多繁殖机会"的个体寿命差异。

那"活得更久"的偏置问题是不是就消失了?

没有。它换了一种形式。

$P_2$ 仍然会把早期的 payoff 不断保留下来,形成 path dependence(路径依赖)。虽然没有"年龄偏置",仍然有"历史轨迹偏置":一个策略早期占优,后面即使环境变了,它的累计分数里仍然带着过去的优势。

问题不在"活得更久",而在过去的信息权重太大

“惯性"不等于"自然选择被减弱”

这是最关键的一处修正。

直觉推理:$P_2$ 影响更大 → 系统有惯性 → 自然选择被减弱了。方向是对的,结论需要精确化。

$P_2$ 引入的核心不是惯性本身,而是 memory / path dependence / time-averaging。它让策略更新不那么依赖当下的单次表现,而依赖过去累计的结果。生物学上这更像"长期平均表现"或"历史轨迹影响当前适应度",而不是经典物理意义上的惯性。

说"自然选择被减弱了"是不准确的。更准确的说法是:它让自然选择从"即时筛选"变成"历史筛选"。

这两者的区别不是"强"与"弱",而是"看什么":

在环境稳定时,历史筛选甚至可能让系统看起来更"稳"——它减少了短期波动,相当于对信号做了时间平滑。在环境快速变化时,它才会显得"跟不上"——旧时期的累计信息拖住了新变化的脚步。

“反应变慢"是相对于环境变化而言的,是一个 adaptive lag(适应性延迟),不是一个绝对性质。

两种自然选择模式

经过以上修正,翻译可以完成了:

Model 1:selection acts on current phenotype performance;adaptation is responsive and local. 自然选择依据当前适应度,响应快,无记忆。

Model 2:selection acts on historical accumulated performance;adaptation has memory and path dependence. 自然选择依据历史累计适应度,有记忆,有路径依赖。

如果按"每一步 = 一代"来解释,$P_1$ 更像"这一代的繁殖成功率”,$P_2$ 更像"跨代累计的繁殖成功总量"或"长期适应度轨迹"。Model 2 更适合解释 delayed payoff(延迟收益)、experience accumulation(经验积累)或 long-term strategy evaluation(长期策略评估)这类现象。两种模式的区别不在于选择的强弱,而在于筛选的依据——当下还是历史。

Model 1 approximates selection based on instantaneous fitness, leading to a fast and locally responsive evolutionary update.

Model 2 approximates selection based on cumulative fitness, introducing memory and delayed response to environmental change.

结语

我们实际上并不知道自然选择对博弈中的"合作"行为是如何起作用的——是即时筛选,还是历史筛选?这是一个经验问题,不是数学能回答的。

但假设模型一和模型二分别对应这两种模式,说模型二的自然选择"反应变慢了"是合理的——只要精确地理解"变慢":不是选择强度变弱,而是对环境变化的敏感性下降,存在一个 adaptive lag。

Model 1: selection is more responsive and memoryless.

Model 2: selection is more history-dependent and has a lag.

自然选择到底在"看"什么?也许这个问题本身就问错了——自然选择没有"在看",它只是一个统计结果。

真正在"看"的,我想是每个 free will 做决策的动机吧。