演化的速度与加速度

Sep 4, 2022

我不懂演化博弈的数学——Replicator Dynamics、Inertial Dynamics,这些名词对我来说只是名词。但我会计算机模拟,Agent-Based Model(ABM)是我的语言。

假如在一个 $n \times n$ 的网格上,按网格数量乘以种群密度生成一群 agents,每一步 agents 带着一个 action 在网格上移动,在 Von Neumann 邻域找另一个 agent 配对,玩一把经典博弈,然后更新 action,进入下一步。所有 agents 更新 action 的方式都一样。以上定义了模型的基本要素。

现在考虑一个关键变量:agents 更新 action 的依据是什么?

一、和邻居比较这一步的得分 $P_1$,下一步变成得分 $P_1$ 高的 action。

二、和邻居比较历史所有博弈的得分 $P_2$,下一步变成得分 $P_2$ 高的 action。

微观设定上,只是"看当前"和"看历史"的区别。但当我试图用数学去描述这两个模型时,发现它们对应着两种完全不同的物理动态:一阶系统与二阶系统,速度与加速度。

下面一步步完成推导。

从代码到方程:平均场近似

在计算机模拟中,有一个 $n \times n$ 的网格,Agent 在上面走动并寻找邻居。数学家做了一个"偷懒"但极其有效的假设——平均场近似(Mean-Field Approximation):假设网格无限大,且所有人像气体分子一样充分混合,随机相遇。

这意味着什么?假设当前全图有 $x$ 比例的人使用策略 $A$,有 $1-x$ 比例的人使用策略 $B$。在一个极小的时间步 $\Delta t$ 内,随机抓取一个 Agent,他是策略 $B$ 的概率是 $1-x$;他恰好撞见一个策略 $A$ 邻居的概率就是 $x$。所以,"$B$ 遇到 $A$“这个事件发生的联合概率就是 $x(1-x)$

当 $B$ 遇到 $A$ 后,会不会变成 $A$?在我们的规则中,比较的是得分。假设切换策略的概率与两者的收益差成正比:如果 $\pi_A > \pi_B$,那么 $B$ 变成 $A$ 的概率 $P(B \to A) = \alpha (\pi_A - \pi_B)$,其中 $\alpha$ 是一个常数比例系数。

这就是从微观到宏观的桥梁。接下来,两个模型分道扬镳。

模型一:看当前得分——Replicator Dynamics

推导

设在时间 $t$ 时刻,全网格采用策略 $A$ 的 Agent 比例为 $x(t)$,采用 $B$ 的比例为 $1-x(t)$。策略 $A$ 的期望单步收益为 $\pi_A(x)$,策略 $B$ 的为 $\pi_B(x)$。

经过一个极小的时间步 $\Delta t$ 后,策略 $A$ 的人口比例变化了多少?

策略 $A$ 增加的人口 = “原本是 $B$ 的人” × “遇到了 $A$” × “决定变成 $A$ 的概率”:

$$\Delta x = (1-x) \cdot x \cdot \alpha(\pi_A - \pi_B) \cdot \Delta t$$

两边同时除以 $\Delta t$:

$$\frac{\Delta x}{\Delta t} = \alpha x(1-x)(\pi_A - \pi_B)$$

当 $\Delta t \to 0$ 时,$\frac{\Delta x}{\Delta t}$ 变成导数 $\frac{dx}{dt}$。令 $\alpha = 1$(吸收进时间尺度),得到:

$$\frac{dx}{dt} = x(1-x)[\pi_A(x) - \pi_B(x)]$$

这就是演化博弈中最著名的标准复制子动态方程(Standard Replicator Equation)

特征

直觉翻译:速度 = 相遇概率 × 利益驱动力

这是一阶常微分方程。$\frac{dx}{dt}$ 相当于物理学中的"速度”——种群演化的速度,直接由当前的收益差决定。如果这一步 $A$ 赚得多,大家立刻转向 $A$。

系统具有马尔可夫性(无记忆性):下一步状态只依赖当前这一步的收益状态,与过去无关。

物理类比:在浓稠蜂蜜中运动。只要没有推力(收益差为 0),运动立刻停止,系统达到纳什均衡。

模型二:看历史总得分——Inertial Dynamics

推导

在模型二中,Agent 比较的不再是当前的单步得分 $\pi$,而是历史所有博弈的累计得分。

在离散的代码里,用的是累加。在连续的微积分里,“随时间累加"就是定积分:

$$U_A(t) = \int_0^t \pi_A(x(\tau)) d\tau, \quad U_B(t) = \int_0^t \pi_B(x(\tau)) d\tau$$

Agent 更新策略的逻辑没变,只是把比较对象换成了 $U_A$ 和 $U_B$:

$$\frac{dx}{dt} = x(1-x)[U_A(t) - U_B(t)]$$

看起来只是把 $\pi$ 换成了 $U$,但数学性质发生了根本变化。为了看清楚,做一个变形。

把 $x(1-x)$ 除到左边:

$$\frac{1}{x(1-x)} \frac{dx}{dt} = \int_0^t \pi_A(x(\tau)) d\tau - \int_0^t \pi_B(x(\tau)) d\tau$$

对等式两边同时对时间 $t$ 求导。

根据微积分基本定理(变上限积分的导数等于被积函数本身),右边的积分符号被"扒掉”,露出当步收益 $\pi_A - \pi_B$:

$$\frac{d}{dt} \left( \frac{1}{x(1-x)} \frac{dx}{dt} \right) = \pi_A(x) - \pi_B(x)$$

特征

左边是对一个包含速度 $\frac{dx}{dt}$ 的项再次求导——速度的导数,就是加速度

当前收益差 $\pi_A - \pi_B$ 决定的不再是速度,而是加速度。这是二阶积分微分方程,带有严重的路径依赖(Memory & Inertia),在文献中被称为惯性动态(Inertial Dynamics)

物理类比:牛顿第二定律 $F = ma$。当前的收益差就像"受力",受力改变的是加速度,不是速度。系统具有惯性

两种动态在模拟中的表现

如果将这两个模型写进代码并跑起来,会观察到截然不同的现象。

滞后与过冲(Overshoot)。 模型一中,如果博弈的纳什均衡点发生移动,Agent 会非常灵活地立刻转向新最优解,曲线平滑地趋近稳定比例。模型二则会出现"掉头困难"——即使当前 $A$ 已经不如 $B$ 赚钱了($\pi_A < \pi_B$),但因为 $A$ 在历史早期积累了巨大的财富总额($U_A > U_B$),Agent 依然在盲目地变成 $A$。直到 $B$ 的当期优势持续足够长的时间,把历史欠账追平,种群才会开始转向。曲线上表现为剧烈的震荡、延迟甚至超调

马太效应与锁定(Lock-in)。 在模型二中,如果前几轮由于纯随机的原因,某一部分 Agent 玩某个策略运气极好,积累了极高的历史得分,这个策略可能会永久"锁定"全图,即使它并不是当前的全局最优解。经济学中经典的例子是 QWERTY 键盘——早期的历史累积优势提供了巨大的惯性,使劣势技术一统天下。

写在最后

模型一是关于"顺应时势"的数学,模型二是关于"历史底蕴"的数学。这个对应关系让我觉得意外又自然。

意外的是,微观规则上只是一个微小的改动——比较当期收益还是比较累计收益——就在宏观数学上从一阶跳到了二阶,从无记忆跳到了有惯性。自然的是,一旦想通了这个跳跃的逻辑,一切又显得不可避免:累计收益是当期收益的积分,把积分放进方程,再对时间求导消去积分,自然就多出一阶导数。

这个结果也让我重新审视 ABM 和数学推导的关系。ABM 是微观视角的演化博弈——局部交互、概率模仿、有限理性;数学方程则是假设网格无限大、主体无限多、混合均匀时的宏观近似。两者是同一枚硬币的两面,而平均场近似就是翻面的手法。ABM 能捕捉空间效应和随机涨落,数学方程则能给出清晰的定性判断——比如"看历史得分会导致系统震荡"这个结论,从二阶方程的数学性质就能预判,不需要跑一万次模拟。

但反过来,数学方程的预测也有边界。平均场近似忽略了空间聚集效应——当 Agent 倾向于和同类聚集时,实际相遇概率会偏离 $x(1-x)$,宏观方程的预测就会失准。这时候 ABM 反而是更诚实的工具。

最后,模型二的"惯性"让我想到一个更宽泛的问题:很多社会现象——技术锁定、制度路径依赖、文化惯性——是否都可以用类似的二阶动态来理解?当个体决策基于历史累积信息而非当期信号时,系统自然会表现出迟滞和震荡。这或许不是巧合,而是某种更深层的热力学或统计物理规律在起作用。