Evolutionary-Games on TouchingFish.top

博弈的胃

Mon, 19 Jun 2023 00:00:00 +0000

之前写过两个 ABM（Agent-Based Model）。网格上的 agents 随机配对，玩一局博弈，然后更新 action。唯一的变量是"看什么"——这一步的得分，还是历史上所有博弈的总分。微分方程我不会推（平均场近似抄的文献），但 ODE 的阶数我还是看得懂的：一个是一阶，一个是二阶。速度与加速度，无记忆与有惯性。微观设定只是一念之差。

但那两个模型共享一个暗含的前提：支付矩阵是铁板一块。囚徒困境永远是囚徒困境。鹰鸽博弈永远是鹰鸽博弈。

草不会疼。

Weitz et al.（2016）让草活了过来——策略改变环境，环境重写收益结构，收益结构反过来重塑策略。闭环一旦形成，系统就开始呼吸。

我想做的事更简单：不给环境开一个连续的反馈通道，只是给网格一个胃。

给网格一个胃

在原来的 ABM 里加一个资源状态变量，初始值设为 $A$。每一步 agents 在网格上博弈，消耗 $1$ 单位资源。资源从 $A$ 一路降到 $0$，再隔固定步数，重置回 $A$。

设 $b=1$，资源存量 $a \in \{0, 1, 2, 3, 4\}$。支付矩阵为：

$$ \begin{matrix} & C & D \\\\ \hline C & a/2 & 0 \\\\ D & a & (a-1)/2 \end{matrix} $$

$a=4$，桌子是这样的：

$$ \begin{matrix} & C & D \\\\ \hline C & 2 & 0 \\\\ D & 4 & 1.5 \end{matrix} $$

纯正的囚徒困境。$D$ 严格占优 $C$——不管对方选什么，背叛都比合作赚得多。Replicator dynamics 告诉你：关门，放背叛者，全图沦陷。

当公地开始呼吸

Thu, 15 Jun 2023 00:00:00 +0000

公地悲剧是一个老故事了。

1968 年，Garrett Hardin 描述了这样一个场景：一片对所有人开放的草地，每个牧民都往上面多放一头牛。多放一头牛的收益全归自己，草地退化的代价由所有人分担。于是每个人都选择多放，草地最终被彻底毁掉。

博弈论的翻译很简单：背叛（defect）是 dominant strategy。不管别人怎么做，背叛的 payoff 都比合作高。Replicator dynamics 告诉你，背叛者最终会吞掉整个群体。

但这个模型有一个默认前提：草是死的东西。payoff 矩阵是固定的。

你踩一脚，它不会疼。把它吃光了，它不会改变下一次博弈的规则。

Weitz 等人在 2016 年 PNAS 上发表的这篇论文做了一件事：他们让草活过来了。

让草活过来

论文提出了一种叫做 “coevolutionary game theory” 的框架——博弈和环境的共同演化。核心改动只有一条：payoff 矩阵不再是固定的常数，而是环境的函数。环境好（replete），背叛占优。环境差（depleted），合作占优。

直觉上很好理解。资源充裕的时候，搭便车是最划算的——别人出力，你享受。资源枯竭的时候，谁都没法搭便车——不合作就一起死。用论文的话说：

mutual cooperation is a Nash equilibrium when n = 0 and mutual defection is a Nash equilibrium when n = 1.

$n$ 是环境状态，$n=0$ 代表 depleted，$n=1$ 代表 replete。payoff 矩阵 $A(n)$ 在这两个极值之间线性插值，合作和背叛的 Nash 均衡各自占据一端。

但关键不在于"环境决定策略"。关键在于另一个方向：策略反过来也改变环境。

闭环

合作者改善环境——比如细菌分泌公共酶分解养分，植被固定水土。背叛者恶化环境——只消耗不生产。于是出现了一个闭环：

合作者多了 → 环境变好 → 背叛者占优 → 环境变差 → 合作者又占优 →

有限群体的波动——固定点与随机性的邂逅

Sun, 12 Mar 2023 00:00:00 +0000

雪堆博弈里出现了内部固定点 $x^*$，对应混合纳什均衡。

听起来很美好。

但这只是在 ODE 的世界里。真实世界里，群体是有限的。有限意味着随机。

当固定点遇上随机性，稳定分布和固定点到底是什么关系？

随机与确定的根本区别

先回顾三个对象的定义：

固定点（ODE）： $\frac{dx}{dt} = F(x)$，当 $F(x^*) = 0$ 时，$x^*$ 不再移动。

马尔可夫链稳定分布（stationary distribution）： $\pi P = \pi$，长期后系统有多大概率在各状态。

纳什均衡： 没人愿意单边改变策略。

在囚徒困境里，因为有吸收态 $x = 0$，三者重合。

但雪堆博弈的内部点 $x^*$ 不是吸收态。这就导致了根本性的差异。

离散状态 vs 连续近似

在复制子 ODE 里，$x$ 是连续变量，$0 \leq x \leq 1$。

但在真实随机群体里，状态是离散的：

$$k = 0, 1, 2, \ldots, N$$

其中 $k$ 是合作者数量，$x = k/N$。

每次更新只能 $k \to k \pm 1$，不能直接跳到 $x^*$。

假设 $N = 100$，$x^* = 0.4$。这意味着 40 个合作者。

即时筛选与历史筛选

Thu, 09 Mar 2023 00:00:00 +0000

考虑一个简单的 Agent-Based Model（ABM）。在一个网格上，一群 agents 各自带着一个 action（策略）随机移动，每一步找一个邻居配对，玩一把博弈，获得一个 payoff（收益），然后更新自己的 action。更新规则很简单——看看邻居的得分，谁的得分高，下一步就变成谁的策略。

关键变量只有一个：比较什么得分？

模型一：比较这一步的得分 $P_1$。谁这一轮赚得多，我就学谁。

模型二：比较历史所有博弈的累计得分 $P_2$。谁到目前为止总共赚得多，我就学谁。

微观设定上，只是"看当前"和"看历史"的区别。但数学推导告诉我们，这两个模型对应着两种截然不同的动态系统——模型一是一阶常微分方程（Replicator Dynamics），收益差决定演化的"速度"；模型二是二阶积分微分方程（Inertial Dynamics），收益差决定演化的"加速度"。速度与加速度，一阶与二阶，无记忆与有惯性。数学上的区别是清楚的。

但我想做另一件事：把这两个模型翻译成生物学的语言。

翻译的第一步

这个 ABM 本身就是自然选择的模拟，翻译几乎是直译：

Action = 表现型（phenotype）
每一步 = 一代
模仿更好的策略 = 更好的基因在代际之间被传播

那么 $P_1$ 和 $P_2$ 呢？它们都像是 fitness（适应度）。模型一依据当前 fitness 筛选，模型二依据累计 fitness 筛选。直觉上，模型一的自然选择反应快，模型二因为有"惯性"，反应慢，自然选择被减弱了。

这个推理大方向是对的。但有三处需要修正。

$P_1$ 和 $P_2$ 都是 fitness，但不是同一种

$P_1$ 更像 instantaneous fitness 或 current realized fitness——这一代在当前环境下的适应度表现。$P_2$ 更像 cumulative fitness 或 lifetime reproductive success——一个个体到目前为止的总表现。

区别不只是"看一步"和"看多步"。$P_2$ 作为简单累加，会混入"活得更久、比较次数更多"这些因素。一个个体 $P_2$ 高，可能不是因为它的策略真的好，只是因为它参与博弈的次数多。也就是说，$P_2$ 比较的不纯粹是生物学意义上的适应度，还混入了"累计时间长度"。

如果想要更干净的生物学解释，常见做法是把 $P_2$ 改成 average payoff per interaction，或者按年龄、交互次数做归一化。这样比较的就是"平均每次博弈的表现"，而非"总表现"。

雪堆博弈的第三条路

Sat, 25 Feb 2023 00:00:00 +0000

囚徒困境是绝望的。

背叛是严格占优策略。所有动力学、所有演化、所有重复博弈的尽头，都是纯背叛。教科书这么写，实验室这么验证，我们看着，心里大概也是这么想的。

但雪堆博弈 Snowdrift Game 不一样。

这里没有绝路。

铲雪，还是不铲？

两辆车被雪堵住了。

这是经典故事。我第一次读到的时候，正在台北等一场永远不会来的雪。窗外只有雨，但脑子里全是那个场景：两个人，两把铲子，两个选择。

铲（合作 C）
不铲（偷懒 D）

规则很简单：只要有一个人铲，路就能通。铲雪的人付出成本。不铲的人——搭便车 free rider。

最舒服的局面：别人干活，我拿收益。

最坏的结局：两个人都等着，谁都走不了。

这和囚徒困境的绝望感不同。囚徒困境里，合作是傻子策略。这里不是。这里存在一种张力：合作和背叛都有各自的理由，取决于对方选了什么。

收益矩阵

设通路收益为 $b$，铲雪成本为 $c$，$b > c > 0$。

	对方 C	对方 D
我 C	$b - c/2$	$b - c$
我 D	$b$	$0$

简单解释：

双方合作——成本平摊，收益各得 $b - c/2$。

我背叛对方合作——我不干活，但享受通路，收益 $b$。对方独自承担成本，收益 $b - c$。

双方背叛——谁都不铲，困在原地，收益 $0$。

我合作对方背叛——我一个人干活，收益 $b - c$。通了，但代价全是我一个人扛。

不存在占优策略

这是关键。

看矩阵：

对方合作时，我选 C 得 $b-c/2$，选 D 得 $b$。$b > b - c/2$，背叛更香。

固定点、稳定分布、纳什均衡——一个困惑的消解

Fri, 10 Feb 2023 00:00:00 +0000

复制子动力学里的固定点、马尔可夫链的稳定分布、博弈论里的纳什均衡。

这三个东西，我第一次看到的时候，是当同义词处理的。

后来发现，不是。

曾经的误解

Fixed Point、Stationary Distribution、Nash Equilibrium。

三个术语，三个领域，三种直觉。听起来像是同一个数学对象的三个侧面。

囚徒困境里，它们确实是同一个东西。

但这不代表它们在任何情况下都等价。我花了点时间才把这个混淆搞清楚。

三个数学对象的定义

固定点（Fixed Point）

复制子动力学是一个常微分方程：

$$\frac{dx}{dt} = F(x)$$

固定点的定义很简单：

$$F(x^*) = 0$$

如果系统刚好到达 $x^*$，它就不再移动。

“速度为零"的点。确定性的。

马尔可夫链稳定分布（Stationary Distribution）

随机过程里，系统永远在随机跳动。静止？不存在的。

于是换了个问题：长期后系统有多大概率出现在各状态？

这就是稳定分布。记作：

$$\pi P = \pi$$

这里 $P$ 是转移矩阵，$\pi$ 是概率分布。

含义是：经过一步随机演化后，概率分布保持不变。

本质上是特征值 $\lambda = 1$ 对应的特征向量。

纳什均衡（Nash Equilibrium）

这是策略概念。

没有人愿意单独改变策略。

它甚至不一定涉及时间。

用矩阵方程求稳定分布

以最简单的两状态马尔可夫链为例。

设群体只有两种状态：

状态 0：全体背叛
状态 1：全体合作

状态向量：

$$p_t = \begin{pmatrix} P(\text{时刻 } t \text{ 在状态 0}) \\ P(\text{时刻 } t \text{ 在状态 1}) \end{pmatrix}$$

转移矩阵：

演化的速度与加速度

Sat, 04 Feb 2023 00:00:00 +0000

我不懂演化博弈的数学，Replicator Dynamics 对我来说只是个名词。但我会计算机模拟，Agent-Based Model（ABM）是我的语言。

假如在一个 $n \times n$ 的网格上，按网格数量乘以 population density 生成一群 agents，每一步 agents 带着一个 action 在网格上移动，在 Von Neumann 邻域找另一个 agent 配对，玩一把经典博弈，然后更新 action，进入下一步。所有 agents 更新 action 的方式都一样。以上定义了模型的基本要素。

现在考虑一个关键变量：agents 更新 action 的依据是什么？

一、和邻居比较这一步的得分 $P_1$，下一步变成得分 $P_1$ 高的 action。

二、和邻居比较历史所有博弈的得分 $P_2$，下一步变成得分 $P_2$ 高的 action。

微观设定上，只是"看当前"和"看历史"的区别。但当我试图用数学去描述这两个模型时，发现它们对应着两种完全不同的物理动态：一阶系统与二阶系统，速度与加速度。

下面一步步完成推导。

从代码到方程：平均场近似

在计算机模拟中，有一个 $n \times n$ 的网格，Agent 在上面走动并寻找邻居。数学家做了一个"偷懒"但极其有效的假设——平均场近似（Mean-Field Approximation）：假设网格无限大，且所有人像气体分子一样充分混合，随机相遇。

这意味着什么？假设当前全图有 $x$ 比例的人使用策略 $A$，有 $1-x$ 比例的人使用策略 $B$。在一个极小的时间步 $\Delta t$ 内，随机抓取一个 Agent，他是策略 $B$ 的概率是 $1-x$；他恰好撞见一个策略 $A$ 邻居的概率就是 $x$。所以，"$B$ 遇到 $A$“这个事件发生的联合概率就是 $x(1-x)$。

囚徒困境的终点

Sun, 15 Jan 2023 00:00:00 +0000

我想搞清楚一件事——

(D, D) 为什么既是均衡，又是终点？

不是道德判断。是数学事实。复制子动力学 Replicator Dynamics 把这套逻辑说得非常清楚。

收益矩阵

两个人，两种策略：合作（记作 C）和背叛（记作 D）。

	对方 C	对方 D
我 C	3	0
我 D	5	1

含义很简单：

双合作：各得 3
我背叛、对方合作：我得 5（对方得 0）
双背叛：各得 1
我合作、对方背叛：我得 0

关键观察在这里。无论对方选什么，背叛的收益都不低于合作：

对方 C 时，背叛 5 > 合作 3
对方 D 时，背叛 1 > 合作 0

D 是占优策略 dominant strategy。理性人一定选 D。

所以 (D, D) 是唯一纳什均衡。

静态博弈已经告诉我们答案，不需要动力学。

但——这个均衡是怎么"达到"的？如果一开始有人合作，系统会怎样演化？

这才是复制子动力学要回答的。

群体视角

不是两个人了。假设一个很大的群体，一部分人用 C，一部分人用 D。

记时刻 $t$ 时，合作者比例为 $x(t)$，背叛者就是 $1 - x(t)$。

从酵母细胞说起

Tue, 15 Nov 2022 00:00:00 +0000

读到一篇有意思的论文。Greig 和 Travisano 在 Biology Letters 上发了篇文章，研究酵母的"作弊"行为。

酵母会分泌 invertase 到细胞外消化蔗糖，消化的糖大家都可以用——这就有意思了。一个细胞可以选择"作弊"：偷用邻居分泌的酶，自己却不分泌。研究者把有功能 SUC2 基因的酵母叫"合作者"，把删除了 SUC2 基因的叫"作弊者"，然后把它们放在一起竞争。

结果很反直觉：

在稀疏的群体里（低社交密度），作弊者的 fitness 只有 0.87——比合作者差
在密集的群体里（高社交密度），作弊者的 fitness 高达 1.19——比合作者强

为什么？社交密度越高，合作者越容易遇到其他合作者。大家一起分泌酶，公共池塘变大，每个人的收益都高。但这时候作弊者混进来，单方面享受公共成果还不付成本，收益爆炸。

当密度极高时，作弊者几乎总能找到合作目标，偷到的比自己分泌的还多。合作者反而被拖累。

这完美符合我的直觉。但我想自己做一遍——不是验证论文结论，而是想亲手"看见"这个过程，把方程写进格子，看数字跑起来。

模型设定

$n \times n$ 的网格，population density 控制每格放置 agent 的概率。Agent 有两种策略：C（合作，分泌酶）和 D（作弊，不分泌）。

两两相遇时玩标准囚徒困境，payoff 矩阵：

$$ \begin{pmatrix} R=3 & S=0 \\ T=5 & P=1 \end{pmatrix} $$

R 是合作-合作的奖励，T 是背叛的诱惑，S 是被背叛者的收益，P 是双双背叛的惩罚。按经典设定：$T > R > P > S$，且 $2R > T + S$（互惠合作优于反复背叛）。

每一步：

Agent 在 Von Neumann 邻域（上下左右四格）找邻居
两人玩一把博弈
比较这一步的得分 $\pi$
以正比于收益差的概率模仿邻居策略

只看当期得分。不记历史，不做规划。