囚徒困境的终点 | TouchingFish.top

我想搞清楚一件事——

(D, D) 为什么既是均衡，又是终点？

不是道德判断。是数学事实。复制子动力学 Replicator Dynamics 把这套逻辑说得非常清楚。

收益矩阵

两个人，两种策略：合作（记作 C）和背叛（记作 D）。

	对方 C	对方 D
我 C	3	0
我 D	5	1

含义很简单：

双合作：各得 3
我背叛、对方合作：我得 5（对方得 0）
双背叛：各得 1
我合作、对方背叛：我得 0

关键观察在这里。无论对方选什么，背叛的收益都不低于合作：

对方 C 时，背叛 5 > 合作 3
对方 D 时，背叛 1 > 合作 0

D 是占优策略 dominant strategy。理性人一定选 D。

所以 (D, D) 是唯一纳什均衡。

静态博弈已经告诉我们答案，不需要动力学。

但——这个均衡是怎么"达到"的？如果一开始有人合作，系统会怎样演化？

这才是复制子动力学要回答的。

群体视角

不是两个人了。假设一个很大的群体，一部分人用 C，一部分人用 D。

记时刻 $t$ 时，合作者比例为 $x(t)$，背叛者就是 $1 - x(t)$。

核心思想：

收益高的策略会"繁殖"得更快

这里"繁殖"不是生物繁殖。是策略在群体中的扩散——收益高的人活得更久、生更多后代，或者被更多人模仿。

（听起来很冷酷。但这是数学，不是伦理学。）

期望收益

群体里随机相遇：

概率 $x$ 遇到合作者
概率 $1 - x$ 遇到背叛者

合作者的期望收益：

$$\pi_C = 3 \cdot x + 0 \cdot (1 - x) = 3x$$

背叛者的期望收益：

$$\pi_D = 5 \cdot x + 1 \cdot (1 - x) = 5x + 1 - x = 4x + 1$$

整个群体的平均收益：

$$\bar{\pi} = x \cdot \pi_C + (1 - x) \cdot \pi_D = x(3x) + (1 - x)(4x + 1)$$

先不急着展开。后面会用到这个形式。

复制子方程

经典复制子方程：

$$\frac{dx}{dt} = x(\pi_C - \bar{\pi})$$

含义：如果合作收益高于平均，合作者比例增加。反之减少。

把 $\bar{\pi}$ 代入，整理：

$$\frac{dx}{dt} = x(1-x)(\pi_C - \pi_D)$$

这就是两策略情况下的化简形式。

代入收益差：

$$\pi_C - \pi_D = 3x - (4x + 1) = -x - 1$$

得到囚徒困境的复制子方程：

$$\frac{dx}{dt} = -x(1-x)(x + 1)$$

简洁吧。

固定点

固定点：$\frac{dx}{dt} = 0$。只有这样，$x$ 才不会继续变化。

解方程 $x(1-x)(-x-1) = 0$：

$x = 0$：全体背叛。

$x = 1$：全体合作。

$-x-1 = 0$：解得 $x = -1$。但 $x$ 是人口比例，必须在 $[0, 1]$ 区间内。这个解不符合实际意义。

真正可行的固定点只有两个：$x = 0$ 和 $x = 1$。

稳定性

现在判断哪个稳定。

对 $f(x) = x(1-x)(-x-1)$ 求导，令三个因子为 $u = x$，$v = 1-x$，$w = -x-1$：

$$u' = 1, \quad v' = -1, \quad w' = -1$$

三元乘积求导：

$$f'(x) = u'vw + uv'w + uvw'$$

代入：

$$f'(x) = (1)(1-x)(-x-1) + (x)(-1)(-x-1) + (x)(1-x)(-1)$$

逐项计算：

第一项：$(1-x)(-x-1) = -(1-x)(x+1) = x^2 - 1$
第二项：$x(-1)(-x-1) = x(x+1) = x^2 + x$
第三项：$(x)(1-x)(-1) = -x(1-x) = -x + x^2$

合并：

$$f'(x) = (x^2 - 1) + (x^2 + x) + (-x + x^2) = 3x^2 - 1$$

代入固定点：

$x = 0$ 处：

$$f'(0) = 3(0)^2 - 1 = -1 < 0$$

导数为负。这个固定点是稳定的。

$x = 1$ 处：

$$f'(1) = 3(1)^2 - 1 = 2 > 0$$

导数为正。这个固定点是不稳定的。

（为什么导数符号能判断稳定性？$f'(x^*) < 0$ 意味着当 $x$ 略微偏离 $x^*$ 时，$f(x)$ 会把 $x$ 推回 $x^*$。）

物理图像

更直观的方法：直接看 $-x-1$ 的符号。

因为 $x \in [0, 1]$，$-x-1 < 0$ 对所有 $x$ 都成立。

只要 $0 < x < 1$，就有 $x > 0$ 且 $1 - x > 0$，整个表达式 $< 0$。

只要不是所有人都背叛，合作比例就会持续下降。

系统会不断朝 $x = 0$ 移动。

所以 $x = 0$ 是稳定固定点，$x = 1$ 是不稳定固定点。

均衡与终点

回到最初的问题：为什么 (D, D) 既是均衡，又是终点？

从纳什均衡看：在 (D, D) 状态下，任何人单方面改成合作，收益从 1 降到 0。没人愿意偏离。

从复制子动力学看：$x = 0$ 是稳定固定点。一旦到达这里，演化停止。

从直觉上看：背叛是严格占优策略。没有机制能维持合作——任何合作的"漏洞"都会被背叛利用。

为什么全合作不是均衡？

$x = 1$ 是固定点（$\frac{dx}{dt} = 0$），但不是纳什均衡。

当所有人都合作时，动力学"瞬时静止"——没人会自发改变，因为偏离后的瞬时收益确实可能更高（只要对方还没反应过来）。

但这只是"瞬时"。一旦有人尝试背叛：

对方保持合作，背叛者收益从 3 升到 5
这个背叛者的后代会增多
背叛开始扩散

全合作不是均衡。它只是 ODE 在边界上的一个数学解。

三层关系

复制子动力学研究"策略比例如何随时间演化"。

纳什均衡研究"有没有人愿意单方面改变策略"。

固定点是动态过程停止变化的位置。

在很多经典博弈里，稳定固定点会对应纳什均衡。但并非所有固定点都一定是纳什均衡——区分这一点很重要。

囚徒困境恰好是个简单例子，让三者重合。

在更复杂的博弈里，它们会分道扬镳。

（下一篇文章的主题了。）