囚徒困境的终点

Jan 15, 2023

我想搞清楚一件事——

(D, D) 为什么既是均衡,又是终点?

不是道德判断。是数学事实。复制子动力学 Replicator Dynamics 把这套逻辑说得非常清楚。

收益矩阵

两个人,两种策略:合作(记作 C)和背叛(记作 D)。

对方 C 对方 D
我 C 3 0
我 D 5 1

含义很简单:

关键观察在这里。无论对方选什么,背叛的收益都不低于合作:

D 是占优策略 dominant strategy。理性人一定选 D。

所以 (D, D) 是唯一纳什均衡。

静态博弈已经告诉我们答案,不需要动力学。

但——这个均衡是怎么"达到"的?如果一开始有人合作,系统会怎样演化?

这才是复制子动力学要回答的。

群体视角

不是两个人了。假设一个很大的群体,一部分人用 C,一部分人用 D。

记时刻 $t$ 时,合作者比例为 $x(t)$,背叛者就是 $1 - x(t)$。

核心思想:

收益高的策略会"繁殖"得更快

这里"繁殖"不是生物繁殖。是策略在群体中的扩散——收益高的人活得更久、生更多后代,或者被更多人模仿。

(听起来很冷酷。但这是数学,不是伦理学。)

期望收益

群体里随机相遇:

合作者的期望收益:

$$\pi_C = 3 \cdot x + 0 \cdot (1 - x) = 3x$$

背叛者的期望收益:

$$\pi_D = 5 \cdot x + 1 \cdot (1 - x) = 5x + 1 - x = 4x + 1$$

整个群体的平均收益:

$$\bar{\pi} = x \cdot \pi_C + (1 - x) \cdot \pi_D = x(3x) + (1 - x)(4x + 1)$$

先不急着展开。后面会用到这个形式。

复制子方程

经典复制子方程:

$$\frac{dx}{dt} = x(\pi_C - \bar{\pi})$$

含义:如果合作收益高于平均,合作者比例增加。反之减少。

把 $\bar{\pi}$ 代入,整理:

$$\frac{dx}{dt} = x(1-x)(\pi_C - \pi_D)$$

这就是两策略情况下的化简形式。

代入收益差:

$$\pi_C - \pi_D = 3x - (4x + 1) = -x - 1$$

得到囚徒困境的复制子方程:

$$\frac{dx}{dt} = -x(1-x)(x + 1)$$

简洁吧。

固定点

固定点:$\frac{dx}{dt} = 0$。只有这样,$x$ 才不会继续变化。

解方程 $x(1-x)(-x-1) = 0$:

$x = 0$:全体背叛。

$x = 1$:全体合作。

$-x-1 = 0$:解得 $x = -1$。但 $x$ 是人口比例,必须在 $[0, 1]$ 区间内。这个解不符合实际意义。

真正可行的固定点只有两个:$x = 0$ 和 $x = 1$。

稳定性

现在判断哪个稳定。

对 $f(x) = x(1-x)(-x-1)$ 求导,令三个因子为 $u = x$,$v = 1-x$,$w = -x-1$:

$$u' = 1, \quad v' = -1, \quad w' = -1$$

三元乘积求导:

$$f'(x) = u'vw + uv'w + uvw'$$

代入:

$$f'(x) = (1)(1-x)(-x-1) + (x)(-1)(-x-1) + (x)(1-x)(-1)$$

逐项计算:

合并:

$$f'(x) = (x^2 - 1) + (x^2 + x) + (-x + x^2) = 3x^2 - 1$$

代入固定点:

$x = 0$ 处:

$$f'(0) = 3(0)^2 - 1 = -1 < 0$$

导数为负。这个固定点是稳定的。

$x = 1$ 处:

$$f'(1) = 3(1)^2 - 1 = 2 > 0$$

导数为正。这个固定点是不稳定的。

(为什么导数符号能判断稳定性?$f'(x^*) < 0$ 意味着当 $x$ 略微偏离 $x^*$ 时,$f(x)$ 会把 $x$ 推回 $x^*$。)

物理图像

更直观的方法:直接看 $-x-1$ 的符号。

因为 $x \in [0, 1]$,$-x-1 < 0$ 对所有 $x$ 都成立。

只要 $0 < x < 1$,就有 $x > 0$ 且 $1 - x > 0$,整个表达式 $< 0$。

只要不是所有人都背叛,合作比例就会持续下降。

系统会不断朝 $x = 0$ 移动。

所以 $x = 0$ 是稳定固定点,$x = 1$ 是不稳定固定点。

均衡与终点

回到最初的问题:为什么 (D, D) 既是均衡,又是终点?

从纳什均衡看:在 (D, D) 状态下,任何人单方面改成合作,收益从 1 降到 0。没人愿意偏离。

从复制子动力学看:$x = 0$ 是稳定固定点。一旦到达这里,演化停止。

从直觉上看:背叛是严格占优策略。没有机制能维持合作——任何合作的"漏洞"都会被背叛利用。

为什么全合作不是均衡?

$x = 1$ 是固定点($\frac{dx}{dt} = 0$),但不是纳什均衡。

当所有人都合作时,动力学"瞬时静止"——没人会自发改变,因为偏离后的瞬时收益确实可能更高(只要对方还没反应过来)。

但这只是"瞬时"。一旦有人尝试背叛:

全合作不是均衡。它只是 ODE 在边界上的一个数学解。

三层关系

复制子动力学研究"策略比例如何随时间演化"。

纳什均衡研究"有没有人愿意单方面改变策略"。

固定点是动态过程停止变化的位置。

在很多经典博弈里,稳定固定点会对应纳什均衡。但并非所有固定点都一定是纳什均衡——区分这一点很重要。

囚徒困境恰好是个简单例子,让三者重合。

在更复杂的博弈里,它们会分道扬镳。

(下一篇文章的主题了。)