我想搞清楚一件事——
(D, D) 为什么既是均衡,又是终点?
不是道德判断。是数学事实。复制子动力学 Replicator Dynamics 把这套逻辑说得非常清楚。
收益矩阵
两个人,两种策略:合作(记作 C)和背叛(记作 D)。
| 对方 C | 对方 D | |
|---|---|---|
| 我 C | 3 | 0 |
| 我 D | 5 | 1 |
含义很简单:
- 双合作:各得 3
- 我背叛、对方合作:我得 5(对方得 0)
- 双背叛:各得 1
- 我合作、对方背叛:我得 0
关键观察在这里。无论对方选什么,背叛的收益都不低于合作:
- 对方 C 时,背叛 5 > 合作 3
- 对方 D 时,背叛 1 > 合作 0
D 是占优策略 dominant strategy。理性人一定选 D。
所以 (D, D) 是唯一纳什均衡。
静态博弈已经告诉我们答案,不需要动力学。
但——这个均衡是怎么"达到"的?如果一开始有人合作,系统会怎样演化?
这才是复制子动力学要回答的。
群体视角
不是两个人了。假设一个很大的群体,一部分人用 C,一部分人用 D。
记时刻 $t$ 时,合作者比例为 $x(t)$,背叛者就是 $1 - x(t)$。
核心思想:
收益高的策略会"繁殖"得更快
这里"繁殖"不是生物繁殖。是策略在群体中的扩散——收益高的人活得更久、生更多后代,或者被更多人模仿。
(听起来很冷酷。但这是数学,不是伦理学。)
期望收益
群体里随机相遇:
- 概率 $x$ 遇到合作者
- 概率 $1 - x$ 遇到背叛者
合作者的期望收益:
$$\pi_C = 3 \cdot x + 0 \cdot (1 - x) = 3x$$背叛者的期望收益:
$$\pi_D = 5 \cdot x + 1 \cdot (1 - x) = 5x + 1 - x = 4x + 1$$整个群体的平均收益:
$$\bar{\pi} = x \cdot \pi_C + (1 - x) \cdot \pi_D = x(3x) + (1 - x)(4x + 1)$$先不急着展开。后面会用到这个形式。
复制子方程
经典复制子方程:
$$\frac{dx}{dt} = x(\pi_C - \bar{\pi})$$含义:如果合作收益高于平均,合作者比例增加。反之减少。
把 $\bar{\pi}$ 代入,整理:
$$\frac{dx}{dt} = x(1-x)(\pi_C - \pi_D)$$这就是两策略情况下的化简形式。
代入收益差:
$$\pi_C - \pi_D = 3x - (4x + 1) = -x - 1$$得到囚徒困境的复制子方程:
$$\frac{dx}{dt} = -x(1-x)(x + 1)$$简洁吧。
固定点
固定点:$\frac{dx}{dt} = 0$。只有这样,$x$ 才不会继续变化。
解方程 $x(1-x)(-x-1) = 0$:
$x = 0$:全体背叛。
$x = 1$:全体合作。
$-x-1 = 0$:解得 $x = -1$。但 $x$ 是人口比例,必须在 $[0, 1]$ 区间内。这个解不符合实际意义。
真正可行的固定点只有两个:$x = 0$ 和 $x = 1$。
稳定性
现在判断哪个稳定。
对 $f(x) = x(1-x)(-x-1)$ 求导,令三个因子为 $u = x$,$v = 1-x$,$w = -x-1$:
$$u' = 1, \quad v' = -1, \quad w' = -1$$三元乘积求导:
$$f'(x) = u'vw + uv'w + uvw'$$代入:
$$f'(x) = (1)(1-x)(-x-1) + (x)(-1)(-x-1) + (x)(1-x)(-1)$$逐项计算:
- 第一项:$(1-x)(-x-1) = -(1-x)(x+1) = x^2 - 1$
- 第二项:$x(-1)(-x-1) = x(x+1) = x^2 + x$
- 第三项:$(x)(1-x)(-1) = -x(1-x) = -x + x^2$
合并:
$$f'(x) = (x^2 - 1) + (x^2 + x) + (-x + x^2) = 3x^2 - 1$$代入固定点:
$x = 0$ 处:
$$f'(0) = 3(0)^2 - 1 = -1 < 0$$导数为负。这个固定点是稳定的。
$x = 1$ 处:
$$f'(1) = 3(1)^2 - 1 = 2 > 0$$导数为正。这个固定点是不稳定的。
(为什么导数符号能判断稳定性?$f'(x^*) < 0$ 意味着当 $x$ 略微偏离 $x^*$ 时,$f(x)$ 会把 $x$ 推回 $x^*$。)
物理图像
更直观的方法:直接看 $-x-1$ 的符号。
因为 $x \in [0, 1]$,$-x-1 < 0$ 对所有 $x$ 都成立。
只要 $0 < x < 1$,就有 $x > 0$ 且 $1 - x > 0$,整个表达式 $< 0$。
只要不是所有人都背叛,合作比例就会持续下降。
系统会不断朝 $x = 0$ 移动。
所以 $x = 0$ 是稳定固定点,$x = 1$ 是不稳定固定点。
均衡与终点
回到最初的问题:为什么 (D, D) 既是均衡,又是终点?
从纳什均衡看:在 (D, D) 状态下,任何人单方面改成合作,收益从 1 降到 0。没人愿意偏离。
从复制子动力学看:$x = 0$ 是稳定固定点。一旦到达这里,演化停止。
从直觉上看:背叛是严格占优策略。没有机制能维持合作——任何合作的"漏洞"都会被背叛利用。
为什么全合作不是均衡?
$x = 1$ 是固定点($\frac{dx}{dt} = 0$),但不是纳什均衡。
当所有人都合作时,动力学"瞬时静止"——没人会自发改变,因为偏离后的瞬时收益确实可能更高(只要对方还没反应过来)。
但这只是"瞬时"。一旦有人尝试背叛:
- 对方保持合作,背叛者收益从 3 升到 5
- 这个背叛者的后代会增多
- 背叛开始扩散
全合作不是均衡。它只是 ODE 在边界上的一个数学解。
三层关系
复制子动力学研究"策略比例如何随时间演化"。
纳什均衡研究"有没有人愿意单方面改变策略"。
固定点是动态过程停止变化的位置。
在很多经典博弈里,稳定固定点会对应纳什均衡。但并非所有固定点都一定是纳什均衡——区分这一点很重要。
囚徒困境恰好是个简单例子,让三者重合。
在更复杂的博弈里,它们会分道扬镳。
(下一篇文章的主题了。)