囚徒困境是绝望的。
背叛是严格占优策略。所有动力学、所有演化、所有重复博弈的尽头,都是纯背叛。教科书这么写,实验室这么验证,我们看着,心里大概也是这么想的。
但雪堆博弈 Snowdrift Game 不一样。
这里没有绝路。
铲雪,还是不铲?
两辆车被雪堵住了。
这是经典故事。我第一次读到的时候,正在台北等一场永远不会来的雪。窗外只有雨,但脑子里全是那个场景:两个人,两把铲子,两个选择。
- 铲(合作 C)
- 不铲(偷懒 D)
规则很简单:只要有一个人铲,路就能通。铲雪的人付出成本。不铲的人——搭便车 free rider。
最舒服的局面:别人干活,我拿收益。
最坏的结局:两个人都等着,谁都走不了。
这和囚徒困境的绝望感不同。囚徒困境里,合作是傻子策略。这里不是。这里存在一种张力:合作和背叛都有各自的理由,取决于对方选了什么。
收益矩阵
设通路收益为 $b$,铲雪成本为 $c$,$b > c > 0$。
| 对方 C | 对方 D | |
|---|---|---|
| 我 C | $b - c/2$ | $b - c$ |
| 我 D | $b$ | $0$ |
简单解释:
双方合作——成本平摊,收益各得 $b - c/2$。
我背叛对方合作——我不干活,但享受通路,收益 $b$。对方独自承担成本,收益 $b - c$。
双方背叛——谁都不铲,困在原地,收益 $0$。
我合作对方背叛——我一个人干活,收益 $b - c$。通了,但代价全是我一个人扛。
不存在占优策略
这是关键。
看矩阵:
对方合作时,我选 C 得 $b-c/2$,选 D 得 $b$。$b > b - c/2$,背叛更香。
对方背叛时,我选 C 得 $b-c$,选 D 得 $0$。$b - c > 0$,合作更香。
策略取决于对方。不存在哪个策略在所有情况下都是最优的。
这和囚徒困境完全不同。囚徒困境里,背叛在任何情况下都是严格更好的选择。这里不是。这里是博弈,是真正的你来我往。
复制子动力学
设合作者比例为 $x$。
合作者收益:
$$\pi_C = x\left(b - \frac{c}{2}\right) + (1-x)(b - c)$$展开:
$$\begin{align*} \pi_C &= x \cdot \left(b - \frac{c}{2}\right) + (1-x) \cdot (b - c) \\ &= xb - \frac{xc}{2} + (1-x)b - (1-x)c \\ &= xb - \frac{xc}{2} + b - xb - c + xc \end{align*}$$合并同类项,$xb - xb = 0$,$-\frac{xc}{2} + xc = \frac{xc}{2}$:
$$\pi_C = b - c + \frac{c}{2}x$$背叛者收益:
$$\pi_D = x \cdot b + (1-x) \cdot 0 = bx$$复制子方程:
$$\frac{dx}{dt} = x(1-x)(\pi_C - \pi_D)$$代入,整理括号内:
$$\begin{align*} \frac{dx}{dt} &= x(1-x) \left[ \left(b - c + \frac{c}{2}x\right) - bx \right] \\ &= x(1-x) \left( b - c - x\left(b - \frac{c}{2}\right) \right) \end{align*}$$固定点
固定点,固定点 internal equilibrium。总算说到这个词了。
令 $\frac{dx}{dt} = 0$:
$$x(1-x) = 0 \quad \text{或} \quad b - c - x\left(b - \frac{c}{2}\right) = 0$$第一组:$x(1-x) = 0$
$x = 0$(全背叛)或 $x = 1$(全合作)。边界点。
第二组:
$$b - c - x\left(b - \frac{c}{2}\right) = 0$$$$x\left(b - \frac{c}{2}\right) = b - c$$$$x^* = \frac{b - c}{b - c/2}$$检查:$b > c > 0$,所以分子 $b - c > 0$,分母 $b - c/2 > b - c > 0$,得到:
$$0 < x^* < 1$$内部固定点。
这件事有意思
囚徒困境里,动力学只指向边界点:要么全合作,要么全背叛。现实世界里,全合作几乎不存在,所以最后只剩全背叛。单向道。没有回头路。
雪堆博弈出现了 $0 < x^* < 1$。
什么意思?
意思是,长期来看,合作者和背叛者的比例会稳定在一个中间值。总会有人干活,总会有人搭便车,比例大概就在 $x^*$ 附近晃荡。
我有时候想,这多像现实世界。
公司里,总有人加班,有人准点走。开源社区里,总有人 commit,有人 issue。朋友圈里,总有人买单,有人说下次我请。
比例稳定。不是说大家商量好了,而是动力学本身就把系统推向那里。
稳定性
看动力学方向:
当 $x < x^*$ 时,$b - c - x(b - c/2) > 0$,$\frac{dx}{dt} > 0$,合作者比例上升。
当 $x > x^*$ 时,$b - c - x(b - c/2) < 0$,$\frac{dx}{dt} < 0$,合作者比例下降。
系统会自动回到 $x^*$。
负反馈。
这是一个稳定器——如果合作者太少,合作变得有利;如果合作者太多,搭便车变得有利。系统自己找平衡。
纳什均衡
在 $x^*$ 处,$\pi_C = \pi_D$。
因为:
$$\pi_C - \pi_D = b - c - x^*\left(b - \frac{c}{2}\right) = 0$$收益相等。选择合作或背叛,结果一样。
没人有动力单独改变策略。
这就是混合纳什均衡:两种纯策略的收益相等,参与者随机选择,效果相同。
有意思的是,这个均衡是"混"出来的。不是谁设计的,不是道德感召的,是博弈动力学自然涌现的。
图景
囚徒困境:
$$0 \xleftarrow{} 1$$单向流动,所有人都滑向 $x = 0$。
雪堆博弈:
$$0 \xleftarrow{} x^* \xrightarrow{} 1$$两边的人,都被拉向内部点 $x^*$。
一个有趣的负反馈:
- 合作者太少 → 合作变有利(对方背叛时合作收益 $b-c > 0$)
- 合作者太多 → 背叛变有利(对方合作时背叛收益 $b > b-c/2$)
生态学里,这种机制有个名字——频率依赖选择 frequency-dependent selection。策略的收益取决于它在种群中的频率,而不是固定的环境参数。
这在自然界很常见。
对比
| 特征 | 囚徒困境 | 雪堆博弈 |
|---|---|---|
| 占优策略 | 有(背叛) | 无 |
| 内部固定点 | 无 | 有 |
| 长期稳定 | 全背叛 | 混合比例 |
| 动力学方向 | 单向 | 双向 |
| 均衡类型 | 纯策略 | 混合策略 |
囚徒困境是单向的,几乎没有平衡机制。雪堆博弈有负反馈,自动维持平衡。
一个有意思的推论:如果现实世界里合作现象比囚徒困境预测的更多,也许是因为很多"合作困境"实际上是雪堆博弈,而不是囚徒困境。
当然,现实往往比两种模型都复杂。
下篇文章会讨论:当加入随机性后,这个"平衡"会变成什么样子?