雪堆博弈的第三条路 | TouchingFish.top

囚徒困境是绝望的。

背叛是严格占优策略。所有动力学、所有演化、所有重复博弈的尽头，都是纯背叛。教科书这么写，实验室这么验证，我们看着，心里大概也是这么想的。

但雪堆博弈 Snowdrift Game 不一样。

这里没有绝路。

铲雪，还是不铲？

两辆车被雪堵住了。

这是经典故事。我第一次读到的时候，正在台北等一场永远不会来的雪。窗外只有雨，但脑子里全是那个场景：两个人，两把铲子，两个选择。

铲（合作 C）
不铲（偷懒 D）

规则很简单：只要有一个人铲，路就能通。铲雪的人付出成本。不铲的人——搭便车 free rider。

最舒服的局面：别人干活，我拿收益。

最坏的结局：两个人都等着，谁都走不了。

这和囚徒困境的绝望感不同。囚徒困境里，合作是傻子策略。这里不是。这里存在一种张力：合作和背叛都有各自的理由，取决于对方选了什么。

收益矩阵

设通路收益为 $b$，铲雪成本为 $c$，$b > c > 0$。

	对方 C	对方 D
我 C	$b - c/2$	$b - c$
我 D	$b$	$0$

简单解释：

双方合作——成本平摊，收益各得 $b - c/2$。

我背叛对方合作——我不干活，但享受通路，收益 $b$。对方独自承担成本，收益 $b - c$。

双方背叛——谁都不铲，困在原地，收益 $0$。

我合作对方背叛——我一个人干活，收益 $b - c$。通了，但代价全是我一个人扛。

不存在占优策略

这是关键。

看矩阵：

对方合作时，我选 C 得 $b-c/2$，选 D 得 $b$。$b > b - c/2$，背叛更香。

对方背叛时，我选 C 得 $b-c$，选 D 得 $0$。$b - c > 0$，合作更香。

策略取决于对方。不存在哪个策略在所有情况下都是最优的。

这和囚徒困境完全不同。囚徒困境里，背叛在任何情况下都是严格更好的选择。这里不是。这里是博弈，是真正的你来我往。

复制子动力学

设合作者比例为 $x$。

合作者收益：

$$\pi_C = x\left(b - \frac{c}{2}\right) + (1-x)(b - c)$$

展开：

$$\begin{align*} \pi_C &= x \cdot \left(b - \frac{c}{2}\right) + (1-x) \cdot (b - c) \\ &= xb - \frac{xc}{2} + (1-x)b - (1-x)c \\ &= xb - \frac{xc}{2} + b - xb - c + xc \end{align*}$$

合并同类项，$xb - xb = 0$，$-\frac{xc}{2} + xc = \frac{xc}{2}$：

$$\pi_C = b - c + \frac{c}{2}x$$

背叛者收益：

$$\pi_D = x \cdot b + (1-x) \cdot 0 = bx$$

复制子方程：

$$\frac{dx}{dt} = x(1-x)(\pi_C - \pi_D)$$

代入，整理括号内：

$$\begin{align*} \frac{dx}{dt} &= x(1-x) \left[ \left(b - c + \frac{c}{2}x\right) - bx \right] \\ &= x(1-x) \left( b - c - x\left(b - \frac{c}{2}\right) \right) \end{align*}$$

固定点

固定点，固定点 internal equilibrium。总算说到这个词了。

令 $\frac{dx}{dt} = 0$：

$$x(1-x) = 0 \quad \text{或} \quad b - c - x\left(b - \frac{c}{2}\right) = 0$$

第一组：$x(1-x) = 0$

$x = 0$（全背叛）或 $x = 1$（全合作）。边界点。

第二组：

$$b - c - x\left(b - \frac{c}{2}\right) = 0$$$$x\left(b - \frac{c}{2}\right) = b - c$$$$x^* = \frac{b - c}{b - c/2}$$

检查：$b > c > 0$，所以分子 $b - c > 0$，分母 $b - c/2 > b - c > 0$，得到：

$$0 < x^* < 1$$

内部固定点。

这件事有意思

囚徒困境里，动力学只指向边界点：要么全合作，要么全背叛。现实世界里，全合作几乎不存在，所以最后只剩全背叛。单向道。没有回头路。

雪堆博弈出现了 $0 < x^* < 1$。

什么意思？

意思是，长期来看，合作者和背叛者的比例会稳定在一个中间值。总会有人干活，总会有人搭便车，比例大概就在 $x^*$ 附近晃荡。

我有时候想，这多像现实世界。

公司里，总有人加班，有人准点走。开源社区里，总有人 commit，有人 issue。朋友圈里，总有人买单，有人说下次我请。

比例稳定。不是说大家商量好了，而是动力学本身就把系统推向那里。

稳定性

看动力学方向：

当 $x < x^*$ 时，$b - c - x(b - c/2) > 0$，$\frac{dx}{dt} > 0$，合作者比例上升。

当 $x > x^*$ 时，$b - c - x(b - c/2) < 0$，$\frac{dx}{dt} < 0$，合作者比例下降。

系统会自动回到 $x^*$。

负反馈。

这是一个稳定器——如果合作者太少，合作变得有利；如果合作者太多，搭便车变得有利。系统自己找平衡。

纳什均衡

在 $x^*$ 处，$\pi_C = \pi_D$。

因为：

$$\pi_C - \pi_D = b - c - x^*\left(b - \frac{c}{2}\right) = 0$$

收益相等。选择合作或背叛，结果一样。

没人有动力单独改变策略。

这就是混合纳什均衡：两种纯策略的收益相等，参与者随机选择，效果相同。

有意思的是，这个均衡是"混"出来的。不是谁设计的，不是道德感召的，是博弈动力学自然涌现的。

图景

囚徒困境：

$$0 \xleftarrow{} 1$$

单向流动，所有人都滑向 $x = 0$。

雪堆博弈：

$$0 \xleftarrow{} x^* \xrightarrow{} 1$$

两边的人，都被拉向内部点 $x^*$。

一个有趣的负反馈：

合作者太少 → 合作变有利（对方背叛时合作收益 $b-c > 0$）
合作者太多 → 背叛变有利（对方合作时背叛收益 $b > b-c/2$）

生态学里，这种机制有个名字——频率依赖选择 frequency-dependent selection。策略的收益取决于它在种群中的频率，而不是固定的环境参数。

这在自然界很常见。

对比

特征	囚徒困境	雪堆博弈
占优策略	有（背叛）	无
内部固定点	无	有
长期稳定	全背叛	混合比例
动力学方向	单向	双向
均衡类型	纯策略	混合策略

囚徒困境是单向的，几乎没有平衡机制。雪堆博弈有负反馈，自动维持平衡。

一个有意思的推论：如果现实世界里合作现象比囚徒困境预测的更多，也许是因为很多"合作困境"实际上是雪堆博弈，而不是囚徒困境。

当然，现实往往比两种模型都复杂。

下篇文章会讨论：当加入随机性后，这个"平衡"会变成什么样子？