雪堆博弈的第三条路

Feb 25, 2023

囚徒困境是绝望的。

背叛是严格占优策略。所有动力学、所有演化、所有重复博弈的尽头,都是纯背叛。教科书这么写,实验室这么验证,我们看着,心里大概也是这么想的。

但雪堆博弈 Snowdrift Game 不一样。

这里没有绝路。

铲雪,还是不铲?

两辆车被雪堵住了。

这是经典故事。我第一次读到的时候,正在台北等一场永远不会来的雪。窗外只有雨,但脑子里全是那个场景:两个人,两把铲子,两个选择。

规则很简单:只要有一个人铲,路就能通。铲雪的人付出成本。不铲的人——搭便车 free rider。

最舒服的局面:别人干活,我拿收益。

最坏的结局:两个人都等着,谁都走不了。

这和囚徒困境的绝望感不同。囚徒困境里,合作是傻子策略。这里不是。这里存在一种张力:合作和背叛都有各自的理由,取决于对方选了什么。

收益矩阵

设通路收益为 $b$,铲雪成本为 $c$,$b > c > 0$。

对方 C 对方 D
我 C $b - c/2$ $b - c$
我 D $b$ $0$

简单解释:

双方合作——成本平摊,收益各得 $b - c/2$。

我背叛对方合作——我不干活,但享受通路,收益 $b$。对方独自承担成本,收益 $b - c$。

双方背叛——谁都不铲,困在原地,收益 $0$。

我合作对方背叛——我一个人干活,收益 $b - c$。通了,但代价全是我一个人扛。

不存在占优策略

这是关键。

看矩阵:

对方合作时,我选 C 得 $b-c/2$,选 D 得 $b$。$b > b - c/2$,背叛更香。

对方背叛时,我选 C 得 $b-c$,选 D 得 $0$。$b - c > 0$,合作更香。

策略取决于对方。不存在哪个策略在所有情况下都是最优的。

这和囚徒困境完全不同。囚徒困境里,背叛在任何情况下都是严格更好的选择。这里不是。这里是博弈,是真正的你来我往。

复制子动力学

设合作者比例为 $x$。

合作者收益:

$$\pi_C = x\left(b - \frac{c}{2}\right) + (1-x)(b - c)$$

展开:

$$\begin{align*} \pi_C &= x \cdot \left(b - \frac{c}{2}\right) + (1-x) \cdot (b - c) \\ &= xb - \frac{xc}{2} + (1-x)b - (1-x)c \\ &= xb - \frac{xc}{2} + b - xb - c + xc \end{align*}$$

合并同类项,$xb - xb = 0$,$-\frac{xc}{2} + xc = \frac{xc}{2}$:

$$\pi_C = b - c + \frac{c}{2}x$$

背叛者收益:

$$\pi_D = x \cdot b + (1-x) \cdot 0 = bx$$

复制子方程:

$$\frac{dx}{dt} = x(1-x)(\pi_C - \pi_D)$$

代入,整理括号内:

$$\begin{align*} \frac{dx}{dt} &= x(1-x) \left[ \left(b - c + \frac{c}{2}x\right) - bx \right] \\ &= x(1-x) \left( b - c - x\left(b - \frac{c}{2}\right) \right) \end{align*}$$

固定点

固定点,固定点 internal equilibrium。总算说到这个词了。

令 $\frac{dx}{dt} = 0$:

$$x(1-x) = 0 \quad \text{或} \quad b - c - x\left(b - \frac{c}{2}\right) = 0$$

第一组:$x(1-x) = 0$

$x = 0$(全背叛)或 $x = 1$(全合作)。边界点。

第二组:

$$b - c - x\left(b - \frac{c}{2}\right) = 0$$$$x\left(b - \frac{c}{2}\right) = b - c$$$$x^* = \frac{b - c}{b - c/2}$$

检查:$b > c > 0$,所以分子 $b - c > 0$,分母 $b - c/2 > b - c > 0$,得到:

$$0 < x^* < 1$$

内部固定点。

这件事有意思

囚徒困境里,动力学只指向边界点:要么全合作,要么全背叛。现实世界里,全合作几乎不存在,所以最后只剩全背叛。单向道。没有回头路。

雪堆博弈出现了 $0 < x^* < 1$。

什么意思?

意思是,长期来看,合作者和背叛者的比例会稳定在一个中间值。总会有人干活,总会有人搭便车,比例大概就在 $x^*$ 附近晃荡。

我有时候想,这多像现实世界。

公司里,总有人加班,有人准点走。开源社区里,总有人 commit,有人 issue。朋友圈里,总有人买单,有人说下次我请。

比例稳定。不是说大家商量好了,而是动力学本身就把系统推向那里。

稳定性

看动力学方向:

当 $x < x^*$ 时,$b - c - x(b - c/2) > 0$,$\frac{dx}{dt} > 0$,合作者比例上升。

当 $x > x^*$ 时,$b - c - x(b - c/2) < 0$,$\frac{dx}{dt} < 0$,合作者比例下降。

系统会自动回到 $x^*$。

负反馈。

这是一个稳定器——如果合作者太少,合作变得有利;如果合作者太多,搭便车变得有利。系统自己找平衡。

纳什均衡

在 $x^*$ 处,$\pi_C = \pi_D$。

因为:

$$\pi_C - \pi_D = b - c - x^*\left(b - \frac{c}{2}\right) = 0$$

收益相等。选择合作或背叛,结果一样。

没人有动力单独改变策略。

这就是混合纳什均衡:两种纯策略的收益相等,参与者随机选择,效果相同。

有意思的是,这个均衡是"混"出来的。不是谁设计的,不是道德感召的,是博弈动力学自然涌现的。

图景

囚徒困境:

$$0 \xleftarrow{} 1$$

单向流动,所有人都滑向 $x = 0$。

雪堆博弈:

$$0 \xleftarrow{} x^* \xrightarrow{} 1$$

两边的人,都被拉向内部点 $x^*$。

一个有趣的负反馈:

生态学里,这种机制有个名字——频率依赖选择 frequency-dependent selection。策略的收益取决于它在种群中的频率,而不是固定的环境参数。

这在自然界很常见。

对比

特征 囚徒困境 雪堆博弈
占优策略 有(背叛)
内部固定点
长期稳定 全背叛 混合比例
动力学方向 单向 双向
均衡类型 纯策略 混合策略

囚徒困境是单向的,几乎没有平衡机制。雪堆博弈有负反馈,自动维持平衡。

一个有意思的推论:如果现实世界里合作现象比囚徒困境预测的更多,也许是因为很多"合作困境"实际上是雪堆博弈,而不是囚徒困境。

当然,现实往往比两种模型都复杂。


下篇文章会讨论:当加入随机性后,这个"平衡"会变成什么样子?