当公地开始呼吸 | TouchingFish.top

公地悲剧是一个老故事了。

1968 年，Garrett Hardin 描述了这样一个场景：一片对所有人开放的草地，每个牧民都往上面多放一头牛。多放一头牛的收益全归自己，草地退化的代价由所有人分担。于是每个人都选择多放，草地最终被彻底毁掉。

博弈论的翻译很简单：背叛（defect）是 dominant strategy。不管别人怎么做，背叛的 payoff 都比合作高。Replicator dynamics 告诉你，背叛者最终会吞掉整个群体。

但这个模型有一个默认前提：草是死的东西。payoff 矩阵是固定的。

你踩一脚，它不会疼。把它吃光了，它不会改变下一次博弈的规则。

Weitz 等人在 2016 年 PNAS 上发表的这篇论文做了一件事：他们让草活过来了。

让草活过来

论文提出了一种叫做 “coevolutionary game theory” 的框架——博弈和环境的共同演化。核心改动只有一条：payoff 矩阵不再是固定的常数，而是环境的函数。环境好（replete），背叛占优。环境差（depleted），合作占优。

直觉上很好理解。资源充裕的时候，搭便车是最划算的——别人出力，你享受。资源枯竭的时候，谁都没法搭便车——不合作就一起死。用论文的话说：

mutual cooperation is a Nash equilibrium when n = 0 and mutual defection is a Nash equilibrium when n = 1.

$n$ 是环境状态，$n=0$ 代表 depleted，$n=1$ 代表 replete。payoff 矩阵 $A(n)$ 在这两个极值之间线性插值，合作和背叛的 Nash 均衡各自占据一端。

但关键不在于"环境决定策略"。关键在于另一个方向：策略反过来也改变环境。

闭环

合作者改善环境——比如细菌分泌公共酶分解养分，植被固定水土。背叛者恶化环境——只消耗不生产。于是出现了一个闭环：

合作者多了 → 环境变好 → 背叛者占优 → 环境变差 → 合作者又占优 →

系统开始呼吸。

一呼，一吸。一荣，一枯。

这是整篇论文最让我着迷的部分。数学模型预测的不是一个稳定的均衡点，而是一个永不停歇的振荡。合作者比例 $x$ 和环境状态 $n$ 在相空间中画出一个又一个闭合的周期轨道——更准确地说，是一个 heteroclinic cycle（异宿循环）。系统在四个边界点之间反复跳跃：

$$(x=1, n=1) \to (x=0, n=1) \to (x=0, n=0) \to (x=1, n=0) \to (x=1, n=1)$$

（合作，丰饶）→（背叛，丰饶）→（背叛，贫瘠）→（合作，贫瘠）→（合作，丰饶）。

Weitz 把这个现象叫做 “oscillating tragedy of the commons”——振荡的公地悲剧。为什么还是悲剧？因为系统永远无法停在最优状态。它注定在丰饶与贫瘠之间来回摆动，合作与背叛此消彼长，谁也稳不住。用 Hardin 的话讲，是 “the inevitableness of destiny”。

逃脱的条件

但论文也留下了一条出路。

振荡是否收敛到一个内部均衡点（interior fixed point），取决于 depleted state 下的 payoff 结构。Weitz 等人分析了 $n=0$ 时所有可能的 payoff 排序，总结了一张漂亮的相图（论文 Fig. 5，七个区域，七种命运）。

核心条件可以用一个不等式表达：

$$\frac{P_1 - S_1}{T_1 - R_1} > \frac{S_0 - P_0}{R_0 - T_0}$$

翻译成人话：当合作者在差环境中"帮别人一把"的收益足够大——也就是当别人都在背叛时，选择合作的 payoff 足够高——系统就能安稳地停在一个中间的环境状态。heteroclinic cycle 消失了，悲剧被避免了。

在低谷时愿意伸手的人越多，这个系统就越不容易反复崩溃。

这个结论，怎么说呢，有一种数学推导出来的道德劝诫的味道。（可能是我想多了。）

不只是公地

论文在讨论部分列举了大量 feedback-evolving game 的实例。微生物分泌 siderophore（铁载体）抢夺铁离子——分泌者是合作者，环境缺铁时合作占优，铁充足了搭便车者就来了。疫苗接种也是——疫情爆发时人人想打，接种率上去之后反而没人打了（Bauch & Earn, 2004）。水资源管理也是——丰水年没人想着节水，旱年来了再省已经晚了。

所有这些系统的共同特征：个体的理性行为改变了环境，而环境反过来重新定义了什么是"理性"。

传统的 iterated prisoner’s dilemma 靠的是"记忆"——你记得上次对方做了什么，下次就还回去。tit-for-tat。Weitz 的框架不需要任何个体记忆。环境本身就是记忆。草记得你踩过它。

Instead, a feedback-evolving game changes with time as a direct result of the accumulated actions of the populations.

个体的累计行动，构成了一个会"记住"的环境。

读到这一段的时候，我脑子里反复出现的是上一篇博文里的那两个模型。模型一是即时筛选——看这一步的 payoff。模型二是历史筛选——看历史累计的 payoff。我当时说，我们不知道自然选择到底是哪一种。

Weitz 的模型给了第三种可能：不是"看什么时间窗口"，而是"payoff 本身被谁定义"。

fitness 不仅取决于有多少人合作——这是传统 replicator dynamics 的全部内容。fitness 还取决于当前的环境状态，而环境状态本身就是合作者比例的历史积分。策略跳一步，舞台就晃一下。舞台晃了，下一步也跟着变。这不是简单的"即时 vs. 历史"的对立，而是策略和环境在跳一场永不停歇的双人舞。

统计力学的语言也许更准确：这是一个 non-equilibrium steady state。系统永远不在平衡态，永远在流。草在长，牛在吃，payoff 在变，策略在追。没有一个"正确的"策略能让你一劳永逸地解决问题。

草的道德

Hardin 的原话是：公地悲剧没有技术解决方案（technical solution），只能靠 “mutual coercion, mutually agreed upon”——相互强制，共同同意。

但如果环境本身会根据你的选择而改变，那么真正的问题就不是"如何强制执行合作"，而是"如何在波动中维持恢复力（resilience）"。你不需要永远合作——Weitz 的模型告诉你，永远合作也稳不住，因为背叛者总会在你最成功的时候趁虚而入。你需要的是：在低谷的时候多伸几只手，把系统往回拉一点。只要拉得够多，heteroclinic cycle 就会坍缩成一个 stable interior fixed point。

不是消灭背叛者。是让背叛者到来的时候，草还够长。

草是会呼吸的。

唯一能做的，就是不要踩断它的根。

参考文献

Weitz, A. (2016). An oscillating tragedy of the commons in replicator dynamics with game-environment feedback PNAS.