公地悲剧是一个老故事了。
1968 年,Garrett Hardin 描述了这样一个场景:一片对所有人开放的草地,每个牧民都往上面多放一头牛。多放一头牛的收益全归自己,草地退化的代价由所有人分担。于是每个人都选择多放,草地最终被彻底毁掉。
博弈论的翻译很简单:背叛(defect)是 dominant strategy。不管别人怎么做,背叛的 payoff 都比合作高。Replicator dynamics 告诉你,背叛者最终会吞掉整个群体。
但这个模型有一个默认前提:草是死的东西。payoff 矩阵是固定的。
你踩一脚,它不会疼。把它吃光了,它不会改变下一次博弈的规则。
Weitz 等人在 2016 年 PNAS 上发表的这篇论文做了一件事:他们让草活过来了。
让草活过来
论文提出了一种叫做 “coevolutionary game theory” 的框架——博弈和环境的共同演化。核心改动只有一条:payoff 矩阵不再是固定的常数,而是环境的函数。环境好(replete),背叛占优。环境差(depleted),合作占优。
直觉上很好理解。资源充裕的时候,搭便车是最划算的——别人出力,你享受。资源枯竭的时候,谁都没法搭便车——不合作就一起死。用论文的话说:
mutual cooperation is a Nash equilibrium when n = 0 and mutual defection is a Nash equilibrium when n = 1.
$n$ 是环境状态,$n=0$ 代表 depleted,$n=1$ 代表 replete。payoff 矩阵 $A(n)$ 在这两个极值之间线性插值,合作和背叛的 Nash 均衡各自占据一端。
但关键不在于"环境决定策略"。关键在于另一个方向:策略反过来也改变环境。
闭环
合作者改善环境——比如细菌分泌公共酶分解养分,植被固定水土。背叛者恶化环境——只消耗不生产。于是出现了一个闭环:
合作者多了 → 环境变好 → 背叛者占优 → 环境变差 → 合作者又占优 →
系统开始呼吸。
一呼,一吸。一荣,一枯。
这是整篇论文最让我着迷的部分。数学模型预测的不是一个稳定的均衡点,而是一个永不停歇的振荡。合作者比例 $x$ 和环境状态 $n$ 在相空间中画出一个又一个闭合的周期轨道——更准确地说,是一个 heteroclinic cycle(异宿循环)。系统在四个边界点之间反复跳跃:
$$(x=1, n=1) \to (x=0, n=1) \to (x=0, n=0) \to (x=1, n=0) \to (x=1, n=1)$$(合作,丰饶)→(背叛,丰饶)→(背叛,贫瘠)→(合作,贫瘠)→(合作,丰饶)。
Weitz 把这个现象叫做 “oscillating tragedy of the commons”——振荡的公地悲剧。为什么还是悲剧?因为系统永远无法停在最优状态。它注定在丰饶与贫瘠之间来回摆动,合作与背叛此消彼长,谁也稳不住。用 Hardin 的话讲,是 “the inevitableness of destiny”。
逃脱的条件
但论文也留下了一条出路。
振荡是否收敛到一个内部均衡点(interior fixed point),取决于 depleted state 下的 payoff 结构。Weitz 等人分析了 $n=0$ 时所有可能的 payoff 排序,总结了一张漂亮的相图(论文 Fig. 5,七个区域,七种命运)。
核心条件可以用一个不等式表达:
$$\frac{P_1 - S_1}{T_1 - R_1} > \frac{S_0 - P_0}{R_0 - T_0}$$
翻译成人话:当合作者在差环境中"帮别人一把"的收益足够大——也就是当别人都在背叛时,选择合作的 payoff 足够高——系统就能安稳地停在一个中间的环境状态。heteroclinic cycle 消失了,悲剧被避免了。
在低谷时愿意伸手的人越多,这个系统就越不容易反复崩溃。
这个结论,怎么说呢,有一种数学推导出来的道德劝诫的味道。(可能是我想多了。)
不只是公地
论文在讨论部分列举了大量 feedback-evolving game 的实例。微生物分泌 siderophore(铁载体)抢夺铁离子——分泌者是合作者,环境缺铁时合作占优,铁充足了搭便车者就来了。疫苗接种也是——疫情爆发时人人想打,接种率上去之后反而没人打了(Bauch & Earn, 2004)。水资源管理也是——丰水年没人想着节水,旱年来了再省已经晚了。
所有这些系统的共同特征:个体的理性行为改变了环境,而环境反过来重新定义了什么是"理性"。
传统的 iterated prisoner’s dilemma 靠的是"记忆"——你记得上次对方做了什么,下次就还回去。tit-for-tat。Weitz 的框架不需要任何个体记忆。环境本身就是记忆。草记得你踩过它。
Instead, a feedback-evolving game changes with time as a direct result of the accumulated actions of the populations.
个体的累计行动,构成了一个会"记住"的环境。
读到这一段的时候,我脑子里反复出现的是上一篇博文里的那两个模型。模型一是即时筛选——看这一步的 payoff。模型二是历史筛选——看历史累计的 payoff。我当时说,我们不知道自然选择到底是哪一种。
Weitz 的模型给了第三种可能:不是"看什么时间窗口",而是"payoff 本身被谁定义"。
fitness 不仅取决于有多少人合作——这是传统 replicator dynamics 的全部内容。fitness 还取决于当前的环境状态,而环境状态本身就是合作者比例的历史积分。策略跳一步,舞台就晃一下。舞台晃了,下一步也跟着变。这不是简单的"即时 vs. 历史"的对立,而是策略和环境在跳一场永不停歇的双人舞。
统计力学的语言也许更准确:这是一个 non-equilibrium steady state。系统永远不在平衡态,永远在流。草在长,牛在吃,payoff 在变,策略在追。没有一个"正确的"策略能让你一劳永逸地解决问题。
草的道德
Hardin 的原话是:公地悲剧没有技术解决方案(technical solution),只能靠 “mutual coercion, mutually agreed upon”——相互强制,共同同意。
但如果环境本身会根据你的选择而改变,那么真正的问题就不是"如何强制执行合作",而是"如何在波动中维持恢复力(resilience)"。你不需要永远合作——Weitz 的模型告诉你,永远合作也稳不住,因为背叛者总会在你最成功的时候趁虚而入。你需要的是:在低谷的时候多伸几只手,把系统往回拉一点。只要拉得够多,heteroclinic cycle 就会坍缩成一个 stable interior fixed point。
不是消灭背叛者。是让背叛者到来的时候,草还够长。
草是会呼吸的。
唯一能做的,就是不要踩断它的根。
参考文献
Weitz, A. (2016). An oscillating tragedy of the commons in replicator dynamics with game-environment feedback PNAS.