Prisoners-Dilemma on TouchingFish.top

博弈的节律

Mon, 19 Jun 2023 00:00:00 +0000

之前写过两个 ABM（Agent-Based Model）。网格上的 agents 随机配对，玩一局博弈，然后更新 action。唯一的变量是"看什么"——这一步的得分，还是历史上所有博弈的总分。微分方程我不会推（平均场近似抄的文献），但 ODE 的阶数我还是看得懂的：一个是一阶，一个是二阶。速度与加速度，无记忆与有惯性。微观设定只是一念之差。

但那两个模型共享一个暗含的前提：支付矩阵是铁板一块。囚徒困境永远是囚徒困境。鹰鸽博弈永远是鹰鸽博弈。

草不会疼。

Weitz et al.（2016）让草活了过来——策略改变环境，环境重写收益结构，收益结构反过来重塑策略。闭环一旦形成，系统就开始呼吸。

我想做的事更简单：不给环境开一个连续的反馈通道，只是给网格一个节律。

给网格一个节律

在原来的 ABM 里加一个资源状态变量，初始值设为 $A$。每一步 agents 在网格上博弈，消耗 $1$ 单位资源。资源从 $A$ 一路降到 $0$，再隔固定步数，重置回 $A$。

设 $b=1$，资源存量 $a \in \{0, 1, 2, 3, 4\}$。支付矩阵为：

$$ \begin{matrix} & C & D \\\\ \hline C & a/2 & 0 \\\\ D & a & (a-1)/2 \end{matrix} $$

$a=4$，桌子是这样的：

$$ \begin{matrix} & C & D \\\\ \hline C & 2 & 0 \\\\ D & 4 & 1.5 \end{matrix} $$

纯正的囚徒困境。$D$ 严格占优 $C$——不管对方选什么，背叛都比合作赚得多。Replicator dynamics 告诉你：关门，放背叛者，全图沦陷。

囚徒困境的终点

Sun, 15 Jan 2023 00:00:00 +0000

我想搞清楚一件事——

(D, D) 为什么既是均衡，又是终点？

不是道德判断。是数学事实。复制子动力学 Replicator Dynamics 把这套逻辑说得非常清楚。

收益矩阵

两个人，两种策略：合作（记作 C）和背叛（记作 D）。

	对方 C	对方 D
我 C	3	0
我 D	5	1

含义很简单：

双合作：各得 3
我背叛、对方合作：我得 5（对方得 0）
双背叛：各得 1
我合作、对方背叛：我得 0

关键观察在这里。无论对方选什么，背叛的收益都不低于合作：

对方 C 时，背叛 5 > 合作 3
对方 D 时，背叛 1 > 合作 0

D 是占优策略 dominant strategy。理性人一定选 D。

所以 (D, D) 是唯一纳什均衡。

静态博弈已经告诉我们答案，不需要动力学。

但——这个均衡是怎么"达到"的？如果一开始有人合作，系统会怎样演化？

这才是复制子动力学要回答的。

群体视角

不是两个人了。假设一个很大的群体，一部分人用 C，一部分人用 D。

记时刻 $t$ 时，合作者比例为 $x(t)$，背叛者就是 $1 - x(t)$。

从酵母细胞说起

Tue, 15 Nov 2022 00:00:00 +0000

读到一篇有意思的论文。Greig 和 Travisano 在 Biology Letters 上发了篇文章，研究酵母的"作弊"行为。

酵母会分泌 invertase 到细胞外消化蔗糖，消化的糖大家都可以用——这就有意思了。一个细胞可以选择"作弊"：偷用邻居分泌的酶，自己却不分泌。研究者把有功能 SUC2 基因的酵母叫"合作者"，把删除了 SUC2 基因的叫"作弊者"，然后把它们放在一起竞争。

结果很反直觉：

在稀疏的群体里（低社交密度），作弊者的 fitness 只有 0.87——比合作者差
在密集的群体里（高社交密度），作弊者的 fitness 高达 1.19——比合作者强

为什么？社交密度越高，合作者越容易遇到其他合作者。大家一起分泌酶，公共池塘变大，每个人的收益都高。但这时候作弊者混进来，单方面享受公共成果还不付成本，收益爆炸。

当密度极高时，作弊者几乎总能找到合作目标，偷到的比自己分泌的还多。合作者反而被拖累。

这完美符合我的直觉。但我想自己做一遍——不是验证论文结论，而是想亲手"看见"这个过程，把方程写进格子，看数字跑起来。

模型设定

$n \times n$ 的网格，population density 控制每格放置 agent 的概率。Agent 有两种策略：C（合作，分泌酶）和 D（作弊，不分泌）。

两两相遇时玩标准囚徒困境，payoff 矩阵：

$$ \begin{pmatrix} R=3 & S=0 \\ T=5 & P=1 \end{pmatrix} $$

R 是合作-合作的奖励，T 是背叛的诱惑，S 是被背叛者的收益，P 是双双背叛的惩罚。按经典设定：$T > R > P > S$，且 $2R > T + S$（互惠合作优于反复背叛）。

每一步：

Agent 在 Von Neumann 邻域（上下左右四格）找邻居
两人玩一把博弈
比较这一步的得分 $\pi$
以正比于收益差的概率模仿邻居策略

只看当期得分。不记历史，不做规划。