博弈的节律

Mon, 19 Jun 2023 00:00:00 +0000

之前写过两个 ABM（Agent-Based Model）。网格上的 agents 随机配对，玩一局博弈，然后更新 action。唯一的变量是"看什么"——这一步的得分，还是历史上所有博弈的总分。微分方程我不会推（平均场近似抄的文献），但 ODE 的阶数我还是看得懂的：一个是一阶，一个是二阶。速度与加速度，无记忆与有惯性。微观设定只是一念之差。

但那两个模型共享一个暗含的前提：支付矩阵是铁板一块。囚徒困境永远是囚徒困境。鹰鸽博弈永远是鹰鸽博弈。

草不会疼。

Weitz et al.（2016）让草活了过来——策略改变环境，环境重写收益结构，收益结构反过来重塑策略。闭环一旦形成，系统就开始呼吸。

我想做的事更简单：不给环境开一个连续的反馈通道，只是给网格一个节律。

给网格一个节律

在原来的 ABM 里加一个资源状态变量，初始值设为 $A$。每一步 agents 在网格上博弈，消耗 $1$ 单位资源。资源从 $A$ 一路降到 $0$，再隔固定步数，重置回 $A$。

设 $b=1$，资源存量 $a \in \{0, 1, 2, 3, 4\}$。支付矩阵为：

$$ \begin{matrix} & C & D \\\\ \hline C & a/2 & 0 \\\\ D & a & (a-1)/2 \end{matrix} $$

$a=4$，桌子是这样的：

$$ \begin{matrix} & C & D \\\\ \hline C & 2 & 0 \\\\ D & 4 & 1.5 \end{matrix} $$

纯正的囚徒困境。$D$ 严格占优 $C$——不管对方选什么，背叛都比合作赚得多。Replicator dynamics 告诉你：关门，放背叛者，全图沦陷。

Density-Dependence on TouchingFish.top

博弈的节律

给网格一个节律