Replicator-Dynamics on TouchingFish.top

雪堆博弈的第三条路

Sat, 25 Feb 2023 00:00:00 +0000

囚徒困境是绝望的。

背叛是严格占优策略。所有动力学、所有演化、所有重复博弈的尽头，都是纯背叛。教科书这么写，实验室这么验证，我们看着，心里大概也是这么想的。

但雪堆博弈 Snowdrift Game 不一样。

这里没有绝路。

铲雪，还是不铲？

两辆车被雪堵住了。

这是经典故事。我第一次读到的时候，正在台北等一场永远不会来的雪。窗外只有雨，但脑子里全是那个场景：两个人，两把铲子，两个选择。

铲（合作 C）
不铲（偷懒 D）

规则很简单：只要有一个人铲，路就能通。铲雪的人付出成本。不铲的人——搭便车 free rider。

最舒服的局面：别人干活，我拿收益。

最坏的结局：两个人都等着，谁都走不了。

这和囚徒困境的绝望感不同。囚徒困境里，合作是傻子策略。这里不是。这里存在一种张力：合作和背叛都有各自的理由，取决于对方选了什么。

收益矩阵

设通路收益为 $b$，铲雪成本为 $c$，$b > c > 0$。

	对方 C	对方 D
我 C	$b - c/2$	$b - c$
我 D	$b$	$0$

简单解释：

双方合作——成本平摊，收益各得 $b - c/2$。

我背叛对方合作——我不干活，但享受通路，收益 $b$。对方独自承担成本，收益 $b - c$。

双方背叛——谁都不铲，困在原地，收益 $0$。

我合作对方背叛——我一个人干活，收益 $b - c$。通了，但代价全是我一个人扛。

不存在占优策略

这是关键。

看矩阵：

对方合作时，我选 C 得 $b-c/2$，选 D 得 $b$。$b > b - c/2$，背叛更香。

演化的速度与加速度

Sat, 04 Feb 2023 00:00:00 +0000

我不懂演化博弈的数学，Replicator Dynamics 对我来说只是个名词。但我会计算机模拟，Agent-Based Model（ABM）是我的语言。

假如在一个 $n \times n$ 的网格上，按网格数量乘以 population density 生成一群 agents，每一步 agents 带着一个 action 在网格上移动，在 Von Neumann 邻域找另一个 agent 配对，玩一把经典博弈，然后更新 action，进入下一步。所有 agents 更新 action 的方式都一样。以上定义了模型的基本要素。

现在考虑一个关键变量：agents 更新 action 的依据是什么？

一、和邻居比较这一步的得分 $P_1$，下一步变成得分 $P_1$ 高的 action。

二、和邻居比较历史所有博弈的得分 $P_2$，下一步变成得分 $P_2$ 高的 action。

微观设定上，只是"看当前"和"看历史"的区别。但当我试图用数学去描述这两个模型时，发现它们对应着两种完全不同的物理动态：一阶系统与二阶系统，速度与加速度。

下面一步步完成推导。

从代码到方程：平均场近似

在计算机模拟中，有一个 $n \times n$ 的网格，Agent 在上面走动并寻找邻居。数学家做了一个"偷懒"但极其有效的假设——平均场近似（Mean-Field Approximation）：假设网格无限大，且所有人像气体分子一样充分混合，随机相遇。

这意味着什么？假设当前全图有 $x$ 比例的人使用策略 $A$，有 $1-x$ 比例的人使用策略 $B$。在一个极小的时间步 $\Delta t$ 内，随机抓取一个 Agent，他是策略 $B$ 的概率是 $1-x$；他恰好撞见一个策略 $A$ 邻居的概率就是 $x$。所以，"$B$ 遇到 $A$“这个事件发生的联合概率就是 $x(1-x)$。

随机演化过程

Sat, 28 Jan 2023 00:00:00 +0000

上篇文章甩出了复制子动力学方程 $\frac{dx}{dt} = x(1-x)(\pi_C - \pi_D)$。没解释从哪来的。

憋着难受。今天补上。

这个方程不是拍脑袋写出来的。它的背后，是"大量个体随机互动"的宏观涌现。说人话：一群人瞎折腾，最后折腾出了规律。

微观随机，宏观确定。这是演化博弈论最迷人之处。

从离散随机过程开始

还是囚徒困境。

群体 $N$ 人，策略只有两种：C 或 D。

记时刻 $t$ 的合作者数量为 $k$。那么合作比例 $x = \frac{k}{N}$。

系统状态？只需要跟踪 $k = 0, 1, 2, \ldots, N$。

这活脱脱一个马尔可夫链（Markov Chain）——下一步长什么样，只看现在，不问过去。

演化规则

规则简单到有点粗暴：

随机抽一个人当"复制源"
被抽中概率和收益挂钩
再随机抽一个人，被替换掉

高收益策略扩散，低收益策略收缩。 Darwin 的影子若隐若现。

于是状态 $k$ 每次只跳一个单位：$k \to k+1$ 或 $k \to k-1$。

这叫出生-死亡链（birth-death chain）。名字很直观，生死之间，一进一退。

转移概率

先算合作者的平均收益。

当前合作者 $k$ 人，背叛者 $N-k$ 人。

合作比例 $x = \frac{k}{N}$，所以：

合作者收益：$\pi_C = 3x = \frac{3k}{N}$
背叛者收益：$\pi_D = 4x + 1 = \frac{4k}{N} + 1$

群体总"适应度"：

囚徒困境的终点

Sun, 15 Jan 2023 00:00:00 +0000

我想搞清楚一件事——

(D, D) 为什么既是均衡，又是终点？

不是道德判断。是数学事实。复制子动力学 Replicator Dynamics 把这套逻辑说得非常清楚。

收益矩阵

两个人，两种策略：合作（记作 C）和背叛（记作 D）。

	对方 C	对方 D
我 C	3	0
我 D	5	1

含义很简单：

双合作：各得 3
我背叛、对方合作：我得 5（对方得 0）
双背叛：各得 1
我合作、对方背叛：我得 0

关键观察在这里。无论对方选什么，背叛的收益都不低于合作：

对方 C 时，背叛 5 > 合作 3
对方 D 时，背叛 1 > 合作 0

D 是占优策略 dominant strategy。理性人一定选 D。

所以 (D, D) 是唯一纳什均衡。

静态博弈已经告诉我们答案，不需要动力学。

但——这个均衡是怎么"达到"的？如果一开始有人合作，系统会怎样演化？

这才是复制子动力学要回答的。

群体视角

不是两个人了。假设一个很大的群体，一部分人用 C，一部分人用 D。

记时刻 $t$ 时，合作者比例为 $x(t)$，背叛者就是 $1 - x(t)$。