固定点、稳定分布、纳什均衡——一个困惑的消解

Fri, 10 Feb 2023 00:00:00 +0000

复制子动力学里的固定点、马尔可夫链的稳定分布、博弈论里的纳什均衡。

这三个东西，我第一次看到的时候，是当同义词处理的。

后来发现，不是。

曾经的误解

Fixed Point、Stationary Distribution、Nash Equilibrium。

三个术语，三个领域，三种直觉。听起来像是同一个数学对象的三个侧面。

囚徒困境里，它们确实是同一个东西。

但这不代表它们在任何情况下都等价。我花了点时间才把这个混淆搞清楚。

三个数学对象的定义

固定点（Fixed Point）

复制子动力学是一个常微分方程：

$$\frac{dx}{dt} = F(x)$$

固定点的定义很简单：

$$F(x^*) = 0$$

如果系统刚好到达 $x^*$，它就不再移动。

“速度为零"的点。确定性的。

马尔可夫链稳定分布（Stationary Distribution）

随机过程里，系统永远在随机跳动。静止？不存在的。

于是换了个问题：长期后系统有多大概率出现在各状态？

这就是稳定分布。记作：

$$\pi P = \pi$$

这里 $P$ 是转移矩阵，$\pi$ 是概率分布。

含义是：经过一步随机演化后，概率分布保持不变。

本质上是特征值 $\lambda = 1$ 对应的特征向量。

纳什均衡（Nash Equilibrium）

这是策略概念。

没有人愿意单独改变策略。

它甚至不一定涉及时间。

用矩阵方程求稳定分布

以最简单的两状态马尔可夫链为例。

设群体只有两种状态：

状态 0：全体背叛
状态 1：全体合作

状态向量：

$$p_t = \begin{pmatrix} P(\text{时刻 } t \text{ 在状态 0}) \\ P(\text{时刻 } t \text{ 在状态 1}) \end{pmatrix}$$

转移矩阵：

囚徒困境的终点

Sun, 15 Jan 2023 00:00:00 +0000

我想搞清楚一件事——

(D, D) 为什么既是均衡，又是终点？

不是道德判断。是数学事实。复制子动力学 Replicator Dynamics 把这套逻辑说得非常清楚。

收益矩阵

两个人，两种策略：合作（记作 C）和背叛（记作 D）。

	对方 C	对方 D
我 C	3	0
我 D	5	1

含义很简单：

双合作：各得 3
我背叛、对方合作：我得 5（对方得 0）
双背叛：各得 1
我合作、对方背叛：我得 0

关键观察在这里。无论对方选什么，背叛的收益都不低于合作：

对方 C 时，背叛 5 > 合作 3
对方 D 时，背叛 1 > 合作 0

D 是占优策略 dominant strategy。理性人一定选 D。

所以 (D, D) 是唯一纳什均衡。

静态博弈已经告诉我们答案，不需要动力学。

但——这个均衡是怎么"达到"的？如果一开始有人合作，系统会怎样演化？

这才是复制子动力学要回答的。

群体视角

不是两个人了。假设一个很大的群体，一部分人用 C，一部分人用 D。

记时刻 $t$ 时，合作者比例为 $x(t)$，背叛者就是 $1 - x(t)$。

Nash-Equilibrium on TouchingFish.top