<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Nash-Equilibrium on TouchingFish.top</title><link>https://touchingfish.top/tags/nash-equilibrium/</link><description>Recent content in Nash-Equilibrium on TouchingFish.top</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Fri, 10 Feb 2023 00:00:00 +0000</lastBuildDate><atom:link href="https://touchingfish.top/tags/nash-equilibrium/index.xml" rel="self" type="application/rss+xml"/><item><title>固定点、稳定分布、纳什均衡——一个困惑的消解</title><link>https://touchingfish.top/2023/fixed-point-stable-distribution-nash/</link><pubDate>Fri, 10 Feb 2023 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2023/fixed-point-stable-distribution-nash/</guid><description>&lt;p&gt;复制子动力学里的固定点、马尔可夫链的稳定分布、博弈论里的纳什均衡。&lt;/p&gt;
&lt;p&gt;这三个东西，我第一次看到的时候，是当同义词处理的。&lt;/p&gt;
&lt;p&gt;后来发现，不是。&lt;/p&gt;
&lt;h2 id="曾经的误解"&gt;曾经的误解&lt;/h2&gt;
&lt;p&gt;Fixed Point、Stationary Distribution、Nash Equilibrium。&lt;/p&gt;
&lt;p&gt;三个术语，三个领域，三种直觉。听起来像是同一个数学对象的三个侧面。&lt;/p&gt;
&lt;p&gt;囚徒困境里，它们确实是同一个东西。&lt;/p&gt;
&lt;p&gt;但这不代表它们在任何情况下都等价。我花了点时间才把这个混淆搞清楚。&lt;/p&gt;
&lt;h2 id="三个数学对象的定义"&gt;三个数学对象的定义&lt;/h2&gt;
&lt;h3 id="固定点fixed-point"&gt;固定点（Fixed Point）&lt;/h3&gt;
&lt;p&gt;复制子动力学是一个常微分方程：&lt;/p&gt;
$$\frac{dx}{dt} = F(x)$$&lt;p&gt;固定点的定义很简单：&lt;/p&gt;
$$F(x^*) = 0$$&lt;p&gt;如果系统刚好到达 $x^*$，它就不再移动。&lt;/p&gt;
&lt;p&gt;&amp;ldquo;速度为零&amp;quot;的点。确定性的。&lt;/p&gt;
&lt;h3 id="马尔可夫链稳定分布stationary-distribution"&gt;马尔可夫链稳定分布（Stationary Distribution）&lt;/h3&gt;
&lt;p&gt;随机过程里，系统永远在随机跳动。静止？不存在的。&lt;/p&gt;
&lt;p&gt;于是换了个问题：长期后系统有多大概率出现在各状态？&lt;/p&gt;
&lt;p&gt;这就是稳定分布。记作：&lt;/p&gt;
$$\pi P = \pi$$&lt;p&gt;这里 $P$ 是转移矩阵，$\pi$ 是概率分布。&lt;/p&gt;
&lt;p&gt;含义是：经过一步随机演化后，概率分布保持不变。&lt;/p&gt;
&lt;p&gt;本质上是特征值 $\lambda = 1$ 对应的特征向量。&lt;/p&gt;
&lt;h3 id="纳什均衡nash-equilibrium"&gt;纳什均衡（Nash Equilibrium）&lt;/h3&gt;
&lt;p&gt;这是策略概念。&lt;/p&gt;
&lt;p&gt;没有人愿意单独改变策略。&lt;/p&gt;
&lt;p&gt;它甚至不一定涉及时间。&lt;/p&gt;
&lt;h2 id="用矩阵方程求稳定分布"&gt;用矩阵方程求稳定分布&lt;/h2&gt;
&lt;p&gt;以最简单的两状态马尔可夫链为例。&lt;/p&gt;
&lt;p&gt;设群体只有两种状态：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;状态 0：全体背叛&lt;/li&gt;
&lt;li&gt;状态 1：全体合作&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;状态向量：&lt;/p&gt;
$$p_t = \begin{pmatrix} P(\text{时刻 } t \text{ 在状态 0}) \\ P(\text{时刻 } t \text{ 在状态 1}) \end{pmatrix}$$&lt;p&gt;转移矩阵：&lt;/p&gt;</description></item><item><title>囚徒困境的终点</title><link>https://touchingfish.top/2023/replicator-dynamics-prisoners-dilemma/</link><pubDate>Sun, 15 Jan 2023 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2023/replicator-dynamics-prisoners-dilemma/</guid><description>&lt;p&gt;我想搞清楚一件事——&lt;/p&gt;
&lt;p&gt;(D, D) 为什么既是均衡，又是终点？&lt;/p&gt;
&lt;p&gt;不是道德判断。是数学事实。复制子动力学 Replicator Dynamics 把这套逻辑说得非常清楚。&lt;/p&gt;
&lt;h2 id="收益矩阵"&gt;收益矩阵&lt;/h2&gt;
&lt;p&gt;两个人，两种策略：合作（记作 C）和背叛（记作 D）。&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;&lt;/th&gt;
 &lt;th&gt;对方 C&lt;/th&gt;
 &lt;th&gt;对方 D&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;我 C&lt;/td&gt;
 &lt;td&gt;3&lt;/td&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;我 D&lt;/td&gt;
 &lt;td&gt;5&lt;/td&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;含义很简单：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;双合作：各得 3&lt;/li&gt;
&lt;li&gt;我背叛、对方合作：我得 5（对方得 0）&lt;/li&gt;
&lt;li&gt;双背叛：各得 1&lt;/li&gt;
&lt;li&gt;我合作、对方背叛：我得 0&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;关键观察在这里。无论对方选什么，背叛的收益都不低于合作：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;对方 C 时，背叛 5 &amp;gt; 合作 3&lt;/li&gt;
&lt;li&gt;对方 D 时，背叛 1 &amp;gt; 合作 0&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;D 是&lt;strong&gt;占优策略 dominant strategy&lt;/strong&gt;。理性人一定选 D。&lt;/p&gt;
&lt;p&gt;所以 (D, D) 是唯一纳什均衡。&lt;/p&gt;
&lt;p&gt;静态博弈已经告诉我们答案，不需要动力学。&lt;/p&gt;
&lt;p&gt;但——这个均衡是怎么&amp;quot;达到&amp;quot;的？如果一开始有人合作，系统会怎样演化？&lt;/p&gt;
&lt;p&gt;这才是复制子动力学要回答的。&lt;/p&gt;
&lt;h2 id="群体视角"&gt;群体视角&lt;/h2&gt;
&lt;p&gt;不是两个人了。假设一个很大的群体，一部分人用 C，一部分人用 D。&lt;/p&gt;
&lt;p&gt;记时刻 $t$ 时，合作者比例为 $x(t)$，背叛者就是 $1 - x(t)$。&lt;/p&gt;</description></item></channel></rss>