<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Replicator-Dynamics on TouchingFish.top</title><link>https://touchingfish.top/tags/replicator-dynamics/</link><description>Recent content in Replicator-Dynamics on TouchingFish.top</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 25 Feb 2023 00:00:00 +0000</lastBuildDate><atom:link href="https://touchingfish.top/tags/replicator-dynamics/index.xml" rel="self" type="application/rss+xml"/><item><title>雪堆博弈的第三条路</title><link>https://touchingfish.top/2023/snowdrift-game-internal-equilibrium/</link><pubDate>Sat, 25 Feb 2023 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2023/snowdrift-game-internal-equilibrium/</guid><description>&lt;p&gt;囚徒困境是绝望的。&lt;/p&gt;
&lt;p&gt;背叛是严格占优策略。所有动力学、所有演化、所有重复博弈的尽头，都是纯背叛。教科书这么写，实验室这么验证，我们看着，心里大概也是这么想的。&lt;/p&gt;
&lt;p&gt;但雪堆博弈 Snowdrift Game 不一样。&lt;/p&gt;
&lt;p&gt;这里没有绝路。&lt;/p&gt;
&lt;h2 id="铲雪还是不铲"&gt;铲雪，还是不铲？&lt;/h2&gt;
&lt;p&gt;两辆车被雪堵住了。&lt;/p&gt;
&lt;p&gt;这是经典故事。我第一次读到的时候，正在台北等一场永远不会来的雪。窗外只有雨，但脑子里全是那个场景：两个人，两把铲子，两个选择。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;铲（合作 C）&lt;/li&gt;
&lt;li&gt;不铲（偷懒 D）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;规则很简单：只要有一个人铲，路就能通。铲雪的人付出成本。不铲的人——搭便车 free rider。&lt;/p&gt;
&lt;p&gt;最舒服的局面：别人干活，我拿收益。&lt;/p&gt;
&lt;p&gt;最坏的结局：两个人都等着，谁都走不了。&lt;/p&gt;
&lt;p&gt;这和囚徒困境的绝望感不同。囚徒困境里，合作是傻子策略。这里不是。这里存在一种张力：合作和背叛都有各自的理由，取决于对方选了什么。&lt;/p&gt;
&lt;h2 id="收益矩阵"&gt;收益矩阵&lt;/h2&gt;
&lt;p&gt;设通路收益为 $b$，铲雪成本为 $c$，$b &gt; c &gt; 0$。&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;&lt;/th&gt;
 &lt;th&gt;对方 C&lt;/th&gt;
 &lt;th&gt;对方 D&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;我 C&lt;/td&gt;
 &lt;td&gt;$b - c/2$&lt;/td&gt;
 &lt;td&gt;$b - c$&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;我 D&lt;/td&gt;
 &lt;td&gt;$b$&lt;/td&gt;
 &lt;td&gt;$0$&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;简单解释：&lt;/p&gt;
&lt;p&gt;双方合作——成本平摊，收益各得 $b - c/2$。&lt;/p&gt;
&lt;p&gt;我背叛对方合作——我不干活，但享受通路，收益 $b$。对方独自承担成本，收益 $b - c$。&lt;/p&gt;
&lt;p&gt;双方背叛——谁都不铲，困在原地，收益 $0$。&lt;/p&gt;
&lt;p&gt;我合作对方背叛——我一个人干活，收益 $b - c$。通了，但代价全是我一个人扛。&lt;/p&gt;
&lt;h2 id="不存在占优策略"&gt;不存在占优策略&lt;/h2&gt;
&lt;p&gt;这是关键。&lt;/p&gt;
&lt;p&gt;看矩阵：&lt;/p&gt;
&lt;p&gt;对方合作时，我选 C 得 $b-c/2$，选 D 得 $b$。$b &gt; b - c/2$，背叛更香。&lt;/p&gt;</description></item><item><title>演化的速度与加速度</title><link>https://touchingfish.top/2023/evolutionary-game-dynamic/</link><pubDate>Sat, 04 Feb 2023 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2023/evolutionary-game-dynamic/</guid><description>&lt;p&gt;我不懂演化博弈的数学，Replicator Dynamics 对我来说只是个名词。但我会计算机模拟，Agent-Based Model（ABM）是我的语言。&lt;/p&gt;
&lt;p&gt;假如在一个 $n \times n$ 的网格上，按网格数量乘以 population density 生成一群 agents，每一步 agents 带着一个 action 在网格上移动，在 Von Neumann 邻域找另一个 agent 配对，玩一把经典博弈，然后更新 action，进入下一步。所有 agents 更新 action 的方式都一样。以上定义了模型的基本要素。&lt;/p&gt;
&lt;p&gt;现在考虑一个关键变量：agents 更新 action 的依据是什么？&lt;/p&gt;
&lt;p&gt;一、和邻居比较&lt;strong&gt;这一步&lt;/strong&gt;的得分 $P_1$，下一步变成得分 $P_1$ 高的 action。&lt;/p&gt;
&lt;p&gt;二、和邻居比较&lt;strong&gt;历史所有博弈&lt;/strong&gt;的得分 $P_2$，下一步变成得分 $P_2$ 高的 action。&lt;/p&gt;
&lt;p&gt;微观设定上，只是&amp;quot;看当前&amp;quot;和&amp;quot;看历史&amp;quot;的区别。但当我试图用数学去描述这两个模型时，发现它们对应着两种完全不同的物理动态：一阶系统与二阶系统，速度与加速度。&lt;/p&gt;
&lt;p&gt;下面一步步完成推导。&lt;/p&gt;
&lt;h2 id="从代码到方程平均场近似"&gt;从代码到方程：平均场近似&lt;/h2&gt;
&lt;p&gt;在计算机模拟中，有一个 $n \times n$ 的网格，Agent 在上面走动并寻找邻居。数学家做了一个&amp;quot;偷懒&amp;quot;但极其有效的假设——&lt;strong&gt;平均场近似（Mean-Field Approximation）&lt;/strong&gt;：假设网格无限大，且所有人像气体分子一样充分混合，随机相遇。&lt;/p&gt;
&lt;p&gt;这意味着什么？假设当前全图有 $x$ 比例的人使用策略 $A$，有 $1-x$ 比例的人使用策略 $B$。在一个极小的时间步 $\Delta t$ 内，随机抓取一个 Agent，他是策略 $B$ 的概率是 $1-x$；他恰好撞见一个策略 $A$ 邻居的概率就是 $x$。所以，&lt;strong&gt;&amp;quot;$B$ 遇到 $A$&amp;ldquo;这个事件发生的联合概率就是 $x(1-x)$&lt;/strong&gt;。&lt;/p&gt;</description></item><item><title>随机演化过程</title><link>https://touchingfish.top/2023/markov-chain-replicator-dynamics/</link><pubDate>Sat, 28 Jan 2023 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2023/markov-chain-replicator-dynamics/</guid><description>&lt;p&gt;上篇文章甩出了复制子动力学方程 $\frac{dx}{dt} = x(1-x)(\pi_C - \pi_D)$。没解释从哪来的。&lt;/p&gt;
&lt;p&gt;憋着难受。今天补上。&lt;/p&gt;
&lt;p&gt;这个方程不是拍脑袋写出来的。它的背后，是&amp;quot;大量个体随机互动&amp;quot;的宏观涌现。说人话：一群人瞎折腾，最后折腾出了规律。&lt;/p&gt;
&lt;p&gt;微观随机，宏观确定。这是演化博弈论最迷人之处。&lt;/p&gt;
&lt;h2 id="从离散随机过程开始"&gt;从离散随机过程开始&lt;/h2&gt;
&lt;p&gt;还是囚徒困境。&lt;/p&gt;
&lt;p&gt;群体 $N$ 人，策略只有两种：C 或 D。&lt;/p&gt;
&lt;p&gt;记时刻 $t$ 的合作者数量为 $k$。那么合作比例 $x = \frac{k}{N}$。&lt;/p&gt;
&lt;p&gt;系统状态？只需要跟踪 $k = 0, 1, 2, \ldots, N$。&lt;/p&gt;
&lt;p&gt;这活脱脱一个马尔可夫链（Markov Chain）——下一步长什么样，只看现在，不问过去。&lt;/p&gt;
&lt;h2 id="演化规则"&gt;演化规则&lt;/h2&gt;
&lt;p&gt;规则简单到有点粗暴：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;随机抽一个人当&amp;quot;复制源&amp;quot;&lt;/li&gt;
&lt;li&gt;被抽中概率和收益挂钩&lt;/li&gt;
&lt;li&gt;再随机抽一个人，被替换掉&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;高收益策略扩散，低收益策略收缩。 Darwin 的影子若隐若现。&lt;/p&gt;
&lt;p&gt;于是状态 $k$ 每次只跳一个单位：$k \to k+1$ 或 $k \to k-1$。&lt;/p&gt;
&lt;p&gt;这叫&lt;strong&gt;出生-死亡链（birth-death chain）&lt;/strong&gt;。名字很直观，生死之间，一进一退。&lt;/p&gt;
&lt;h2 id="转移概率"&gt;转移概率&lt;/h2&gt;
&lt;p&gt;先算合作者的平均收益。&lt;/p&gt;
&lt;p&gt;当前合作者 $k$ 人，背叛者 $N-k$ 人。&lt;/p&gt;
&lt;p&gt;合作比例 $x = \frac{k}{N}$，所以：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;合作者收益：$\pi_C = 3x = \frac{3k}{N}$&lt;/li&gt;
&lt;li&gt;背叛者收益：$\pi_D = 4x + 1 = \frac{4k}{N} + 1$&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;群体总&amp;quot;适应度&amp;quot;：&lt;/p&gt;</description></item><item><title>囚徒困境的终点</title><link>https://touchingfish.top/2023/replicator-dynamics-prisoners-dilemma/</link><pubDate>Sun, 15 Jan 2023 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2023/replicator-dynamics-prisoners-dilemma/</guid><description>&lt;p&gt;我想搞清楚一件事——&lt;/p&gt;
&lt;p&gt;(D, D) 为什么既是均衡，又是终点？&lt;/p&gt;
&lt;p&gt;不是道德判断。是数学事实。复制子动力学 Replicator Dynamics 把这套逻辑说得非常清楚。&lt;/p&gt;
&lt;h2 id="收益矩阵"&gt;收益矩阵&lt;/h2&gt;
&lt;p&gt;两个人，两种策略：合作（记作 C）和背叛（记作 D）。&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;&lt;/th&gt;
 &lt;th&gt;对方 C&lt;/th&gt;
 &lt;th&gt;对方 D&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;我 C&lt;/td&gt;
 &lt;td&gt;3&lt;/td&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;我 D&lt;/td&gt;
 &lt;td&gt;5&lt;/td&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;含义很简单：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;双合作：各得 3&lt;/li&gt;
&lt;li&gt;我背叛、对方合作：我得 5（对方得 0）&lt;/li&gt;
&lt;li&gt;双背叛：各得 1&lt;/li&gt;
&lt;li&gt;我合作、对方背叛：我得 0&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;关键观察在这里。无论对方选什么，背叛的收益都不低于合作：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;对方 C 时，背叛 5 &amp;gt; 合作 3&lt;/li&gt;
&lt;li&gt;对方 D 时，背叛 1 &amp;gt; 合作 0&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;D 是&lt;strong&gt;占优策略 dominant strategy&lt;/strong&gt;。理性人一定选 D。&lt;/p&gt;
&lt;p&gt;所以 (D, D) 是唯一纳什均衡。&lt;/p&gt;
&lt;p&gt;静态博弈已经告诉我们答案，不需要动力学。&lt;/p&gt;
&lt;p&gt;但——这个均衡是怎么&amp;quot;达到&amp;quot;的？如果一开始有人合作，系统会怎样演化？&lt;/p&gt;
&lt;p&gt;这才是复制子动力学要回答的。&lt;/p&gt;
&lt;h2 id="群体视角"&gt;群体视角&lt;/h2&gt;
&lt;p&gt;不是两个人了。假设一个很大的群体，一部分人用 C，一部分人用 D。&lt;/p&gt;
&lt;p&gt;记时刻 $t$ 时，合作者比例为 $x(t)$，背叛者就是 $1 - x(t)$。&lt;/p&gt;</description></item></channel></rss>