共有地が呼吸を始めるとき

共有地の悲劇は、誰もが知る古い話だ。

1968年、ギャレット・ハーディンはこういう情景を描いた。誰もが自由に使える牧草地があり、牧夫たちはそれぞれ牛を一頭ずつ増やしていく。牛を一頭増やす利益はすべて自分のものになるが、草地が荒廃するコストは全員で分担する。その結果、誰もが牛を増やし続け、草地は最終的に完全に破壊される、というものである。

ゲーム理論の言葉で言い換えるのは簡単だ。裏切り（defect）が支配戦略である。相手がどう出ようと、裏切りのペイオフは協力より高い。レプリケーターダイナミクスに従えば、裏切り者が最終的に集団全体を飲み込む。

しかし、このモデルには暗黙の前提がある。草は死んだものだ、と。ペイオフ行列は固定されている。踏まれても痛がらない。食べ尽くされても、次のゲームのルールを変えたりしない。

ワイツらが2016年に『PNAS』に発表したこの論文がやったことは、ただ一つ。草に命を吹き込んだのだ。

草に命を吹き込む

論文が提唱するのは「共進化ゲーム理論（coevolutionary game theory）」という枠組みである。ゲームと環境が共に進化する、という考え方だ。核心となる修正点はただ一つ。ペイオフ行列はもはや固定された定数ではなく、環境の関数になる。環境が豊か（replete）なら、裏切りが有利。環境が枯渇（depleted）していれば、協力が有利。

直感的には理解しやすい。資源が潤沢なとき、ただ乗りが一番お得だ。誰かが努力し、自分はその恩恵にあずかる。資源が枯渇したときは、誰もただ乗りできない。協力しなければ共倒れだ。論文の言葉を借りれば、

mutual cooperation is a Nash equilibrium when n = 0 and mutual defection is a Nash equilibrium when n = 1.

$n$ は環境の状態であり、$n=0$ が枯渇（depleted）、$n=1$ が豊潤（replete）を表す。ペイオフ行列 $A(n)$ はこの二つの極値の間で線形補間され、協力と裏切りのナッシュ均衡がそれぞれ両端を占める。

しかし肝心なのは「環境が戦略を決める」ことではない。肝心なのはもう一つの方向だ。戦略が、逆に環境を変えるのである。

閉ループ

協力者は環境を改善する。たとえば細菌が共通の酵素を分泌して養分を分解したり、植生が土壌や水を安定させたりするように。裏切り者は環境を悪化させる。消費するだけで生産しない。こうして一つの閉ループが生まれる。

協力者が増える → 環境が良くなる → 裏切り者が有利になる → 環境が悪くなる → 協力者がまた有利になる →

システムが呼吸を始める。息を吸って、吐いて。栄えては、枯れる。

これこそ、論文全体で最も心を奪われた部分だ。数理モデルが予測するのは、安定した均衡点ではない。永遠に止むことのない振動である。協力者の割合 $x$ と環境状態 $n$ は、位相空間の中に次々と閉じた周期軌道を描く。より正確に言えば、それはヘテロクリニック・サイクル（異宿軌道）だ。システムは四つの境界点の間を繰り返し跳躍する。

$$(x=1, n=1) \to (x=0, n=1) \to (x=0, n=0) \to (x=1, n=0) \to (x=1, n=1)$$

（協力・豊潤）→（裏切り・豊潤）→（裏切り・枯渇）→（協力・枯渇）→（協力・豊潤）。

ワイツはこの現象を「振動する共有地の悲劇（oscillating tragedy of the commons）」と呼ぶ。なぜそれでも悲劇なのか。システムは決して最適な状態に留まれないからだ。豊潤と枯渇の間を行ったり来たりし、協力と裏切りが互いに消長を繰り返す。誰も安定させられない。ハーディンの言葉を借りれば、それは「運命の不可避性（the inevitableness of destiny）」である。

脱出の条件

しかし、論文は一筋の出口も残している。

振動が内部均衡点（interior fixed point）に収束するかどうかは、枯渇状態でのペイオフ構造に依存する。ワイツらは $n=0$ のときのあらゆるペイオフ順序を分析し、一枚の美しい相図（論文 Fig. 5、七つの領域、七つの運命）にまとめ上げた。

核心の条件は一つの不等式で表せる。

$$\frac{P_1 - S_1}{T_1 - R_1} > \frac{S_0 - P_0}{R_0 - T_0}$$

平たく言えば、協力者が悪い環境で「他者を助ける」ことの利益が十分に大きいとき、つまり、皆が裏切っている中で協力を選ぶペイオフが十分に高いとき、システムは中程度の環境状態に安定的に落ち着くことができる。ヘテロクリニック・サイクルは消え、悲劇は回避される。

どん底のときに手を差し伸べる者が多ければ多いほど、このシステムは繰り返し崩壊することが少なくなる。

この結論は、何と言うか、数学から導かれた道徳的訓戒のような趣がある。（考えすぎかもしれないが。）

共有地だけの話ではない

論文の考察部では、フィードバック進化ゲームの実例が数多く列挙されている。微生物が鉄を獲得するためにシデロフォア（鉄キレート剤）を分泌する現象——分泌者は協力者であり、環境が鉄欠乏のときは協力が有利だが、鉄が十分になるとただ乗り屋が現れる。ワクチン接種もそうだ——感染が流行しているときは皆が接種を望むが、接種率が上がると逆に誰も接種しなくなる（Bauch & Earn, 2004）。水資源管理も同様だ——豊水年には誰も節水を考えないが、渇水年になってから節約してもすでに手遅れである。

これらすべてのシステムに共通する特徴。個体の合理的行動が環境を変え、環境が今度は逆に「合理性」の定義そのものを塗り替えるのだ。

従来の繰り返し囚人のジレンマが頼りにしていたのは「記憶」だった。相手が前回何をしたかを覚えておき、次はそれに報いる。しっぺ返し戦略である。ワイツの枠組みには、いかなる個体の記憶も必要ない。環境そのものが記憶なのだ。草は、踏まれたことを覚えている。

Instead, a feedback-evolving game changes with time as a direct result of the accumulated actions of the populations.

個体の行動の蓄積が、「記憶する」環境を構成するのである。

この一節を読んだとき、頭の中に何度も浮かんだのは、前回のブログ記事で書いた二つのモデルだった。モデル1は即時選別——そのステップのペイオフを見る。モデル2は履歴選別——過去に蓄積されたペイオフを見る。自然淘汰がどちらなのかはわからない、と当時私は書いた。

ワイツのモデルは、第三の可能性を示してくれた。「どの時間枠で見るか」ではない。「ペイオフそのものが何によって定義されるか」なのだ。

適応度は、どれだけの個体が協力しているかだけでは決まらない。それは従来のレプリケーターダイナミクスが射程に入れていたもののすべてだったが。適応度は現在の環境状態にも依存し、そして環境状態そのものが協力者比率の履歴の積分なのだ。戦略が一歩踏み出せば、舞台が揺れる。舞台が揺れれば、次の一歩も変わる。これは単純な「即時か履歴か」という対立ではない。戦略と環境が、永遠に終わることのない双人舞を踊っているのである。

統計力学の言葉のほうが正確かもしれない。これは非平衡定常状態（non-equilibrium steady state）だ。システムは決して平衡に達することなく、永遠に流れ続ける。草は伸び、牛は食べ、ペイオフは変わり、戦略は追いかける。問題を一挙に解決してくれる「正しい」戦略など、どこにも存在しない。

草の道徳

ハーディンの原文はこうだ。共有地の悲劇に技術的解決策（technical solution）はなく、ただ「相互に合意した相互強制（mutual coercion, mutually agreed upon）」に頼るしかない、と。

だが、もし環境そのものがあなたの選択に応じて変化するのだとしたら、本当の問題は「いかに協力を強制するか」ではない。「いかに変動の中でレジリエンス（回復力）を維持するか」なのである。永遠に協力し続ける必要はない。ワイツのモデルが教えてくれるのは、永遠の協力でも安定しないということだ。裏切り者は、あなたが最も成功した瞬間に必ず付け入ってくる。必要なのは、どん底のときに何本も手を差し伸べ、システムを少しばかり引き戻すことだ。十分に引き戻せば、ヘテロクリニック・サイクルは崩壊し、安定した内部均衡点（stable interior fixed point）へと収束する。

裏切り者を根絶することではない。裏切り者がやって来たときにも、草がまだ十分に伸びていることだ。

草は呼吸している。

唯一できることは、その根を踏み千切らないことだ。

参考文献

Weitz, A. (2016). An oscillating tragedy of the commons in replicator dynamics with game-environment feedback PNAS.