共有地の悲劇は、誰もが知る古い話だ。
1968年、ギャレット・ハーディンはこういう情景を描いた。誰もが自由に使える牧草地があり、牧夫たちはそれぞれ牛を一頭ずつ増やしていく。牛を一頭増やす利益はすべて自分のものになるが、草地が荒廃するコストは全員で分担する。その結果、誰もが牛を増やし続け、草地は最終的に完全に破壊される、というものである。
ゲーム理論の言葉で言い換えるのは簡単だ。裏切り(defect)が支配戦略である。相手がどう出ようと、裏切りのペイオフは協力より高い。レプリケーターダイナミクスに従えば、裏切り者が最終的に集団全体を飲み込む。
しかし、このモデルには暗黙の前提がある。草は死んだものだ、と。ペイオフ行列は固定されている。踏まれても痛がらない。食べ尽くされても、次のゲームのルールを変えたりしない。
ワイツらが2016年に『PNAS』に発表したこの論文がやったことは、ただ一つ。草に命を吹き込んだのだ。
草に命を吹き込む
論文が提唱するのは「共進化ゲーム理論(coevolutionary game theory)」という枠組みである。ゲームと環境が共に進化する、という考え方だ。核心となる修正点はただ一つ。ペイオフ行列はもはや固定された定数ではなく、環境の関数になる。環境が豊か(replete)なら、裏切りが有利。環境が枯渇(depleted)していれば、協力が有利。
直感的には理解しやすい。資源が潤沢なとき、ただ乗りが一番お得だ。誰かが努力し、自分はその恩恵にあずかる。資源が枯渇したときは、誰もただ乗りできない。協力しなければ共倒れだ。論文の言葉を借りれば、
mutual cooperation is a Nash equilibrium when n = 0 and mutual defection is a Nash equilibrium when n = 1.
$n$ は環境の状態であり、$n=0$ が枯渇(depleted)、$n=1$ が豊潤(replete)を表す。ペイオフ行列 $A(n)$ はこの二つの極値の間で線形補間され、協力と裏切りのナッシュ均衡がそれぞれ両端を占める。
しかし肝心なのは「環境が戦略を決める」ことではない。肝心なのはもう一つの方向だ。戦略が、逆に環境を変えるのである。
閉ループ
協力者は環境を改善する。たとえば細菌が共通の酵素を分泌して養分を分解したり、植生が土壌や水を安定させたりするように。裏切り者は環境を悪化させる。消費するだけで生産しない。こうして一つの閉ループが生まれる。
協力者が増える → 環境が良くなる → 裏切り者が有利になる → 環境が悪くなる → 協力者がまた有利になる →
システムが呼吸を始める。息を吸って、吐いて。栄えては、枯れる。
これこそ、論文全体で最も心を奪われた部分だ。数理モデルが予測するのは、安定した均衡点ではない。永遠に止むことのない振動である。協力者の割合 $x$ と環境状態 $n$ は、位相空間の中に次々と閉じた周期軌道を描く。より正確に言えば、それはヘテロクリニック・サイクル(異宿軌道)だ。システムは四つの境界点の間を繰り返し跳躍する。
$$(x=1, n=1) \to (x=0, n=1) \to (x=0, n=0) \to (x=1, n=0) \to (x=1, n=1)$$(協力・豊潤)→(裏切り・豊潤)→(裏切り・枯渇)→(協力・枯渇)→(協力・豊潤)。
ワイツはこの現象を「振動する共有地の悲劇(oscillating tragedy of the commons)」と呼ぶ。なぜそれでも悲劇なのか。システムは決して最適な状態に留まれないからだ。豊潤と枯渇の間を行ったり来たりし、協力と裏切りが互いに消長を繰り返す。誰も安定させられない。ハーディンの言葉を借りれば、それは「運命の不可避性(the inevitableness of destiny)」である。
脱出の条件
しかし、論文は一筋の出口も残している。
振動が内部均衡点(interior fixed point)に収束するかどうかは、枯渇状態でのペイオフ構造に依存する。ワイツらは $n=0$ のときのあらゆるペイオフ順序を分析し、一枚の美しい相図(論文 Fig. 5、七つの領域、七つの運命)にまとめ上げた。
核心の条件は一つの不等式で表せる。
$$\frac{P_1 - S_1}{T_1 - R_1} > \frac{S_0 - P_0}{R_0 - T_0}$$
平たく言えば、協力者が悪い環境で「他者を助ける」ことの利益が十分に大きいとき、つまり、皆が裏切っている中で協力を選ぶペイオフが十分に高いとき、システムは中程度の環境状態に安定的に落ち着くことができる。ヘテロクリニック・サイクルは消え、悲劇は回避される。
どん底のときに手を差し伸べる者が多ければ多いほど、このシステムは繰り返し崩壊することが少なくなる。
この結論は、何と言うか、数学から導かれた道徳的訓戒のような趣がある。(考えすぎかもしれないが。)
共有地だけの話ではない
論文の考察部では、フィードバック進化ゲームの実例が数多く列挙されている。微生物が鉄を獲得するためにシデロフォア(鉄キレート剤)を分泌する現象——分泌者は協力者であり、環境が鉄欠乏のときは協力が有利だが、鉄が十分になるとただ乗り屋が現れる。ワクチン接種もそうだ——感染が流行しているときは皆が接種を望むが、接種率が上がると逆に誰も接種しなくなる(Bauch & Earn, 2004)。水資源管理も同様だ——豊水年には誰も節水を考えないが、渇水年になってから節約してもすでに手遅れである。
これらすべてのシステムに共通する特徴。個体の合理的行動が環境を変え、環境が今度は逆に「合理性」の定義そのものを塗り替えるのだ。
従来の繰り返し囚人のジレンマが頼りにしていたのは「記憶」だった。相手が前回何をしたかを覚えておき、次はそれに報いる。しっぺ返し戦略である。ワイツの枠組みには、いかなる個体の記憶も必要ない。環境そのものが記憶なのだ。草は、踏まれたことを覚えている。
Instead, a feedback-evolving game changes with time as a direct result of the accumulated actions of the populations.
個体の行動の蓄積が、「記憶する」環境を構成するのである。
この一節を読んだとき、頭の中に何度も浮かんだのは、前回のブログ記事で書いた二つのモデルだった。モデル1は即時選別——そのステップのペイオフを見る。モデル2は履歴選別——過去に蓄積されたペイオフを見る。自然淘汰がどちらなのかはわからない、と当時私は書いた。
ワイツのモデルは、第三の可能性を示してくれた。「どの時間枠で見るか」ではない。「ペイオフそのものが何によって定義されるか」なのだ。
適応度は、どれだけの個体が協力しているかだけでは決まらない。それは従来のレプリケーターダイナミクスが射程に入れていたもののすべてだったが。適応度は現在の環境状態にも依存し、そして環境状態そのものが協力者比率の履歴の積分なのだ。戦略が一歩踏み出せば、舞台が揺れる。舞台が揺れれば、次の一歩も変わる。これは単純な「即時か履歴か」という対立ではない。戦略と環境が、永遠に終わることのない双人舞を踊っているのである。
統計力学の言葉のほうが正確かもしれない。これは非平衡定常状態(non-equilibrium steady state)だ。システムは決して平衡に達することなく、永遠に流れ続ける。草は伸び、牛は食べ、ペイオフは変わり、戦略は追いかける。問題を一挙に解決してくれる「正しい」戦略など、どこにも存在しない。
草の道徳
ハーディンの原文はこうだ。共有地の悲劇に技術的解決策(technical solution)はなく、ただ「相互に合意した相互強制(mutual coercion, mutually agreed upon)」に頼るしかない、と。
だが、もし環境そのものがあなたの選択に応じて変化するのだとしたら、本当の問題は「いかに協力を強制するか」ではない。「いかに変動の中でレジリエンス(回復力)を維持するか」なのである。永遠に協力し続ける必要はない。ワイツのモデルが教えてくれるのは、永遠の協力でも安定しないということだ。裏切り者は、あなたが最も成功した瞬間に必ず付け入ってくる。必要なのは、どん底のときに何本も手を差し伸べ、システムを少しばかり引き戻すことだ。十分に引き戻せば、ヘテロクリニック・サイクルは崩壊し、安定した内部均衡点(stable interior fixed point)へと収束する。
裏切り者を根絶することではない。裏切り者がやって来たときにも、草がまだ十分に伸びていることだ。
草は呼吸している。
唯一できることは、その根を踏み千切らないことだ。
参考文献
Weitz, A. (2016). An oscillating tragedy of the commons in replicator dynamics with game-environment feedback PNAS.