selectivity 是一道概率题

Wed, 17 Sep 2025 00:00:00 +0000

EXPLAIN 跑出来的执行计划里，有一列叫 rows。

刚开始学 PostgreSQL 的时候，我以为这列是随便填的——反正真正执行的时候数据库会知道实际行数。后来发现不是。优化器在选执行计划时根本没看过真实数据，它靠的是 rows 这一列的估计值。估计错了，索引选错，连接顺序选错，整个查询慢得像在泥里走路。

那这个数字哪来的？

答案藏在 pg_stats 系统视图里，藏在 ANALYZE 命令收集的统计信息里。但统计信息本身不会直接告诉你"这个 WHERE 条件会命中多少行"——中间还隔着一层叫 selectivity 的东西。

selectivity 本质上不是数据库魔法，是一个很典型的统计估计问题。

翻译成统计语言：已知样本统计量，估计总体里满足条件事件的概率。

$$ \text{selectivity} = P(\text{条件成立}) $$

数据库里遇到的 $P(X=x)$、$P(X>a)$、$P(A \cap B)$，都是概率。优化器干的事，就是用 ANALYZE 采的样本，去猜这些概率。

均匀分布是最朴素的假设

从最简单的情况开始。

一张 users 表，有 age 列，总行数 $N = 1000000$。查询：

WHERE age = 20

ANALYZE 之后，pg_stats 里记着 n_distinct = 100，意思是估计有 100 个不同年龄。

PostgreSQL 默认先假设均匀分布。

$$ P(\text{age} = 20) = \frac{1}{100} = 0.01 $$

selectivity = 0.01，预计返回 $1000000 \times 0.01 = 10000$ 行。