一个点的代价 / 读 Owen(2020)

Sobol’ 序列的第一个点永远是原点——$(0, 0, \dots, 0)$。

很多人觉得这个点不对劲。它刚好落在单位超立方体的角落里。如果你要用 Sobol’ 点做 Gaussian 分布的变换，逆正态 CDF 会把原点映射到 $-\infty$。这显然没法用。于是大家很自然地把第一个点丢掉，从第二个点开始取 $n$ 个。

这个操作叫 burn-in，在 MCMC 里是标准动作。问题是——Sobol’ 序列不是 Markov chain。

Art B. Owen 在 2020 年写了一篇短文，标题干脆利落：On dropping the first Sobol’ point。结论也干脆利落：别丢。

丢掉第一个点，你的 QMC 估计的均方根误差（RMSE）可能从 $O(n^{-3/2})$ 退化到 $O(n^{-1})$——在 $n$ 很大的时候，差别大约是 $\sqrt{n}$ 倍。

QMC 为什么比 MC 好

先回顾一下基本设定。

Monte Carlo（MC）的 RMSE 是 $O(n^{-1/2})$，对任何 $f \in L^2$ 都成立。这个收敛速度稳如老狗，但慢。

Quasi-Monte Carlo（QMC）试图做得更好。它不随机抽样，而是用精心构造的低差异序列（low-discrepancy sequence）来填满 $[0,1]^d$。Sobol’ 序列是最常用的一种。

Sobol’ 序列在 base 2 下是一个 $(t,d)$-sequence。这意味着它的前 $2^m$ 个点构成一个 $(t,m,d)$-net——对于某些被称为 elementary interval 的特殊长方体，里面的点数恰好和体积成正比。

举个二维的例子：前 16 个 Sobol’ 点会把 $[0,1]^2$ 均匀地填满所有 $1/4 \times 1/4$ 的格子，每个格子刚好一个点。$1 \times 1/16$ 的竖条，每个也刚好一个点。$1/16 \times 1$ 的横条，同理。16 个点平衡了 80 个不同形状的 elementary interval。

这就是 QMC 比 MC 好的根源——不是随机均匀，而是结构性的均匀。MC 的均匀是靠大数定律逼出来的，QMC 的均匀是设计出来的。

在这个条件下，scrambled Sobol’ 点的 RMSE 可以达到 $O(n^{-3/2}(\log n)^{(d-1)/2})$，远好于 MC 的 $O(n^{-1/2})$。

丢掉原点，丢掉结构

现在回到那个操作：丢掉第一个点。

论文的 Figure 1 画得很清楚。前 16 个 Sobol’ 二维点构成一个完美的 $(0,4,2)$-net。原点 $(0,0)$ 是其中之一（画成了同心圆）。

把它丢掉，换上第 17 个点——$(1/32, 17/32)$。

结果呢？左下角的 $1/4 \times 1/4$ 格子空了，它正上方的格子里有了两个点。$(0,4,2)$-net 的性质——没了。数字网（digital net）结构的分析基础——没了。

Owen 把这个问题用一句话说透了：

$$\hat{\mu}_{\boldsymbol{x},2} = \hat{\mu}_{\boldsymbol{x},1} + \frac{1}{n}\big(f(\boldsymbol{x}_{n+1}) - f(\boldsymbol{x}_1)\big)$$

丢掉第一个点之后，新的估计等于原估计加上一个 $O(1/n)$ 的修正项。当原估计的误差是 $O(n^{-3/2})$ 时，这个修正项反而成了主导——丢掉第一个点不仅没有帮到你，还拖慢了整个收敛速度。

对 plain MC 来说，丢掉一个点无关痛痒。对 QMC 来说，丢掉一个点等于丢掉整个结构的数学保证。你以为只是在做 burn-in，实际上是把一台精密仪器砸了一个零件。

不是推测，是实测

Owen 在论文里跑了四个例子，三个合成的加一个真实的。

第一个例子：$g_0(\boldsymbol{x}) = \sum_{j=1}^d (e^{x_j} - e + 1)$，一个光滑的加性函数，$\mu=0$。用 scrambled Sobol’ 保留第一个点，RMSE 紧贴 $n^{-3/2}$ 的参考线。去掉第一个点，RMSE 紧贴 $n^{-1}$。

第二个例子：$g_1(\boldsymbol{x}) = (\sum_{j=1}^d x_j)^2$，有二阶交互。结果一模一样——保留：$n^{-3/2}$，丢掉：$n^{-1}$。

第三个例子：$g_2(\boldsymbol{x}) = \prod_{j=1}^d (e^{x_j} - e + 1)$，纯 $d$ 维交互，更难搞。丢掉第一个点的劣势没那么夸张了，但保留仍然明显更好。

第四个例子是真实世界的：一个十维的飞机机翼重量函数（wing weight function），来自实际的物理制造模型。保留第一个点的标准差明显低于丢掉后的 $O(n^{-1})$ 趋势线。

没有反例。没有一个例子中去掉第一个点会更好。

scrambling 才是正解

如果你担心原点是 $(0,0,\dots,0)$ 带来的问题——Gaussian 变换、Bayesian optimization 的 surrogate model、各种需要非零输入的场合——正确的做法不是丢掉它，是 scramble 它。

Scrambling 的做法是：对 Sobol’ 序列的每个点施加一个嵌套均匀扰动（nested uniform scramble）。扰动之后：

每个点 $\boldsymbol{x}_i$ 仍然服从 $\text{U}[0,1]^d$
整个点集以概率 1 仍然是一个 $(t,d)$-sequence
原点不再在边界上，而是变成单位方块内的一个随机均匀点

一口气解决了两个问题：原点不再是问题，数字网结构还在。

这也是 RQMC（Randomized QMC）的标准做法——scrambling 不仅消除了原点问题，还提供了误差估计的框架。你可以跑 $R$ 个独立的 scrambled 副本，用它们的方差来估计 RMSE。这在 plain QMC 里是做不到的，因为 QMC 本身是确定性的。

QMC 不是 MC

Owen 在 Discussion 里写了这样一段话：

MC and QMC and RQMC points all come as an $n \times d$ matrix of numbers in $[0,1]$ that we can then pipe through several functions … Despite that similarity, there are sharp differences in the properties of QMC and RQMC points that affect how we should use them.

这句话轻描淡写，但分量很重。QMC 和 MC 的输入看起来一模一样——都是 $n \times d$ 的矩阵。你把它们塞进同一个函数，MC 用 np.random.rand，QMC 用 scipy.stats.qmc.Sobol。表面上看只是换了一个随机数生成器。

但它们的"使用说明书"完全不同。

MC 不挑样本量。1000 和 1024 没区别。QMC 挑——Sobol’ 序列的最佳样本量是 2 的幂。Owen 的原文写得很直接：Using 1000 points of a Sobol’ sequence may well be less accurate than using 512。少跑 488 个点反而更准——这在 MC 的世界里是不可想象的。

MC 可以 thinning。MCMC 里每隔 $k$ 步取一个点，省存储空间。QMC 不能——把 van der Corput 序列每隔一个点取出来，你会得到所有点都在 $[0,1/2)$ 或者都在 $[1/2,1)$。一半的积分区间空了。

MC 可以 burn-in。Sobol’ 序列的第一个点是原点，不好看，丢掉——然后你就把 $(t,m,d)$-net 丢掉了。

这些 MC 视角下的"无害操作"，在 QMC 的框架里每一个都是性能杀手。

论文还点名了 MATLAB R2020a 的 sobolset 函数，里面居然提供了 Skip 和 Leap 两个参数，分别对应 burn-in 和 thinning。（好在默认值是关掉的。）Owen 对此的评价耐人寻味：It is not clear how one should use them safely. 翻译一下：我们也不知道怎么安全地用，所以你最好别用。

细思恐极

这篇论文的核心论点其实非常简单——别丢第一个点。一个七页的 proceedings paper，论证了一个单一的建议。

但它的说服力不在于复杂，而在于精准。几个合成函数加一个真实案例，log-log 图上的两条参考线，干干净净地把"丢掉第一个点会怎样"讲清楚了。没有模棱两可的"可能"、“或许”——RMSE 从 $n^{-3/2}$ 退化到 $n^{-1}$，硬数字。

我读这篇论文的时候想到一个更普遍的困境：很多工具在被"移植"到新领域时，使用者会带着旧领域的习惯。MCMC 出身的统计学家用 Sobol’ 序列，自然就想做 burn-in 和 thinning。写 sobolset 的 MATLAB 工程师，顺手就加了 Skip 和 Leap 参数。

习惯是一件很可怕的事。它让你觉得一切都在掌控中，直到有人画了一张 log-log 图告诉你，你一直在用一个 $\sqrt{n}$ 倍的减速器。

话说回来，我自己写 QMC 代码的时候，干的蠢事一定比丢掉第一个点更离谱。只是没人帮我画 log-log 图而已。