打分矩阵:序列比对的精妙算盘

如果说序列比对是解读生命密码的艺术,那么打分矩阵(scoring matrix)就是它的调色盘。比对并不仅仅是看两个序列的字符是否“对得上”,还需要考虑生物学上的意义——哪些替换是自然界常见的?哪些匹配最能反映进化关系?这时,打分矩阵便登场了。

打分矩阵的意义:不止是简单的分与扣

序列比对中的“相似性”并非一概而论。以蛋白质为例,氨基酸的化学性质、功能、结构对其进化替换的频率有着重要影响。比如,亮氨酸(Leucine, L)替换为异亮氨酸(Isoleucine, I)相对较常见,因为它们都是疏水性氨基酸,结构相似。而亮氨酸被替换为带正电的赖氨酸(Lysine, K)就很少发生,这可能会破坏蛋白质功能。

于是,打分矩阵的任务便是为这些替换赋予一个合适的分值,使比对结果既符合生物学事实,又有助于后续的分析。

常用的打分矩阵:BLOSUM与PAM

PAM矩阵:进化的“时间机器”

PAM(Point Accepted Mutation)矩阵是最早的蛋白质打分矩阵之一。它以“单位进化时间”(1 PAM,相当于每100个氨基酸中约有1个发生了可接受的突变)为基础,计算出氨基酸替换的可能性。PAM-1 自乘 n 次,可以得到 PAM-n ,表示发生了更多次突变。

PAM矩阵的核心思想是:通过研究近亲物种的蛋白质序列,推测不同氨基酸在进化中的替换频率。

简单说,PAM矩阵可以被看作一台时间机器,帮我们回溯序列在进化中的替换轨迹。随着PAM数值增加,比对倾向于寻找远亲的关系。

BLOSUM矩阵:基于当下的“对比镜”

BLOSUM(BLOcks SUbstitution Matrix)矩阵则更关注当前的序列相似性,尤其适用于远亲序列的比对。它通过分析保守序列区块(blocks)中的氨基酸替换频率得出得分。

与PAM相比,BLOSUM更加直接,因为它不假设任何进化模型,而是基于实际观测数据生成。BLOSUM 矩阵的编号,如 BLOSUM 80 中的 80,代表这个矩阵是由一致度(identity) ≥80% 的序列计算而来的。同理,BLOSUM 62 是指这个矩阵是由一致度 ≥62% 的序列计算而的。

因此,BLOSUM 后面跟一个小数字的矩阵适合用于比较相似度低的序列,也就是亲缘关系远的序列;而 BLOSUM 后面跟一个大数字的矩阵适合比较相似度高的序列,也就是亲缘关系近的序列。

选择矩阵的艺术:远亲与近邻

如何选择合适的矩阵?关键在于序列的“亲疏”。

相似序列(近亲):选择细致的矩阵,如PAM1或BLOSUM80,强调微小差异。

差异较大序列(远亲):选择更粗略的矩阵,如PAM250或BLOSUM45,允许更多替换。

这一选择直接影响比对结果的敏感性与特异性。近亲需要精确,远亲则需包容。

如何解读打分矩阵?

下表为 PAM-250 矩阵,对角线上的数值为匹配氨基酸的得分。在其他位置上 ≥0 的得分代表对应的一对氨基酸为相似氨基酸,<0 的是不相似的氨基酸。

A B C D E F G H I K L M N P Q R S T U V W X Y Z
A 2
B 0 3
C -2 -4 12
D 0 3 -5 4
E 0 3 -5 3 4
F -3 -4 -4 -6 -5 9
G 1 0 -3 1 0 -5 5
H -1 1 -3 1 1 -2 -2 6
I -1 -2 -2 -2 -2 1 -3 -2 5
K -1 1 -5 0 0 -5 -2 0 -2 5
L -2 -3 -6 -4 -3 2 -4 -2 2 -3 6
M -1 -2 -5 -3 -2 0 -3 -2 2 0 4 6
N 0 2 -4 2 1 -3 0 2 -2 1 -3 -2 2
P 1 -1 -3 -1 -1 -5 0 0 -2 -1 -3 -2 0 6
Q 0 1 -5 2 2 -5 -1 3 -2 1 -2 -1 1 0 4
R -2 -1 -4 -1 -1 -4 -3 2 -2 3 -3 0 0 0 1 6
S 1 0 0 0 0 -3 1 -1 -1 0 -3 -2 1 1 -1 0 2
T 1 0 -2 0 0 -3 0 -1 0 0 -2 -1 0 0 -1 -1 1 3
U 0 -1 -3 -1 -1 -2 -1 -1 -1 -1 -1 -1 0 -1 -1 -1 0 0 -1
V 0 -2 -2 -2 -2 -1 -1 -2 4 -2 2 2 -2 -1 -2 -2 -1 0 -1 4
W -6 -5 -8 -7 -7 0 -7 -3 -5 -3 -2 -4 -4 -6 -5 2 -2 -5 -4 -6 17
X 0 -1 -3 -1 -1 -2 -1 -1 -1 -1 -1 -1 0 -1 -1 -1 0 0 -1 -1 -4 -1
Y -3 -3 0 -4 -4 7 -5 0 -1 -4 -1 -2 -2 -5 -4 -4 -3 -3 -2 -2 0 -2 10
Z 0 2 -5 3 3 -5 0 2 -2 0 -3 -2 1 0 3 0 0 -1 -1 -2 -6 -1 -4 3

打分矩阵的表格看似复杂,但实质上很直观:

分值越高,表示替换更可能发生或更保守。

核苷酸序列的简单模型

相比蛋白质,核苷酸序列的打分体系简单许多。通常采用恒定的匹配与错配分值,如等价矩阵:相同核苷酸之间的匹配得分为 1,不同核苷酸间的替换得分为 0。

由于等价矩阵不含有碱基的理化信息和不区别对待不同的替换,在实际的序列比较中很少使用,一般只用于理论计算。这种简单模型适用于短序列的快速比对,但对于复杂比对,仍需要改进模型引入更多生物学背景,如转换和颠换等。

打分矩阵:序列比对的桥梁

通过打分矩阵,科学家得以在序列的无尽组合中寻找进化的蛛丝马迹。矩阵的每一个分值,既是自然界千百万年进化的浓缩,又是我们理解生命复杂性的钥匙。或许,打分矩阵是生物信息学里的一点“小数学”,但正是这些细腻的规则,让序列比对从一堆“字符匹配”进化为洞悉生命演化的科学。