打分矩阵:序列比对的精妙算盘
如果说序列比对是解读生命密码的艺术,那么打分矩阵(scoring matrix)就是它的调色盘。比对并不仅仅是看两个序列的字符是否“对得上”,还需要考虑生物学上的意义——哪些替换是自然界常见的?哪些匹配最能反映进化关系?这时,打分矩阵便登场了。
打分矩阵的意义:不止是简单的分与扣
序列比对中的“相似性”并非一概而论。以蛋白质为例,氨基酸的化学性质、功能、结构对其进化替换的频率有着重要影响。比如,亮氨酸(Leucine, L)替换为异亮氨酸(Isoleucine, I)相对较常见,因为它们都是疏水性氨基酸,结构相似。而亮氨酸被替换为带正电的赖氨酸(Lysine, K)就很少发生,这可能会破坏蛋白质功能。
于是,打分矩阵的任务便是为这些替换赋予一个合适的分值,使比对结果既符合生物学事实,又有助于后续的分析。
常用的打分矩阵:BLOSUM与PAM
PAM矩阵:进化的“时间机器”
PAM(Point Accepted Mutation)矩阵是最早的蛋白质打分矩阵之一。它以“单位进化时间”(1 PAM,相当于每100个氨基酸中约有1个发生了可接受的突变)为基础,计算出氨基酸替换的可能性。PAM-1 自乘 n 次,可以得到 PAM-n ,表示发生了更多次突变。
PAM矩阵的核心思想是:通过研究近亲物种的蛋白质序列,推测不同氨基酸在进化中的替换频率。
-
PAM1:适用于非常相似的序列。
-
PAM250:适用于较远亲缘关系的序列。
简单说,PAM矩阵可以被看作一台时间机器,帮我们回溯序列在进化中的替换轨迹。随着PAM数值增加,比对倾向于寻找远亲的关系。
BLOSUM矩阵:基于当下的“对比镜”
BLOSUM(BLOcks SUbstitution Matrix)矩阵则更关注当前的序列相似性,尤其适用于远亲序列的比对。它通过分析保守序列区块(blocks)中的氨基酸替换频率得出得分。
与PAM相比,BLOSUM更加直接,因为它不假设任何进化模型,而是基于实际观测数据生成。BLOSUM 矩阵的编号,如 BLOSUM 80 中的 80,代表这个矩阵是由一致度(identity) ≥80% 的序列计算而来的。同理,BLOSUM 62 是指这个矩阵是由一致度 ≥62% 的序列计算而的。
-
BLOSUM62:最常用,适用于大多数情况。
-
BLOSUM80:更适合相似性较高的序列。
-
BLOSUM45:适合更远亲的序列比对。
因此,BLOSUM 后面跟一个小数字的矩阵适合用于比较相似度低的序列,也就是亲缘关系远的序列;而 BLOSUM 后面跟一个大数字的矩阵适合比较相似度高的序列,也就是亲缘关系近的序列。
选择矩阵的艺术:远亲与近邻
如何选择合适的矩阵?关键在于序列的“亲疏”。
相似序列(近亲):选择细致的矩阵,如PAM1或BLOSUM80,强调微小差异。
差异较大序列(远亲):选择更粗略的矩阵,如PAM250或BLOSUM45,允许更多替换。
这一选择直接影响比对结果的敏感性与特异性。近亲需要精确,远亲则需包容。
如何解读打分矩阵?
下表为 PAM-250 矩阵,对角线上的数值为匹配氨基酸的得分。在其他位置上 ≥0 的得分代表对应的一对氨基酸为相似氨基酸,<0 的是不相似的氨基酸。
A | B | C | D | E | F | G | H | I | K | L | M | N | P | Q | R | S | T | U | V | W | X | Y | Z | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | 2 | |||||||||||||||||||||||
B | 0 | 3 | ||||||||||||||||||||||
C | -2 | -4 | 12 | |||||||||||||||||||||
D | 0 | 3 | -5 | 4 | ||||||||||||||||||||
E | 0 | 3 | -5 | 3 | 4 | |||||||||||||||||||
F | -3 | -4 | -4 | -6 | -5 | 9 | ||||||||||||||||||
G | 1 | 0 | -3 | 1 | 0 | -5 | 5 | |||||||||||||||||
H | -1 | 1 | -3 | 1 | 1 | -2 | -2 | 6 | ||||||||||||||||
I | -1 | -2 | -2 | -2 | -2 | 1 | -3 | -2 | 5 | |||||||||||||||
K | -1 | 1 | -5 | 0 | 0 | -5 | -2 | 0 | -2 | 5 | ||||||||||||||
L | -2 | -3 | -6 | -4 | -3 | 2 | -4 | -2 | 2 | -3 | 6 | |||||||||||||
M | -1 | -2 | -5 | -3 | -2 | 0 | -3 | -2 | 2 | 0 | 4 | 6 | ||||||||||||
N | 0 | 2 | -4 | 2 | 1 | -3 | 0 | 2 | -2 | 1 | -3 | -2 | 2 | |||||||||||
P | 1 | -1 | -3 | -1 | -1 | -5 | 0 | 0 | -2 | -1 | -3 | -2 | 0 | 6 | ||||||||||
Q | 0 | 1 | -5 | 2 | 2 | -5 | -1 | 3 | -2 | 1 | -2 | -1 | 1 | 0 | 4 | |||||||||
R | -2 | -1 | -4 | -1 | -1 | -4 | -3 | 2 | -2 | 3 | -3 | 0 | 0 | 0 | 1 | 6 | ||||||||
S | 1 | 0 | 0 | 0 | 0 | -3 | 1 | -1 | -1 | 0 | -3 | -2 | 1 | 1 | -1 | 0 | 2 | |||||||
T | 1 | 0 | -2 | 0 | 0 | -3 | 0 | -1 | 0 | 0 | -2 | -1 | 0 | 0 | -1 | -1 | 1 | 3 | ||||||
U | 0 | -1 | -3 | -1 | -1 | -2 | -1 | -1 | -1 | -1 | -1 | -1 | 0 | -1 | -1 | -1 | 0 | 0 | -1 | |||||
V | 0 | -2 | -2 | -2 | -2 | -1 | -1 | -2 | 4 | -2 | 2 | 2 | -2 | -1 | -2 | -2 | -1 | 0 | -1 | 4 | ||||
W | -6 | -5 | -8 | -7 | -7 | 0 | -7 | -3 | -5 | -3 | -2 | -4 | -4 | -6 | -5 | 2 | -2 | -5 | -4 | -6 | 17 | |||
X | 0 | -1 | -3 | -1 | -1 | -2 | -1 | -1 | -1 | -1 | -1 | -1 | 0 | -1 | -1 | -1 | 0 | 0 | -1 | -1 | -4 | -1 | ||
Y | -3 | -3 | 0 | -4 | -4 | 7 | -5 | 0 | -1 | -4 | -1 | -2 | -2 | -5 | -4 | -4 | -3 | -3 | -2 | -2 | 0 | -2 | 10 | |
Z | 0 | 2 | -5 | 3 | 3 | -5 | 0 | 2 | -2 | 0 | -3 | -2 | 1 | 0 | 3 | 0 | 0 | -1 | -1 | -2 | -6 | -1 | -4 | 3 |
打分矩阵的表格看似复杂,但实质上很直观:
-
正分:代表替换较为常见,进化上“被接受”。
-
负分:替换较为罕见,可能对功能有害。
分值越高,表示替换更可能发生或更保守。
核苷酸序列的简单模型
相比蛋白质,核苷酸序列的打分体系简单许多。通常采用恒定的匹配与错配分值,如等价矩阵:相同核苷酸之间的匹配得分为 1,不同核苷酸间的替换得分为 0。
由于等价矩阵不含有碱基的理化信息和不区别对待不同的替换,在实际的序列比较中很少使用,一般只用于理论计算。这种简单模型适用于短序列的快速比对,但对于复杂比对,仍需要改进模型引入更多生物学背景,如转换和颠换等。
打分矩阵:序列比对的桥梁
通过打分矩阵,科学家得以在序列的无尽组合中寻找进化的蛛丝马迹。矩阵的每一个分值,既是自然界千百万年进化的浓缩,又是我们理解生命复杂性的钥匙。或许,打分矩阵是生物信息学里的一点“小数学”,但正是这些细腻的规则,让序列比对从一堆“字符匹配”进化为洞悉生命演化的科学。