序列比对的初步探索:从生命代码说起

你可曾想过,我们身体里那片看不见的“生命代码”,究竟是如何被科学家破译并解读的?这些代码,正是DNA、RNA和蛋白质序列——由四种碱基或二十种氨基酸排列而成的字符串。乍一听,颇有几分像计算机的二进制,但它们记录的却是生命的奥秘。

生命代码的两大主角:核酸与蛋白

要比对生命序列,首先得搞清楚它们长什么样。DNA序列就像一本双行文字的书,每行是由A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)四种字符组成的“单词”。RNA稍有不同,将T换成了U(尿嘧啶)。蛋白质序列更为复杂,其“字符表”扩展到了20种氨基酸,由它们的缩写字母表示,比如A是丙氨酸,L是亮氨酸。这些代码的顺序决定了基因的功能,就像一句话的词序决定了它的意义。

破译生命代码:比对与评分

试想,你手里有一段陌生的DNA序列,想知道它的作用是什么。最简单的破译方法,就是序列比对(sequence alignment)。把它与已知序列“对齐”,看看两段或多段序列“长得像不像”。

相似性背后可能藏着共同的祖先、相似的功能,甚至是进化的故事。是否能够在已知的序列中找到“亲戚”——也许它与某个已知功能的基因高度相似,那它的作用也就呼之欲出了。

两段序列相似,究竟有多相似?科学家必须找到一种方法量化这种关系。最简单的,一致度(identity)是指相同字符占序列长度的比例。而序列比对发展出一套更加科学的“打分体系”:

  1. 匹配得分(Match Score):两个位置的字符相同,得分。
  2. 错配惩罚(Mismatch Penalty):字符不同,扣分。
  3. 缺口惩罚(Gap Penalty):如果需要插入一个“空白”(gap)来对齐,则扣更多的分。

相似度(similarity)指的是,两个序列在对应位置上,匹配字符的数目和占总长度的百分比。例如两条序列经过比对后,

有 4 处一致,1 处相似,1 处缺口。

这套评分系统,让科学家能够快速评估比对结果的优劣。

有趣的“进化密码”

序列比对的过程,常让人联想到侦探解谜:某些序列间微妙的相似性,可能是亿万年前“进化的遗迹”。比对不仅能解读功能,还能追溯生命的家谱。地球上形形色色的生物,从病毒到人类,遗传信息中常留有彼此间的“亲缘证据”。这些遗传信息的比对,能够为我们绘制出一幅生命演化的壮丽画卷。