序列比对的初步探索：从生命代码说起

你可曾想过，我们身体里那片看不见的“生命代码”，究竟是如何被科学家破译并解读的？这些代码，正是DNA、RNA和蛋白质序列——由四种碱基或二十种氨基酸排列而成的字符串。乍一听，颇有几分像计算机的二进制，但它们记录的却是生命的奥秘。

生命代码的两大主角：核酸与蛋白

要比对生命序列，首先得搞清楚它们长什么样。DNA序列就像一本双行文字的书，每行是由A（腺嘌呤）、T（胸腺嘧啶）、C（胞嘧啶）、G（鸟嘌呤）四种字符组成的“单词”。RNA稍有不同，将T换成了U（尿嘧啶）。蛋白质序列更为复杂，其“字符表”扩展到了20种氨基酸，由它们的缩写字母表示，比如A是丙氨酸，L是亮氨酸。这些代码的顺序决定了基因的功能，就像一句话的词序决定了它的意义。

破译生命代码：比对与评分

试想，你手里有一段陌生的DNA序列，想知道它的作用是什么。最简单的破译方法，就是序列比对（sequence alignment）。把它与已知序列“对齐”，看看两段或多段序列“长得像不像”。

相似性背后可能藏着共同的祖先、相似的功能，甚至是进化的故事。是否能够在已知的序列中找到“亲戚”——也许它与某个已知功能的基因高度相似，那它的作用也就呼之欲出了。

两段序列相似，究竟有多相似？科学家必须找到一种方法量化这种关系。最简单的，一致度（identity）是指相同字符占序列长度的比例。而序列比对发展出一套更加科学的“打分体系”：

匹配得分（Match Score）：两个位置的字符相同，得分。
错配惩罚（Mismatch Penalty）：字符不同，扣分。
缺口惩罚（Gap Penalty）：如果需要插入一个“空白”（gap）来对齐，则扣更多的分。

相似度（similarity）指的是，两个序列在对应位置上，匹配字符的数目和占总长度的百分比。例如两条序列经过比对后，

Sequence1: C V H K A T
Sequence2: C I H K - T

有 4 处一致，1 处相似，1 处缺口。

identity = (4/6)*100% = 67%
similarity = (4+1/6)*100% = 83%

这套评分系统，让科学家能够快速评估比对结果的优劣。

有趣的“进化密码”

序列比对的过程，常让人联想到侦探解谜：某些序列间微妙的相似性，可能是亿万年前“进化的遗迹”。比对不仅能解读功能，还能追溯生命的家谱。地球上形形色色的生物，从病毒到人类，遗传信息中常留有彼此间的“亲缘证据”。这些遗传信息的比对，能够为我们绘制出一幅生命演化的壮丽画卷。

#Molecular Biology #Bioinformatics ...all tags