序列比对

来自计算思维百科
跳转至: 导航搜索

序列比对所研究的基本问题是两个或多个序列间的相似性。序列比对是计算生物学的基本问题之一。对序列的两两比对,已经有了基于动态规划的较成熟的算法以及建立在此基础上的软件包BLAST和FASTA。对于两个序列的局部比对问题,可以用Smith-Waterman算法来解决。多重序列的比对目前还缺乏快速并且十分有效的算法。

序列比对是生物信息学的基本组成和重要基础。序列比对的基本思想是,基于生物学中序列决定结构,结构决定功能的普遍规律,将核酸序列和蛋白质一级结构上的序列都看成由基本字符组成的字符串,检测序列之间的相似性,发现生物序列中的功能、结构和进化的信息。

序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。在残基-残基比对中,可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的,例如它们可能是酶的活性位点残基,形成二硫键的半胱氨酸残基,与配体结合部位的残基,与金属离子结合的残基,形成特定结构motif的残基等等。但并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。因此,如果两个序列有显著的保守性,要确定二者具有共同的进化历史,进而认为二者有近似的结构和功能还需要更多实验和信息的支持。通过大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此粗略的说,如果序列之间的相似性超过30%,它们就很可能是同源的。

值得注意的是,在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。一级结构序列相似的分子在高级结构和功能上并不必然有相似性,反之,序列不相似的分子,可能折叠成相同的空间形状,并具有相同的功能。一般的序列比对主要是针对一级结构序列上的比较。