计算生物学

来自计算思维百科
跳转至: 导航搜索

计算生物学是指开发和应用数据分析及理论的方法、数学建模、计算机仿真技术等。当前,生物学数据量和复杂性不断增长,每14个月基因研究产生的数据就会翻一番,单单依靠观察和实验已难以应付。因此,必须依靠大规模计算模拟技术,从海量信息中提取最有用的数据。

计算方法

各种计算方法已开始广泛应用于药物研究,以及研发创新的、具有自主知识产权的疾病靶标和信息学分析系统等。同时,运用计算生物学,科学家有望直接破译在核酸序列中的遗传语言规律,模拟生命体内的信息流过程,从而认识代谢、发育、进化等一系列规律,最终为人类造福。

技术发展

20世纪80年代计算机科学与技术发展,以及生物化学、分子生物学的系统论建立,1989年在美国召开了生物化学系统论与生物数学的国际会议,讨论了生物系统理论的计算机模型研究方法,开创了计算生物学的发展,属于早期计算系统生物学家的研讨会;因此,后来改为国际分子系统生物学会议(ICMSB,参见第10届会议),第11届国际分子系统生物学会议在中科院-德国马普上海计算生物学研究所成功举办。化学生物学、计算生物学与合成生物学,构成系统生物学与系统生物工程的实验数据、数学模型与工程设计的方法体系,即系统生物技术,带来了21世纪系统生物科学的全球迅速发展时期。

重要作用

当前,计算生物学和生物信息学在研究的方法和对象上已无显著区别,在基因与蛋白质的计算机辅助设计、比较基因组分析、生物系统模型、细胞信号传导与基因调控网络研究、专家数据库、生物软件包等领域发挥重要作用。

研究内容

计算生物学的研究内容主要包括以下几个方面:

序列比对

序列比对所研究的基本问题是两个或多个序列间的相似性。序列比对是计算生物学的基本问题之一。对序列的两两比对,已经有了基于动态规划的较成熟的算法以及建立在此基础上的软件包BLAST和FASTA。对于两个序列的局部比对问题,可以用Smith-Waterman算法来解决。多重序列的比对目前还缺乏快速并且十分有效的算法。

序列比对是生物信息学的基本组成和重要基础。序列比对的基本思想是,基于生物学中序列决定结构,结构决定功能的普遍规律,将核酸序列和蛋白质一级结构上的序列都看成由基本字符组成的字符串,检测序列之间的相似性,发现生物序列中的功能、结构和进化的信息。

序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。在残基-残基比对中,可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的,例如它们可能是酶的活性位点残基,形成二硫键的半胱氨酸残基,与配体结合部位的残基,与金属离子结合的残基,形成特定结构motif的残基等等。但并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。因此,如果两个序列有显著的保守性,要确定二者具有共同的进化历史,进而认为二者有近似的结构和功能还需要更多实验和信息的支持。通过大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此粗略的说,如果序列之间的相似性超过30%,它们就很可能是同源的。

值得注意的是,在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。一级结构序列相似的分子在高级结构和功能上并不必然有相似性,反之,序列不相似的分子,可能折叠成相同的空间形状,并具有相同的功能。一般的序列比对主要是针对一级结构序列上的比较。

基因识别

基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基因组研究的基础。基因识别的主要手段是基于活的细胞或生物的实验。通过对若干种不同基因的同源重组的速率的统计分析,我们能够获知它们在染色体上的顺序。若进行大量类似的分析,我们可以确定各个基因的大致位置。现在,由于人类已经获得了巨大数量的基因组信息,依靠较慢的实验分析已不能满足基因识别的需要,而基于计算机算法的基因识别得到了长足的发展,成为了基因识别的主要手段。

识别具有生物学功能的片段与判定该片段(或其对应的产品)的功能是两个不同的概念,后者通常需要通过基因敲除等的实验手段来决定。不过,生物信息学的前沿研究正在使得由基因序列预测基因功能变得愈发可能。

人类长达30个亿DNA序列中只有3%-5%是基因。阐明人体中全部基因的位置,结构,功能,表达等,计算能力扮演了一个重要的角色,一个重要应用就是模拟基因表达数据集。

蛋白质结构预测

蛋白质结构预测(Protein structure prediction)是蛋白质的的氨基酸序列中的预测蛋白质的三维结构。也就是说,从蛋白质一级结构预测它的折叠和二级,三级和四级的蛋白质结构。结构预测与蛋白质设计的反问题有着根本的不同。蛋白质结构预测是生物信息学与理论化学所追求的最重要目标之一;它在医学上(例如,在药物设计)和在生物技术上(例如,新的酶的设计)都是非常重要的。每隔两年,当前方法的性能在蛋白质结构预测技术的关键测试(CASP)实验中被评测。蛋白质结构预测的网络服务器连续的评测是由社区项目CAMEO3D执行。

蛋白质的很多特性,功能是和它实际的三维结构及其相关的,任意给一段蛋白质序列,生物学家就可以用传统的生物学方法求出其结构,但这不但成本高而且费时,计算生物学的蛋白质结构预测工具通过序列分析可以直接得出其结构,如,CYTO:人类T细胞中的因果蛋白质信号网络。

生物数据库

生物学数据量不断增长,每14个月基因研究产生的数据就会翻一番,海量的数据单单依靠观察和实验已无能为力

传统的数据库技术这时显示了强大的威力,例如CATH蛋白结构分类数据库,果蝇交互数据库。

随着科学技术的发展,计算生物学的应用也越来越广泛,如对生物等效性的研究,皮肤的电阻,骨关节炎的治疗,哺乳动物的睡眠等等。

计算生物学与生物信息学的区别与联系

某些人将计算生物学作为生物信息学的同义词处理;但是另外一些人认为计算生物学和生物信息学应当被作为不同的条目处理,因为生物信息学主要侧重于对生物学中所得信息的采集、存贮、分析处理与可视化方面,而计算生物学主要侧重于使用计算技术对生物学问题进行研究方面。

参考文献

百度百科:计算生物学基因识别序列比对蛋白质的结构预测

维基百科:计算生物学