当前位置 工程之家 基因工程 正文 下一篇:

生物信息学的发展历史

生物信息学自产生以来大致经历了前基因组时代、基因组时代和后基因组时代三个发展阶段。三个阶段虽无明显的界限,却真实地反映了生物信息学整个研究重心的转移变化历程。

(一)前基因组时期

从19世纪开始,人们逐渐认识到蛋白质在生命活动中的重要作用。1953年,沃森和克里克发现了DNA双螺旋的结构,开启了分子生物学时代,使遗传的研究深入到分子层次,“生命之谜”被打开,人们清楚地了解遗传信息的构成和传递途径。此后,一些新兴学科如雨后春笋般出现,这些学科的产生和发展为生物信息学的产生奠定了坚实的基础。1956年在美国田纳西州的盖特林堡召开了首次“生物学中的信息理论研讨会”,一些计算生物学家开始进行生物信息相关研究,尽管当时还没有具体地提出生物信息学的概念,但做了许多生物信息搜集和分析方面的工作。1962年,Zucherkandl和Pauling研究了序列变化与进化之间的关系,开创了一个新的领域——分子进化。随后,通过序列比较确定序列的功能及序列分类关系便成为序列分析的主要工作。1967年,Dayhoff研制出蛋白质序列图集,该图集后来演变为著名的蛋白质信息源(protein information resource,PIR)。20世纪60年代是生物信息学形成的萌芽阶段。

从70年代到80年代初期,随着生物化学技术的发展,产生出许多生物分子序列数据,而在这个阶段数学统计方法和计算机技术都得到较快的发展,于是促使一部分计算机科学家应用计算机技术解决生物学问题,特别是与生物分子序列相关的问题。他们开始研究生物分子序列,研究如何根据序列推测结构和功能,出现了一系列著名的序列比较方法,其中,Needleman和Wunsch于1970年提出的序列比对算法是对生物信息学发展最重要的贡献。同年,Gibbs和McIntyre发表的矩阵打点作图法也是进行序列比较的一个著名方法,该方法可用于寻找序列中的重复片段,从而推测其功能。Dayhoff提出的基于点突变模型的PAM(point accepted multation)矩阵是第一个广泛使用的比较氨基酸相似性的打分矩阵,它大大地提高了序列比较算法的性能。1981年,Smith和Waterman提出了著名的公共子序列识别算法,同年,Doolittle提出关于序列模式的概念。1983年,Wilbur和Lipman发表了数据库相似序列搜索算法。1985年,出现快速的蛋白质序列搜索算法FASTP/FASTN,1988年,Pearson和Lipman发表了著名的序列比较算法FASTA。1990年,快速相似序列搜索算法BLAST问世,1997年,BLAST的改进版本PSI-BLAST投入实际应用。

20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库。1982年,核酸数据库GenBank第3版公开发行。1986年,日本核酸序列数据库DDBJ诞生。1986年,出现蛋白质数据库SWISS-PROT。1988年,美国国家卫生研究所和美国国家图书馆成立国家生物技术信息中心NCBI。同年,成立欧洲分子生物学网络(EMBnet),该网络专门发布各种生物数据库。

20世纪90年代后,科学家们开始了大规模的基因组研究。1986年,出现基因组学genomics)概念,即研究基因组的作图、测序和分析。1990年,国际人类基因组计划启动,该计划被誉为生命科学的“阿波罗登月计划”。1993年,成立Sanger中心,该中心专门从事基因组研究。1995年,第一个细菌基因组被完全测序,1996年,酵母基因组被完全测序。1996年,Affymetrix生产出第一块DNA芯片。1998年,第一个多细胞生物——线虫的基因组被完全测序。1999年,果蝇的基因组被完全测序。1999年年底,国际人类基因组计划联合研究小组宣布人类第一次获得一对完整的人类染色体——第22对染色体的遗传序列。2000年6月24日,人类基因组计划协作组的6个国家研究机构在全球同一时间宣布已完成人类基因组的工作框架图。与此同时,生物信息学在人类基因组计划的推动之下迅速发展。

(二)人类基因组计划

人类基因组计划(human genome project,HGP)是由美国科学家于1985年率先提出,于1990年正式启动的。美国、英国、法国、前西德、日本和中国科学家共同参与了这一预算达30亿美元的人类基因组计划。按照这个计划的设想,在2005年,要把人体内约10万个基因的密码全部解开,同时绘制出人类基因的谱图。换句话说,就是要揭开组成人体4万个基因30亿个碱基对的秘密。人类基因组计划与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划。

人类基因组计划(HGP)的目的是测出人类基因组DNA上30亿个碱基对的序列,发现所有人类基因,找出它们在染色体上的位置,破译人类全部遗传信息。进而解码生命、了解生命的起源、了解生命体生长发育的规律、认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。在人类基因组计划中,还包括对五种生物基因组的研究:大肠埃希菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。

人类基因组计划(HGP)的主要任务是人类的DNA测序,包括下面四张谱图,此外还有测序技术、人类基因组序列变异、功能基因组技术、比较基因组学、社会、法律、伦理研究、生物信息学和计算生物学、教育培训等目的,利用HGP发展起来的这些技术和资源进行生物学研究的科学家,促进了人类健康。

1.遗传图谱(genetic map)

又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。意义:6000多个遗传标记已经能够把人的基因组分成6000多个区域,使得连锁分析法可以找到某一致病或表现型基因与某一标记邻近(紧密连锁)的证据,这样可把这一基因定位于这一已知区域,再对基因进行分离和研究。对于疾病而言,找基因和分析基因是关键。

2.物理图谱(physical map)

物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。DNA物理图谱是指DNA链的限制性酶切片段的排列顺序,即酶切片段在DNA链上的定位。因限制性内切酶在DNA链上的切口是以特异序列为基础的,核苷酸序列不同的DNA,经酶切后就会产生不同长度的DNA片段,由此而构成独特的酶切图谱。因此,DNA物理图谱是DNA分子结构的特征之一。DNA是很大的分子,由限制性内切酶产生的用于测序反应的DNA片段只是其中极小部分,这些片段在DNA链中所处的位置关系是应该首先解决的问题,故DNA物理图谱是顺序测定的基础,也可理解为指导DNA测序的蓝图。

3.序列图谱(sequence map)

随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段过程。通过测序得到基因组的序列图谱。

4.基因图谱(gene map)

基因图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。在人类基因组中鉴别出占2%~5%长度的全部基因的位置、结构与功能,最主要的方法是通过基因的表达产物mRNA反追到染色体的位置。

基因图谱的意义在于它能有效地反映在正常或受控条件下表达的全基因时空图。通过这张图可以了解某一基因在不同时间不同组织、不同水平的表达;也可以了解一种组织中不同时间、不同基因中不同水平的表达,还可以了解某一特定时间、不同组织中的不同基因不同水平的表达。

HGP对人类疾病基因的研究有重要意义,人类疾病相关基因是人类基因组中结构和功能完整性至关重要的信息。对于单基因病,采用“定位克隆”和“定位候选克隆”的全新思路,导致了亨廷顿舞蹈病、遗传性结肠癌和乳腺癌等一大批单基因遗传病致病基因的发现,为这些疾病的基因诊断和基因治疗奠定了基础。对于心血管疾病、肿瘤、糖尿病、神经精神类疾病(老年性痴呆、精神分裂症)、自身免疫性疾病等多基因疾病是目前疾病基因研究的重点。健康相关研究是HGP的重要组成部分,1997年相继提出:“肿瘤基因组解剖计划”“环境基因组学计划”“国际人类基因组单体型图计划(The International HapMap Project)”。

(三)后基因组时代

随着人类基因组计划的完成,我们进入了“后基因组学”(post-genomics)时代。基因组学研究重心已开始从揭示生命的所有遗传信息转移到在分子整体水平对功能的研究上,这种转向的一个标志是产生了功能基因组学(functional genomics)这一新学科。功能基因组学是指在全基因组序列测定的基础上,从整体水平研究基因及其产物在不同时间、空间、条件的结构与功能关系及活动规律的学科。人类基因组计划在基因表达图谱方面已取得一定进展,但它有90%的功能尚不明确,功能基因组学将借助生物信息学的技术平台,利用先进的基因表达技术及庞大的生物功能检测体系,从浩瀚无垠的基因库筛选并确知某一特定基因的功能,通过比较分析基因及其表达的状态,确定基因的功能内涵,揭示生命奥秘,甚至开发出基因产品。功能基因组学在后基因组时代占有重要位置,其研究成果直接给人类健康带来福音。

在后基因组时代生物信息学的作用将更加举足轻重,要读懂人类基因组计划测序得到“天书”,仅仅依靠传统的实验观察手段无济于事,必须借助高性能计算机和高效数据处理的算法语言。只有如此,“天书”才能发挥它应有的价值。生命科学的革命性巨变已把生物信息学推到了前台,生物信息技术已成为后基因时代的核心技术之一,在蛋白质组学、功能基因组学、药物基因组学等领域必将更有用武之地,从而对生命科学的发展产生无法估计的巨大影响。

版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。http://www.apmygs.com/1952.html
返回顶部