基因开放读码框的识别

开放读码框（Open Reading Frame，ORF）是DNA上的一段碱基序列，包括从5’端翻译起始密码子（ATG）到终止密码子（TAA、TAG、TGA）的编码蛋白质的碱基序列。

每个ORF对应一个潜在的蛋白质编码区域。对于任意给定的一段DNA序列，我们并不知道DNA双链中哪一条是编码链，也不能确定其编码区是否从这条序列的第一个碱基开始所以每条链都有3种潜在的开放读码框，一段双链DNA序列在理论上就有6种潜在的开放读码框，即先以所给的DNA单链为模板，分别从5’→3’方向的第1、2、3个碱基开始翻译，再以其互补链为模板，分别从3’→5’方向的第1、2、3个碱基开始翻译，得到另外3种翻译结果。正链上的3个读码框称为“正向”（forward）读码框，而负链（或互补链）上的读码框称为“反向”（reverse）读码框。在6个潜在的开放读码框中，一般选择中间没有被终止密码子隔开最大的那个读码框作为正确的预测结果。

原核生物的基因结构比较简单，绝大多数是连续基因，不含间隔的内含子。多数基因组的编码序列都在100个氨基酸以上。真核生物的基因结构远比原核生物的复杂。真核生物的基因一般为断裂基因（interrupted gene），由内含子和外显子组成，编码区被内含子分隔成若干段，开放读码框的长度变化范围非常大，因此真核生物基因结构的预测远比原核生物困难。但是，在真核生物的开放读码框中，外显子与内含子之间的连接在绝大部分情况下满足GU-AG规律：内含子序列5’端起始的两个核苷酸总是GU，并且其3’端最后的两个核苷酸总是AG，即：5’-GU ……AG-3’，这个规律有助于真核生物开放阅读框的识别。

目前国际上用于开放读码框的预测工具有很多，这些工具使用的预测方法、针对的物种范围和最终的结果都各有不同。

这些预测工具按照预测方法的不同主要分为两类：

第一种方法以统计学分析和模式识别为基础（statistics-based）的方法，从基因序列本身进行预测，不需要与大规模的数据库进行比较，预测速度快，当缺少待分析物种的相关数据库信息时用这种方法是比较好的选择，GENSCAN就是基于这种方法建立的工具，使用比较广泛，预测效率比较高。

第二种方法是以同源比对为基础（homology-based）的方法，依赖于已知的数据库来源、数量和质量，预测的正确性比第一类高。以人发状分裂相关增强子-5的mRNA序列和ORF Finder工具为例，其在GenBank中的编码为BC087840。

相关推荐