目前,大量参与重要生命活动的基因功能仍然未知。因此,生物信息学的重要任务之一是在全基因组范围内对基因功能进行预测。传统的基因功能预测方法主要依赖于序列的同源性,而近来已经发展了很多基于GO数据库或KEGG数据库的方法,利用高通量的基因表达和蛋白质互作数据进行功能预测,其中一些新开发的方法试图整合多种数据类型,通过构建功能相关网络的方式预测基因功能。
GO数据库包含了基因参与的生物过程,所处的细胞位置及具有的分子功能三方面功能信息,通过GO中的注释信息,可以对基因的功能进行预测。KEGG是系统分析基因功能、联系基因组信息和功能信息的知识库,KEGG的PATHWAY数据库提供了基因编码的生物学大分子酶或者蛋白质在生命体内相互联系相互影响的情况。
同一生物学通路内的基因大多参与了此代谢通路所揭示的生命过程。根据功能相似的基因可能导致相似的表型这一依据,可以通过网络拓扑性质对基因的功能进行预测,并利用GO和KEGG功能富集分析方法进行进一步的预测。
当前基于GO或KEGG的基因功能预测策略一般为:
首先,从总体上宏观地概括抽取信息,如不同样本间、不同时间点间全部差异基因;
其次,通过GO或KEGG分析,即从GO分类结果找到实验涉及的显著功能类别或将差异基因映射到通路中,根据基因在通路中的位置及表达水平的变化算出受影响显著的通路,从而预测未知的基因功能。