蛋白质二级结构的预测方法

1.经验参数法

经验参数法是Chou和Fasman提出的，是一种基于单个氨基酸残基统计的经验预测方法。通过统计分析，获得每个残基出现于特定二级结构构象的形象性因子，进而利用这些倾向性因子预测蛋白质的二级结构。它使用氨基酸物理化学数据中派生出来的规律来预测二级结构。首先统计出20种氨基酸在α螺旋、β折叠和无规则卷曲中出现频率的大小，然后计算出每一种氨基酸在这几种构象中的构象参数Px，构象参数值的大小反映了该种残基出现在某种构象中的倾向性的大小。Chou和Fasman根据残基的倾向性因子提出二级结构预测的经验规则，根据蛋白序列寻找二级结构的成核位点和终止位点。这种方法可能能够正确反映蛋白质二级结构的形成过程，但预测成功率并不高，仅有50%左右。

2.GOR算法

GOR算法是一种单序列预测方法，因其作者Garnier、Osguthorpe和Robson而得名。基于信息论和贝叶斯统计学方法，将蛋白质序列作为一连串的信息值处理。该方法不仅考虑被预测位置本身氨基酸残基的种类对该位置构象的影响，也考虑相邻残基种类对该位置构象的影响。GOR方法的具体做法是：将序列中的每一个残基与和它的N端紧邻的8个残基以及和它C端紧邻的8个残基一起考虑，通过对已知二级结构的蛋白样本的分析，计算出中心残基的二级结构分别为螺旋、折叠和转角时每种氨基酸出现在窗口中各个位置的频率，产生一个17×20的得分矩阵。然后预测序列中每个残基形成这些二级结构的概率。这样使预测的成功率提高到65%左右。

3.多序列列线预测

对序列进行多序列比对，并利用多序列比对的信息进行结构的预测。调查者可找到和未知序列相似的序列家族，然后假设序列家族中的同源区有同样的二级结构，预测不是基于一个序列而是一组序列中的所有序列的一致序列。

4.神经网络方法

神经网络算法通常是由三层相同的神经元构成的层状网络，使用反馈式学习规则，底层为输入层，中间为隐含层，顶层是输出层，信号在相邻各层间逐层传递，不相邻的各层间无联系，在学习过程中根据输入的一级结构和二级结构的关系的信息不断调整各单元之间的权重，最终目标是找到一种好的输入与输出的映像，并对未知二级结构的蛋白进行预测。神经网络方法的优点是应用方便，获得结果较快较好；主要缺点是没有反映蛋白的物理和化学特性，而且利用大量的可调参数，使结果不易理解。许多预测程序如PHD、PSIPRED等均结合利用了神经网络的计算方法。

5.基于已有知识的预测方法

预测方法包括Lim和Cohen两种方法。Lim方法是一种物理化学的方法，它根据氨基酸残基的物理化学性质，包括：疏水性、亲水性、带电性以及体积大小等，并考虑残基之间的相互作用而制订出一套预测规则。对于小于50个氨基酸残基的肽链，Lim方法的预测准确率可以达到73%，另一种是Cohen方法，它的提出当时是为了α/β蛋白的预测，基本原理是：疏水性残基决定了二级结构的相对位置，螺旋亚单元或扩展单元是结构域的核心，α螺旋和β折叠组成了结构域。

6.混合方法

将以上几种方法选择性的混合使用，并调整它们之间使用的权重可以提高预测的准确率，目前预测准确率在70%以上的都是混合方法，其中，同源性比较方法、神经网络方法和GOR方法应用最为广泛。

相关推荐