蛋白质结构域的识别方法

蛋白质结构域是具有特定功能的基本结构单元。它既是蛋白质结构化分类的基础,又与蛋白质进化密切相关。它对于人们认识蛋白质的结构、功能和进化有着重要的意义。

因此,蛋白质结构域的研究已成为生物信息学中的一个重要问题。通过专家手工来确定蛋白质结构域是非常可靠的。然而处在数据量急速增长的后基因组时代,人类专家的处理能力已无法满足数据分析的需要,这时自动化的预测方法则显得尤为重要。自动化的结构域预测方法可分为基于模板的方法和从头预测的方法。尽管基于模板的方法已经取得了较大的成功,但它在缺乏相应的模板信息时就不再有效。仅从序列信息来预测结构域的方法(从头预测)成为结构生物学和序列分析中的一个重要的问题。目前许多机器学习方法,如隐马尔可夫模型、神经网络、支持向量机等已经被应用于蛋白质结构域边界的从头预测中。

1.递归的神经网络

可使用的模型有基于长短记忆(long short-term memory,LSTM)递归网络的蛋白质结构域边界预测模型——IPSP-LSTM。该模型通过选择性记忆的递归方法对蛋白质序列中的长程相关性进行建模。该模型在整体结构域预测和多域蛋白质链的预测中的效果较好。在双域的预测中的敏感性和特异性更加平衡。

2.支持向量机

支持向量机的基本原理是:首先通过将种子序列与数据库中已知的序列相比较,生成多序列比对结果,对比对结果进行特征提取,这些特征能够直接或间接的反映蛋白质的结构属性及结构域信息,再运用信息论的方法将特征值信息最大化。使用支持向量机学习系统对提取的特征值进行分类,实现了从多变量到单分类结果的非线性映射。

版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。http://www.apmygs.com/1992.html
返回顶部