蛋白质序列比对的替换记分矩阵

对于蛋白质序列,记分矩阵主要用于记录在做序列比对时两个相对应的残基的相似度。简单的替换记分办法,如+1表示匹配,0表示失配,是不够的。构成蛋白质的氨基酸具有不同的生物化学特性,这些特性可影响它们在进化过程中的相互替换。下面介绍两种常用的氨基酸替换记分矩阵。

(1)PAM矩阵:

对于氨基酸之间的替换,对实际替换率的直接观察常常是导出合理的记分的好方法,由此产生的一组替换记分矩阵是点突变可接受矩阵(point accepted matrix,PAM)。它们基于氨基酸进化的点突变模型,即如果两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比对中最广泛使用的记分方法之一,1个PAM的进化距离表示在100个残基中发生一个可以接受的残基突变的概率。

对应于一个更大进化距离间隔的突变矩阵,可以通过对原始矩阵进行一定的数学处理获得。将PAM-1自乘 次,可以得到PAM- 。例如,PAM250相似性分数矩阵(表1-9)相当于在两个序列之间具有20%的残基匹配。对于PAM- 矩阵, 越小表示氨基酸变异的可能性越小,高相似序列之间的比对应该选用 值小的矩阵,低相似序列之间的比对应该选用 值大的矩阵。

表1-9 PAM-250矩阵

PAM矩阵的制作步骤是:

1)构建序列相似(大于85%)的比对。

2)计算氨基酸 的相对突变率 mj (j被其他氨基酸替换的次数)。

3)针对每个氨基酸对 和 ,计算 被 替换的次数。

4)替换次数除以相对突变率( mj )。

5)利用每个氨基酸出现的频度对 进行标准化。

6)取常用对数,得到PAM- ( , )。

(2)BLOSUM矩阵:

BLOSUM(block substitution matrix)矩阵由Henikoff夫妇从蛋白质模块数据库BLOCKS中找出的另一种氨基酸替换记分矩阵,用于解决序列的远距离相关。在构建矩阵过程中,通过设置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引起的任何潜在偏差。在每一片段中,计算出每个残基位置的平均贡献,使得整个片段可以有效地被看做为单一序列,通过设置不同的百分比,产生了不同矩阵。

表1-10所示的BLOSUM矩阵是由具有62%相同比例的序列被组合统计后形成的矩阵。注意,在比对高度相似的序列时使用较高值的矩阵(高至BLOSUM-90),在比对差异大的序列时使用较低值的矩阵(低至BLOSUM-30)。对于BLOSUM- 矩阵, 越小则表示氨基酸相似的可能性越小,高相似的序列之间比较应该选用 值大的矩阵,低相似序列之间的比对应该选用 值小的矩阵。例如,BLOSUM-62用来比较62%相似度的序列,BLOSUM-80用来比较80%左右的序列。

表1-10 BLOSUM-62矩阵

版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。http://www.apmygs.com/1970.html
返回顶部