对于蛋白质序列,记分矩阵主要用于记录在做序列比对时两个相对应的残基的相似度。简单的替换记分办法,如+1表示匹配,0表示失配,是不够的。构成蛋白质的氨基酸具有不同的生物化学特性,这些特性可影响它们在进化过程中的相互替换。下面介绍两种常用的氨基酸替换记分矩阵。
(1)PAM矩阵:
对于氨基酸之间的替换,对实际替换率的直接观察常常是导出合理的记分的好方法,由此产生的一组替换记分矩阵是点突变可接受矩阵(point accepted matrix,PAM)。它们基于氨基酸进化的点突变模型,即如果两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比对中最广泛使用的记分方法之一,1个PAM的进化距离表示在100个残基中发生一个可以接受的残基突变的概率。
对应于一个更大进化距离间隔的突变矩阵,可以通过对原始矩阵进行一定的数学处理获得。将PAM-1自乘 n 次,可以得到PAM- n 。例如,PAM250相似性分数矩阵(表1-9)相当于在两个序列之间具有20%的残基匹配。对于PAM- n 矩阵, n 越小表示氨基酸变异的可能性越小,高相似序列之间的比对应该选用 n 值小的矩阵,低相似序列之间的比对应该选用 n 值大的矩阵。
表1-9 PAM-250矩阵
PAM矩阵的制作步骤是:
1)构建序列相似(大于85%)的比对。
2)计算氨基酸 j 的相对突变率 mj (j被其他氨基酸替换的次数)。
3)针对每个氨基酸对 i 和 j ,计算 j 被 i 替换的次数。
4)替换次数除以相对突变率( mj )。
5)利用每个氨基酸出现的频度对 j 进行标准化。
6)取常用对数,得到PAM- i ( i , j )。
(2)BLOSUM矩阵:
BLOSUM(block substitution matrix)矩阵由Henikoff夫妇从蛋白质模块数据库BLOCKS中找出的另一种氨基酸替换记分矩阵,用于解决序列的远距离相关。在构建矩阵过程中,通过设置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引起的任何潜在偏差。在每一片段中,计算出每个残基位置的平均贡献,使得整个片段可以有效地被看做为单一序列,通过设置不同的百分比,产生了不同矩阵。
表1-10所示的BLOSUM矩阵是由具有62%相同比例的序列被组合统计后形成的矩阵。注意,在比对高度相似的序列时使用较高值的矩阵(高至BLOSUM-90),在比对差异大的序列时使用较低值的矩阵(低至BLOSUM-30)。对于BLOSUM- n 矩阵, n 越小则表示氨基酸相似的可能性越小,高相似的序列之间比较应该选用 n 值大的矩阵,低相似序列之间的比对应该选用 n 值小的矩阵。例如,BLOSUM-62用来比较62%相似度的序列,BLOSUM-80用来比较80%左右的序列。