蛋白质序列比对的替换记分矩阵

对于蛋白质序列，记分矩阵主要用于记录在做序列比对时两个相对应的残基的相似度。简单的替换记分办法，如+1表示匹配，0表示失配，是不够的。构成蛋白质的氨基酸具有不同的生物化学特性，这些特性可影响它们在进化过程中的相互替换。下面介绍两种常用的氨基酸替换记分矩阵。

（1）PAM矩阵：

对于氨基酸之间的替换，对实际替换率的直接观察常常是导出合理的记分的好方法，由此产生的一组替换记分矩阵是点突变可接受矩阵（point accepted matrix，PAM）。它们基于氨基酸进化的点突变模型，即如果两种氨基酸替换频繁，说明自然界易接受这种替换，那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比对中最广泛使用的记分方法之一，1个PAM的进化距离表示在100个残基中发生一个可以接受的残基突变的概率。

对应于一个更大进化距离间隔的突变矩阵，可以通过对原始矩阵进行一定的数学处理获得。将PAM-1自乘 n 次，可以得到PAM- n 。例如，PAM250相似性分数矩阵（表1-9）相当于在两个序列之间具有20%的残基匹配。对于PAM- n 矩阵， n 越小表示氨基酸变异的可能性越小，高相似序列之间的比对应该选用 n 值小的矩阵，低相似序列之间的比对应该选用 n 值大的矩阵。

表1-9　PAM-250矩阵

PAM矩阵的制作步骤是：

1）构建序列相似（大于85%）的比对。

2）计算氨基酸 j 的相对突变率 mj （j被其他氨基酸替换的次数）。

3）针对每个氨基酸对 i 和 j ，计算 j 被 i 替换的次数。

4）替换次数除以相对突变率（ mj ）。

5）利用每个氨基酸出现的频度对 j 进行标准化。

6）取常用对数，得到PAM- i （ i ， j ）。

（2）BLOSUM矩阵：

BLOSUM（block substitution matrix）矩阵由Henikoff夫妇从蛋白质模块数据库BLOCKS中找出的另一种氨基酸替换记分矩阵，用于解决序列的远距离相关。在构建矩阵过程中，通过设置最小相同残基数百分比将序列片段整合在一起，以避免由于同一个残基对被重复计数而引起的任何潜在偏差。在每一片段中，计算出每个残基位置的平均贡献，使得整个片段可以有效地被看做为单一序列，通过设置不同的百分比，产生了不同矩阵。

表1-10所示的BLOSUM矩阵是由具有62%相同比例的序列被组合统计后形成的矩阵。注意，在比对高度相似的序列时使用较高值的矩阵（高至BLOSUM-90），在比对差异大的序列时使用较低值的矩阵（低至BLOSUM-30）。对于BLOSUM- n 矩阵， n 越小则表示氨基酸相似的可能性越小，高相似的序列之间比较应该选用 n 值大的矩阵，低相似序列之间的比对应该选用 n 值小的矩阵。例如，BLOSUM-62用来比较62%相似度的序列，BLOSUM-80用来比较80%左右的序列。

表1-10　BLOSUM-62矩阵

相关推荐