蛋白质二级结构预测的发展及局限性
蛋白质二级结构的预测开始于20世纪60年代中期。二级结构预测的方法大体分为三代,第一代是基于单个氨基酸残基统计分析,从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。
第二代预测方法是基于氨基酸片段的统计分析,使用大量的数据作为统计基础,统计的对象不再是单个氨基酸残基,而是氨基酸片段,片段的长度通常为11-21。
片段体现了中心残基所处的环境。在预测中心残基的二级结构时,以残基在特定环境形成特定二级结构的倾向作为预测依据。这些算法可以归为几类:
(1)基于统计信息;
(2)基于物理化学性质;
(3)基于序列模式;
(4)基于多层神经网络;
(5)基于图论;
(6)基于多元统计;
(7)基于机器学习的专家规则;
(8)最邻近算法。
第一代和第二代预测方法有共同的缺陷,它们对三态预测的准确率都小于70%,而对β折叠预测的准确率仅为28~48%,其主要原因是这些方法在进行二级结构预测时只利用局部信息,最多只用局部的20个残基的信息进行预测。
二级结构预测的实验结果和晶体结构统计分析都表明,二级结构的形成并非完全由局域的序列片段决定,长程相互作用不容忽视。蛋白质的二级结构在一定程度上受远程残基的影响,尤其是β折叠。
从理论上来说,局部信息仅包含二级结构信息的65%左右,因此,可以想象只用局部信息的二级结构预测方法,其准确率不会有太大的提高。
二级结构预测的第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信息,使二级结构预测的准确程度有了比较大的提高,特别是对β折叠的预测准确率有较大的提高,预测结果与实验观察趋于一致。
一般75%的氨基酸残基可以被置换而不改变蛋白质的结构,然而有时改变几个关键的残基则可能导致破坏蛋白质的结构。这好像是两个矛盾的结论,但解释又非常简单。一个蛋白质在其进化过程中探查了每个位置上氨基酸可能的与不可能的变化,不可能变化的部分是进化保守区域。
可变部分的变化不改变结构,而不可变部分的变化则改变蛋白质的结构,由此失去蛋白质原有的功能,因而也就难以延续下去。这些不可变部分体现了蛋白质功能对结构的特定要求。这样,从一个蛋白质家族中提取的残基替换模式高度反映了该家族特异的结构。
通过序列的比对可以得到蛋白质序列的进化信息,得到蛋白质家族中的特定残基替换模式,此外,通过序列的比对也可以得到长程信息。
目前,许多二级结构预测的算法都是基于序列比对的,通过序列比对可以计算出目标序列(待预测其二级结构的序列)中每个氨基酸的保守程度。对于二级结构三态(α,β,none)预测准确率首先达到70%的方法是基于统计的神经网络方法PHDsec。
PHDsec利用通过多重序列比对得到的进化信息作为神经网络的输入,另外采用了一个全局的描述子,即所有氨基酸组成(20种氨基酸中每个所占的比例)作为蛋白质序列的全局信息。这类算法预测的准确率能达到70%至75%。
各种方法预测的准确率随蛋白质类型的不同而变化。例如,一种预测方法在某些情况下预测的准确率能够达到90%,而在最差的情况下仅达到50%,甚至更低。在实际应用中究竟使用那种方法,还需根据具体的情况。
虽然二级结构预测的准确性有待提高,其预测结果仍然能提供许多结构信息,尤其是当一个蛋白质的真实结构尚未解出时更是如此。通过对多种方法预测结果的综合分析,再结合实验数据,往往可以提高预测的准确度。
二级结构预测通常作为蛋白质空间结构预测的第一步。例如,二级结构预测是内部折叠、内部残基距离预测的基础。更进一步,二级结构预测可以作为其它工作的基础,例如,用于推测蛋白质的功能,预测蛋白质的结合位点等。