蛋白质二级结构预测-Chou-Fasman预测方法
Chou-Fasman方法是一种基于单个氨基酸残基统计的经验参数方法,由Chou和Fasman在20世纪70年代提出来。通过统计分析,获得的每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。
每种氨基酸残基出现在各种二级结构中倾向或者频率是不同的,例如Glu主要出现在α螺旋中,Asp和Gly主要分布在转角中,Pro也常出现在转角中,但是绝不会出现在α螺旋中。因此,可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测。另外,不同的多肽片段有形成不同二级结构的倾向。例如:肽链Ala(A)-Glu(E)-Leu(L)-Met(M)倾向于形成α螺旋,而肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成α螺旋
通过对大量已知结构的蛋白质进行统计,为每个氨基酸残基确定其二级结构倾向性因子。在Chou-Fasman方法中,这几个因子是Pα、Pβ和Pt,它们分别表示相应的残基形成α螺旋、β折叠和转角的倾向性。另外,每个氨基酸残基同时也有四个转角参数,f(i)、f(i+1)、f(i+2)和f(i+3)。
这四个参数分别对应于每种残基出现在转角第一、第二、第三和第四位的频率,例如,脯氨酸约有30%出现在转角的第二位,然而出现在第三位的几率不足4%。根据Pα和Pβ的大小,可将20种氨基酸残基分类,如谷氨酸、丙氨酸是最强的螺旋形成残基,而缬氨酸、异亮氨酸则是最强的折叠形成残基。除各个参数之外,还有一些其它的统计经验,如,脯氨酸和甘氨酸最倾向于中断螺旋,而谷氨酸则通常倾向中断折叠。
在统计得出氨基酸残基倾向性因子的基础上,Chou和Fasman提出了二级结构的经验规则,其基本思想是在序列中寻找规则二级结构的成核位点和终止位点。在具体预测二级结构的过程中,首先扫描待预测的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列片段,然后对于成核区域进行扩展,不断扩大成核区域,直到二级结构类型可能发生变化为止,最后得到的就是一段具有特定二级结构的连续区域。下面是4个简要的规则:
1、α螺旋规则
沿着蛋白质序列寻找α螺旋核,相邻的6个残基中如果有至少4个残基倾向于形成α螺旋,即有4个残基对应的Pα>100,则认为是螺旋核。然后从螺旋核向两端延伸,直至四肽a片段Pα的平均值小于100为止。按上述方式找到的片段长度大于5,并且Pα的平均值大于Pβ的平均值,那么这个片段的二级结构就被预测为α螺旋。此外,不容许Pro在螺旋内部出β,但可出现在C末端以及N端的前三位,这也用于终止螺旋的延伸。
2、β折叠规则
如果相邻6个残基中若有4个倾向于形成β折叠,即有4个残基对应的Pβ>100,则认β为是折叠核。折叠核向两端延伸直至4个残基Pβ的平均值小于100为止。若延伸后片段的Pβ的平均值大于105,并且Pβ的平均值大于Pα的平均值,则该片段被预测为β折叠。
3、转角规则
转角的模型为四肽组合模型,要考虑每个位置上残基的组合概率,即特定残基在四肽模型中各个位置的概率。在计算过程中,对于从第i个残基开始的连续4个残基片段,将上述概率相乘,根据计算结果判断是否是转角。如果f(i)×f(i+1)×f(i+2)×f(i+3)>7.5×10-5,四肽片段Pt的平均值大于100,并且Pt的均值同时大于Pα的均值以及Pβ的均值,则可以预测这样连续的4个残基形成转角。
4、重叠规则
假如预测出的螺旋区域和折叠区域存在重叠,则按照重叠区域Pα均值和Pβ均值的相对大小进行预测,若Pα的均值大于Pβ的均值,则预测为螺旋;反之,预测为折叠。
abChou-Fasman预测方法原理简单明了,二级结构参数的物理意义明确,该方法中二级结构的成核、延伸和终止规则基本上反映了真实蛋白质中二级结构形成的过程。该方法的预测准确率在50%左右。