蛋白质二级结构预测-基于氨基酸疏水性的预测方法
这种方法是一种用物理化学方法进行二级结构预测的方法,或称为立体化学方法。在蛋白质中,氨基酸的理化性质对蛋白质的二级结构影响较大,因此在进行结构预测时考虑氨基酸残基的物理化学性质,如疏水性、极性、侧链基团的大小等,根据氨基酸残基各方面的性质及残基之间的组合预测可能形成的二级结构。“疏水性”是氨基酸的一种重要性质,疏水性的氨基酸倾向于远离周围水分子,将自己包埋进蛋白质的内部。这一趋势加上空间立体条件和其它一些因素决定了一个蛋白质最终折叠成的三维空间构象。
随着蛋白质结构数据的积累,人们开始注意到一些较简单的序列与结构关系。可以通过疏水氨基酸出现的周期性预测蛋白质的二级结构,利用各种氨基酸的疏水值定位蛋白质的疏水区域。Lim等人很早就对α螺旋和β折叠归纳出了一套预测模式。例如α螺旋的轮状结构特征,轮的一侧通常处于蛋白质的疏水核心,另一侧则常处于亲水表面。因此,α螺旋中亲疏水氨基酸残基的出现位置也就有一定的规律性,亲水残基多出现在亲水侧面,而疏水残基则多出现在疏水侧面,反映在序列上就是一些特征的亲疏水残基间隔模式。
疏水性氨基酸的位置有助于推断蛋白质中二级结构的定位,通过显示疏水氨基酸的分布分析二级结构。根据蛋白质序列中疏水性氨基酸出现模式,可以预测局部的二级结构。例如,当我们在一段序列中发现第i、i+3、i+4位是疏水氨基酸时,这一片段就被可以预测为α螺旋;当我们发现第i、i+1、i+4位为疏水氨基酸时,这一片段也可以被预测为α螺旋。同样,对于β折叠,也存在着一些特征的亲疏水残基间隔模式,埋藏的β折叠通常由连续的疏水残基组成,一侧暴露的β折叠则通常具有亲水-疏水的两残基重复模式。不过,由于β折叠受结构环境的影响较大,序列的亲疏水模式不及α螺旋有规则。原则上,通过在序列中搜寻特殊的亲疏水残基间隔模式,就可以预测α螺旋和β折叠。
在Biou等人提出的点模式方法中,将20种氨基酸残基分为亲水、疏水以及两性残基三类,用八残基片段表征亲疏水间隔模式。以一个二进制位代表一个残基,疏水为1,亲水为0,共八位。这样,八残基片段的亲疏水模式就可用1个0~255的数值来表示。α螺旋的特征模式对应的值为9,12,13,17,??,201,205,217,219,237;β折叠的特征模式则由连续的1或交替的01构成。在进行二级结构预测时,根据氨基酸片段计算点模式,如果点模式的值为α螺旋的特征数,则片段预测为α螺旋;若为β折叠的特征数,则片段预测为β折叠。其余的预测为无规则卷曲。这种方法的三态预测准确率为55%左右,其中对无规则卷曲预测过多,而对β折叠则预测不足。当序列长度小于50时,准确率较高。
上述方法定性描述序列片段的亲、疏水特征,通过特征模式识别来预测蛋白质的二级结构。另一种方法是直接计算序列片段的疏水性和疏水矩,并根据定量计算结果预测该片段对应的二级结构。序列片段疏水性计算的方法依赖于各个氨基酸残基疏水值。对于一条蛋白质序列,用一个滑动窗口扫描该序列,计算滑动窗口下各个氨基酸的平均疏水值H和疏水矩H。窗口的宽度是可以调整的,一般取9~15残基的窗口宽度,以获得较多的信息和较小的噪声干扰。平均疏水值H的计算公式如下:
按照上述公式的计算结果,画出整个蛋白质的疏水曲线,形成疏水性图。通过分析这些图谱,可以帮助预测蛋白质的二级结构